GoForum › 用户主页

KaiWuBOSS

加入时间: 2026-04-24 (2个月前) 当前积分: 100 Lv0

回过头来看这个帖子怎么写得这么煽动。。。其实我就是一个人能力不够想找专家帮忙一起写这个项目，我已经有个 MVP 这两天把稳定性跑跑就能发仓库了。

查看完整回复 →

第一次发仓库项目没经验 😰

0.1.1 版 ios3 脚本没上传上正在编译 0.1.2 估计三个小时后发布

@sentinelK 我也参考了他的 fiton 但他没有涡轮量化另外我还做了上下文优化相比而言我这个不用调参而且是硬件最大上下文最优显存 -fit on 是随机削层，Kaiwu 是精准分层。

–fit on：显存不够就把后面几层丢给 CPU ，不管是什么层，速度损失大。 …

查看完整回复 →

@ntdll 是的得等新的 cude 现在只支持 n 卡 llama-server-cuda.exe：用 CUDA 编译的，只能跑在 N 卡 Release 包里只有这一个版本

查看完整回复 →

@zrlhk 我的错我的上传脚本有问题晚点推 0.1.2 你要方便可以试试 qwen3 应该没问题

@damontian 换 Qwen3-30B-A3B 这个模型专为低显存优化 3080 10GB 跑起来没问题

@damontian 直接上 30b 模型你选你喜欢的 50 系列看 nvfp 的

@zrlhk 我正在对你这个进行修复 1 你是正常 0.1.1 吗我看代码怎么显示你没编译涡轮量化 2 我回退策略太大了我调整一版我无论如何让你跑起来顺畅跑起来

查看完整回复 →

我马上优化一版空了再试试 gemma4 支持 ios3 的呀判定有问题

登录后可发帖和回复

登录注册

用户统计

发帖

加入于 2026-04-24 (2个月前)