GoForum › 用户主页

KaiWuBOSS

加入时间: 2026-04-24 (9天前) 当前积分: 100 Lv0

回过头来看 这个帖子怎么写得这么煽动。。。 其实我就是一个人能力不够想找专家帮忙一起写这个项目,我已经有个 MVP 这两天把稳定性跑跑就能发仓库了。

查看完整回复 →

第一次发仓库项目 没经验 😰

0.1.1 版 ios3 脚本没上传上 正在编译 0.1.2 估计三个小时后发布

@sentinelK 我也参考了他的 fiton 但他没有涡轮量化 另外我还做了上下文优化 相比而言 我这个不用调参 而且是硬件最大上下文 最优显存 -fit on 是随机削层,Kaiwu 是精准分层。

–fit on:显存不够就把后面几层丢给 CPU , 不管是什么层,速度损失大。 …

查看完整回复 →

@ntdll 是的 得等新的 cude 现在只支持 n 卡 llama-server-cuda.exe: 用 CUDA 编译的,只能跑在 N 卡 Release 包里只有这一个版本

查看完整回复 →

@zrlhk 我的错 我的上传脚本有问题 晚点推 0.1.2 你要方便可以试试 qwen3 应该没问题

@damontian 换 Qwen3-30B-A3B 这个模型专为低显存优化 3080 10GB 跑起来没问题

@damontian 直接上 30b 模型你选你喜欢的 50 系列看 nvfp 的

@zrlhk 我正在对你这个进行修复 1 你是正常 0.1.1 吗 我看代码 怎么显示你没编译涡轮量化 2 我回退策略太大了 我调整一版 我无论如何让你跑起来 顺畅跑起来

查看完整回复 →

我马上优化一版 空了再试试 gemma4 支持 ios3 的呀 判定有问题

登录后可发帖和回复

登录 注册
用户统计
3
发帖
22
回复
加入于 2026-04-24 (9天前)