GoForum › 🌐 V2EX

消费级显卡(16G A 卡)是不是不适合运行 vllm 和 sglang，好像使用 transformer 推理都比这两个框架快，并且占用显存低

zhengfan2016 · 2026-05-31 10:43 · 0 次点赞 · 1 条回复

如题，wsl 配 rocm 下，sglang 没跑起来，vllm 跑起来了，但是动不动爆显存，只有跑个 2b 的模型才比较稳定，而且推理首字速度体感感觉比纯用 transformer 还慢。

transformer 我试了可以成功跑个 9b 的 gptq 模型(vllm 这个模型跑不成功报错 qwen3.5 什么 config 有问题，claudecode 修不了)，是我不会用 vllm 还是消费级显卡就是不适合用这类推理框架？

1 条回复

bnull · 2026-05-31 11:33

我自己也是 a 卡,比较喜欢使用 llama.cpp,还能用量化模型,大一点的模型量化了也比小模型没量化效果好,vllm 和 sglang 都没尝试过,transformer 相比起来比较慢

添加回复

你还需要登录后发表回复

登录后可发帖和回复

登录注册

主题信息

作者: zhengfan2016

发布: 2026-05-31

点赞: 0

回复: 0