GoForum🌐 V2EX

消费级显卡(16G A 卡)是不是不适合运行 vllm 和 sglang,好像使用 transformer 推理都比这两个框架快,并且占用显存低

zhengfan2016 · 2026-05-31 10:43 · 0 次点赞 · 1 条回复

如题,wsl 配 rocm 下,sglang 没跑起来,vllm 跑起来了,但是动不动爆显存,只有跑个 2b 的模型才比较稳定,而且推理首字速度体感感觉比纯用 transformer 还慢。

transformer 我试了可以成功跑个 9b 的 gptq 模型(vllm 这个模型跑不成功报错 qwen3.5 什么 config 有问题,claudecode 修不了),是我不会用 vllm 还是消费级显卡就是不适合用这类推理框架?

1 条回复
bnull · 2026-05-31 11:33
#1

我自己也是 a 卡,比较喜欢使用 llama.cpp,还能用量化模型,大一点的模型量化了也比小模型没量化效果好,vllm 和 sglang 都没尝试过,transformer 相比起来比较慢

添加回复
你还需要 登录 后发表回复

登录后可发帖和回复

登录 注册
主题信息
作者: zhengfan2016
发布: 2026-05-31
点赞: 0
回复: 0