我自己也是 a 卡,比较喜欢使用 llama.cpp,还能用量化模型,大一点的模型量化了也比小模型没量化效果好,vllm 和 sglang 都没尝试过,transformer 相比起来比较慢
登录后可发帖和回复
我自己也是 a 卡,比较喜欢使用 llama.cpp,还能用量化模型,大一点的模型量化了也比小模型没量化效果好,vllm 和 sglang 都没尝试过,transformer 相比起来比较慢