GoForum › 🌐 V2EX

llama.cpp 服务开启 embedding 是否稳定？

fox0001 · 2026-06-24 09:18 · 0 次点赞 · 0 条回复

发现“千问”官方提供了qwen3-embedding-4b的量化版，而且是 gguf 格式。使用 Ollama 试用了一下，发现Q4_K_M的效果不错，只比0.6b大了一倍左右。

现在的问题是，部署qwen3-embedding-4b的 gguf 格式版本，生产环境（基于 CPU 推理）应该选用哪个推理服务部署？

llama.cpp
- 其 Docker 镜像体积小，内存占用也小。
- 想使用这个在生产环境部署，但是 Gemini 提到其推理功能没有问题，但其 Server 服务不够稳定。
- 不知道有没有在生产环境使用的成功案例。
Triton Server
- 其 Docker 镜像除了体积大，配置较复杂，暂时没有确定。我们生产环境也用过。
- 目前配置也没问题，剩下体积大的问题。
Ollama
- 即使集成了很多功能，但体积仍然比 Triton Server 少。
- 我们一般用于试用新模型，没在生产环境使用。
TEI
- 即 Huggingface 的 Text Embeddings Inference ，但是不支持 gguf 格式。
- 此方案不可用。

0 条回复

添加回复

你还需要登录后发表回复

登录后可发帖和回复

登录注册

主题信息

作者: fox0001

发布: 2026-06-24

点赞: 0

回复: 0