GoForum🌐 V2EX

llama.cpp 服务开启 embedding 是否稳定?

fox0001 · 2026-06-24 09:18 · 0 次点赞 · 0 条回复

发现“千问”官方提供了qwen3-embedding-4b的量化版,而且是 gguf 格式。使用 Ollama 试用了一下,发现Q4_K_M的效果不错,只比0.6b大了一倍左右。

现在的问题是,部署qwen3-embedding-4b的 gguf 格式版本,生产环境(基于 CPU 推理)应该选用哪个推理服务部署?

  1. llama.cpp
    • 其 Docker 镜像体积小,内存占用也小。
    • 想使用这个在生产环境部署,但是 Gemini 提到其推理功能没有问题,但其 Server 服务不够稳定。
    • 不知道有没有在生产环境使用的成功案例。
  2. Triton Server
    • 其 Docker 镜像除了体积大,配置较复杂,暂时没有确定。我们生产环境也用过。
    • 目前配置也没问题,剩下体积大的问题。
  3. Ollama
    • 即使集成了很多功能,但体积仍然比 Triton Server 少。
    • 我们一般用于试用新模型,没在生产环境使用。
  4. TEI
    • 即 Huggingface 的 Text Embeddings Inference ,但是不支持 gguf 格式。
    • 此方案不可用。
0 条回复
添加回复
你还需要 登录 后发表回复

登录后可发帖和回复

登录 注册
主题信息
作者: fox0001
发布: 2026-06-24
点赞: 0
回复: 0