GoForum › 🌐 V2EX
自己做了一个低延迟 Voice Agent,不依赖框架实现极低延迟
LuliYanng ·
2026-02-18 20:52 ·
0 次点赞 · 9 条回复
最近在折腾 voice agent ,之前用 LiveKit 框架做过几个项目,这次想试试纯 API 调用从零搭建,看看到底能做到什么程度。
做出来发现效果还不错:纯文本对话延迟,如果使用 gemini 2.5 flash lite ~500ms,即使是 2.5 flash 或者 3 flash ,也可以控制在 700ms 。带联网搜索或图片分析也能控制在 1000~1500s 。服务全部部署在美国,因此考虑到跨洋的网络延迟,实际上的表现应该可以更好。顺便做了个动态岛 UI 包装了一下。
附个使用演示视频:
https://i.imgur.com/loPpmDg.png
之所以做这个,也是对语音这个模态比较看好,故自己搓了一个不依赖框架的实现。如果大家有什么好想法,也欢迎讨论😋
P.S 话说是自己“手搓”,但实际上大部分时候也是 AI 完成,只不过是类似于“同学”一般,相互指引跟学习,那既然大部分的代码都是 AI 实现的(虽然这一过程相比于单纯用框架而言学习到了很多),但这种方式还能叫“手搓”吗?
9 条回复
mooncakeSec · 2026-02-18 22:47
怎么做的优化呢,判断用户语音输入结束和打断,是 gemini 提供的吗
@mooncakeSec 不是 gemini 仅仅作为 llm ,判断输入结束和打断是客户端的 vad 和 turn detection 来处理,不过这一块做得还不是特别好
添加回复
你还需要 登录
后发表回复
开源吗,能不能自己部署