GoForum › 🌐 V2EX

自己做了一个低延迟 Voice Agent，不依赖框架实现极低延迟

LuliYanng · 2026-02-18 20:52 · 0 次点赞 · 9 条回复

最近在折腾 voice agent ，之前用 LiveKit 框架做过几个项目，这次想试试纯 API 调用从零搭建，看看到底能做到什么程度。

做出来发现效果还不错：纯文本对话延迟，如果使用 gemini 2.5 flash lite ~500ms,即使是 2.5 flash 或者 3 flash ，也可以控制在 700ms 。带联网搜索或图片分析也能控制在 1000~1500s 。服务全部部署在美国，因此考虑到跨洋的网络延迟，实际上的表现应该可以更好。顺便做了个动态岛 UI 包装了一下。

附个使用演示视频：

https://youtu.be/MDDh4TofnFU

https://i.imgur.com/loPpmDg.png

之所以做这个，也是对语音这个模态比较看好，故自己搓了一个不依赖框架的实现。如果大家有什么好想法，也欢迎讨论😋

P.S 话说是自己“手搓”，但实际上大部分时候也是 AI 完成，只不过是类似于“同学”一般，相互指引跟学习，那既然大部分的代码都是 AI 实现的（虽然这一过程相比于单纯用框架而言学习到了很多），但这种方式还能叫“手搓”吗？

9 条回复

wuhen8 · 2026-02-18 21:27

开源吗，能不能自己部署

LuliYanng · 2026-02-18 21:32

@wuhen8 确实有打算开源

mooncakeSec · 2026-02-18 22:47

怎么做的优化呢，判断用户语音输入结束和打断，是 gemini 提供的吗

lonccc · 2026-02-18 23:02

为什么要不依赖框架做呢，和 livekit 比有什么不同或者优势？

LuliYanng · 2026-02-18 23:22

@mooncakeSec 不是 gemini 仅仅作为 llm ，判断输入结束和打断是客户端的 vad 和 turn detection 来处理，不过这一块做得还不是特别好

LuliYanng · 2026-02-18 23:27

@lonccc 出发点当然是纯粹为了学习😁，跟 livekit 这种成熟产品比不敢说能有什么优势，毕竟也不是奔着做一个 livekit 竞品去的。能够了解基本的实现，也有帮助认清现在形形色色的 AI 产品新闻，不至于天天被营销号带节奏。本来是打算先自己不借助框架实现一个 agent 的，刚好朋友推了 typeless 给我，我就先做这个了。

WasteNya · 2026-02-18 23:47

一个月的 token 费用需要多少钱，特别是 4k 屏幕吗话？

LuliYanng · 2026-02-18 23:57

@WasteNya token 不好估算，目前刚做了几天，用的也不多。但用的供应商也不便宜就是了，如果有兴趣，我把客户端开发好给大家用用，有一定的数据我才能预估 token 用量。至于你说的 4k 屏幕，这用量跟屏幕似乎没啥关系😅

uid106 · 2026-02-19 00:17

挺好的，感觉语音很自然，有自定义音色和性格的选择就更好了

添加回复

你还需要登录后发表回复

登录后可发帖和回复

登录注册

主题信息

作者: LuliYanng

发布: 2026-02-18

点赞: 0

回复: 0