GoForum🌐 V2EX

自己做了一个低延迟 Voice Agent,不依赖框架实现极低延迟

LuliYanng · 2026-02-18 20:52 · 0 次点赞 · 9 条回复

最近在折腾 voice agent ,之前用 LiveKit 框架做过几个项目,这次想试试纯 API 调用从零搭建,看看到底能做到什么程度。

做出来发现效果还不错:纯文本对话延迟,如果使用 gemini 2.5 flash lite ~500ms,即使是 2.5 flash 或者 3 flash ,也可以控制在 700ms 。带联网搜索或图片分析也能控制在 1000~1500s 。服务全部部署在美国,因此考虑到跨洋的网络延迟,实际上的表现应该可以更好。顺便做了个动态岛 UI 包装了一下。

附个使用演示视频:

https://youtu.be/MDDh4TofnFU

https://i.imgur.com/loPpmDg.png

之所以做这个,也是对语音这个模态比较看好,故自己搓了一个不依赖框架的实现。如果大家有什么好想法,也欢迎讨论😋

P.S 话说是自己“手搓”,但实际上大部分时候也是 AI 完成,只不过是类似于“同学”一般,相互指引跟学习,那既然大部分的代码都是 AI 实现的(虽然这一过程相比于单纯用框架而言学习到了很多),但这种方式还能叫“手搓”吗?

9 条回复
wuhen8 · 2026-02-18 21:27
#1

开源吗,能不能自己部署

LuliYanng · 2026-02-18 21:32
#2

@wuhen8 确实有打算开源

mooncakeSec · 2026-02-18 22:47
#3

怎么做的优化呢,判断用户语音输入结束和打断,是 gemini 提供的吗

lonccc · 2026-02-18 23:02
#4

为什么要不依赖框架做呢,和 livekit 比有什么不同或者优势?

LuliYanng · 2026-02-18 23:22
#5

@mooncakeSec 不是 gemini 仅仅作为 llm ,判断输入结束和打断是客户端的 vad 和 turn detection 来处理,不过这一块做得还不是特别好

LuliYanng · 2026-02-18 23:27
#6

@lonccc 出发点当然是纯粹为了学习😁,跟 livekit 这种成熟产品比不敢说能有什么优势,毕竟也不是奔着做一个 livekit 竞品去的。能够了解基本的实现,也有帮助认清现在形形色色的 AI 产品新闻,不至于天天被营销号带节奏。本来是打算先自己不借助框架实现一个 agent 的,刚好朋友推了 typeless 给我,我就先做这个了。

WasteNya · 2026-02-18 23:47
#7

一个月的 token 费用需要多少钱,特别是 4k 屏幕吗话?

LuliYanng · 2026-02-18 23:57
#8

@WasteNya token 不好估算,目前刚做了几天,用的也不多。但用的供应商也不便宜就是了,如果有兴趣,我把客户端开发好给大家用用,有一定的数据我才能预估 token 用量。至于你说的 4k 屏幕,这用量跟屏幕似乎没啥关系😅

uid106 · 2026-02-19 00:17
#9

挺好的,感觉语音很自然,有自定义音色和性格的选择就更好了

添加回复
你还需要 登录 后发表回复

登录后可发帖和回复

登录 注册
主题信息
作者: LuliYanng
发布: 2026-02-18
点赞: 0
回复: 0