GoForum › 🌐 V2EX
[开源]写了一个本地模型的实时字幕工具😂
kvl ·
2026-06-03 03:33 ·
0 次点赞 · 1 条回复
虽然实时字幕工具已经很多了,不过目前没看到一个免费开源的实时语音翻译工具能满足我的需求:
- 完全本地推理,可以离线使用,隐私安全。
- 转录质量。个人体感 whisper 等国外的开源模型和系统自带 asr 工具其实对亚洲语言支持并不好,个人认为要处理中日韩语 asr ,现在能用的唯一开源模型就是 qwen3-asr 。翻译用的 Hy-MT2-1.8B 。
- 低延迟。在不牺牲质量使用原始权重的条件下优化了推理速度,在 rtx4090 上能够 500ms 左右实时看到结果
所以我做了这样一个本地运行的实时字幕工具。它基于 Qwen3-ASR-1.7B ,后端在本机启动 ASR WebSocket 服务,桌面端用 Tauri 做轻量字幕窗口。目标是本地单用户看直播、视频、会议等场景。
目前支持:
- 本地语音转文字 / 实时字幕
- Windows/macOS 桌面客户端
- 后端在 Linux 或 WSL + NVIDIA CUDA GPU 上跑
- 可选翻译目标语言
- 系统音频和麦克风采集
项目地址及演示 demo:
1 条回复
添加回复
你还需要 登录
后发表回复
你好呀 感谢分享 想咨询一下 纯 Macos 平台有没有比较好的本地实时翻译方案呢?我因为工作需要 经常需要 support 日本那边的在线培训 因为培训的语言是日语 所以我在支持此类培训时存在语言障碍 之前有网友推荐了我款软件 用的 Macos26 自带的语言模型来进行听写 同步用一个云模型进行翻译。多次使用下来发觉主要问题在实时听写不准导致翻译结果存在偏差。不知道有没有更好的方案来解决这个问题。谢谢你