GoForum🌐 V2EX

写了一个本地运行的 macOS 语音输入工具: Juno

jas730 · 2026-06-19 00:33 · 0 次点赞 · 4 条回复

大家好,我最近在做 Juno ,一个 macOS 上本地运行的语音输入工具,想请 V 友帮忙试试。

它解决的是一个很具体的问题:我每天要在 Slack 、邮件、浏览器、Cursor 、Notes 里输入很多文字,但系统听写和很多语音工具用起来总是不太顺手。

常见问题是:

  • 没有实时转写,说完一大段才发现识别错了
  • 项目名、人名、模型名、代码相关词汇很容易被听错
  • 语音输入不能理解当前 app 、选中文本、屏幕上的词
  • 涉及隐私的内容不想发到云端
  • 想在 Mac 上任何输入框里直接使用,而不是打开一个单独的转写页面

Juno 的交互比较简单:按一次快捷键开始说话,再按一次停止,文字会直接落到当前正在输入的 app 里。说话时会显示实时转写;停止后会再做一次最终识别、修正和插入。

目前的本地栈大概是:

  • MLX Whisper large-v3-turbo 做实时转写和最终语音识别
  • Qwen3-4B Instruct 做本地写作、改写、意图规划
  • Qwen3-0.6B 做轻量纠错和校验
  • Native macOS shell 负责当前 app 、选中文本、屏幕词汇、snippets 、隐私策略和文本插入

我们踩了不少 live transcription 的坑:部分转写会抖动,句尾容易被模型猜错,静音时可能出现幻觉,短窗口会把上下文截断,最后还要在很短时间内把文字可靠地插入到用户正在用的 app 里。

所以 Juno 没有把实时转写直接丢给 LLM 润色,而是把实时字幕分成稳定文本和不稳定 tail 。用户停止后,再走最终识别、上下文修正、Qwen 写作/动作层和插入流程。

它是免费的,本地运行,模型下载后不需要账号、订阅或云端转写。现在主要支持 Apple Silicon Mac 。

官网: https://usejuno.co/ GitHub: https://github.com/Cassini-Research/Juno

很想听听 V 友的反馈,尤其是:

  • 在不同 Mac app 里的插入是否稳定
  • 长段语音输入是否顺手
  • 实时转写是否让人有信任感
  • 对本地模型、隐私和资源占用有什么建议
4 条回复
hackpro · 2026-06-19 01:03
#1

Whisper v3-turbo 理论上好像不能实时转写吧 是做了切片处理吗 还是别的什么设置

Mangozhen · 2026-06-19 02:28
#2

我试了一下,但是在开始使用的时候不到两分钟就崩溃,重启了一次。

另外,实时字幕功能需要 32GB 的内存,绝大多数的 Mac 都用不起来。

SuzhaharCan · 2026-06-19 04:03
#3

先关注了, 中间模型环节太冗余, 需要简化,否则内存吃不消, 正常输入法的内存不该超过 1G; 模型走量化,蒸馏方式先降低占用试试;

noahhhh · 2026-06-19 05:38
#4

https://developers.google.com/edge/eloquent 可以参考下 Google 做的这个

添加回复
你还需要 登录 后发表回复

登录后可发帖和回复

登录 注册
主题信息
作者: jas730
发布: 2026-06-19
点赞: 0
回复: 0