Hacker News 音频技术 - 2026-03-15
1. Show HN:CastReader – 免费为 Kindle Cloud Reader 提供语音朗读的扩展
CastReader浏览器扩展通过解码字体和OCR技术,解决Kindle等平台因非标准渲染导致的文本提取问题,支持多站点内容提取和开源语音合成。
作者: vinxu | 发布于: 2026-03-12 19:07
2. 自托管TTS代理与语音管理器
作者: mooreds | 发布于: 2026-03-10 13:32
3. Show HN:TTS.ai
作者: nadermx | 发布于: 2026-03-08 07:01
4. Qwen3-ASR-Swift
作者: handfuloflight | 发布于: 2026-03-05 10:00
5. Show HN:KokoClone——使用 Kokoro TTS 实现零样本语音克隆
KokoClone项目在Kokoro TTS基础上实现零样本语音克隆,支持多语言,可在CPU/GPU上运行,并保持原系统的速度和实时性。
作者: Ashish106 | 发布于: 2026-03-04 19:07
6. 多语言语音识别中的音调保真度:一项诊断性评估
作者: ibobev | 发布于: 2026-03-04 18:10
7. Ask HN:Mac上有类似willowvoice的TTS工具吗?
用户寻求在Mac上通过快捷键调用高质量文本转语音服务的工具,类似WillowVoice.com。
作者: fiiico | 发布于: 2026-03-04 11:24
8. 原生 Swift/MLX 实现完整语音处理流程:ASR、TTS、语音转换,支持设备端运行
作者: ipotapov | 发布于: 2026-03-03 06:41
9. Qwen3-ASR 0.6B与1.7B转录模型的C语言推理实现
作者: Curiositry | 发布于: 2026-02-28 00:05
10. Parakeet.cpp – 纯C++实现带Metal GPU加速的Parakeet语音识别推理
作者: noahkay13 | 发布于: 2026-02-27 03:48
11. Show HN:基于Kitten TTS的CPU低延迟流式语音助手
Neo AI开发了在CPU上低延迟运行的语音助手流水线,包含语音检测、轻量LLM与TTS流式处理,适用于本地助手、机器人原型和隐私优先场景。
作者: gauravvij137 | 发布于: 2026-02-26 12:42
12. TinyTTS:超轻量级英语TTS(900万参数,20MB),CPU提速8倍,GPU提速67倍
TinyTTS是一个超轻量级本地语音合成工具,仅20MB,支持CPU/GPU,专为节省VRAM的边缘设备设计。
作者: letrghieu | 发布于: 2026-02-25 14:46
13. Show HN:Moonshine 开源权重 STT 模型——准确率超越 WhisperLargev3
小型初创公司发布流式语音转文本模型,声称在词错率上优于OpenAI的Whisper,并在HF OpenASR排行榜上表现优异。
作者: petewarden | 发布于: 2026-02-24 21:54
14. Show HN:Localvoxtral – 在 macOS 上实现带流式语音识别的本地实时听写
一款macOS菜单栏实时听写应用,完全在设备上运行,使用Mistral Voxtral实现边说话边出文字,支持Apple Silicon和NVIDIA GPU后端。
作者: T0mSIlver | 发布于: 2026-02-24 15:00
15. Show HN:TTSLab——一款基于WebGPU在浏览器中运行的语音AI助手与TTS实验室
TTSLab是一款开源工具,可在浏览器内通过WebGPU和WASM本地运行TTS和STT模型,无需API或网络,并包含实验性的本地语音代理功能。
作者: MbBrainz | 发布于: 2026-02-23 15:52
16. Kyutai Labs 的 Pocket TTS 推出 iOS 版本
作者: unamentis | 发布于: 2026-02-20 17:14
17. Show HN:Apple Silicon 本地 TTS 支持 OpenClaw(基于 MLX,零配置)
OpenClaw插件在Mac上本地运行文本转语音,无需API密钥或云端服务,自动管理Python环境和服务器进程。
作者: ZacharyZZ | 发布于: 2026-02-20 03:00
18. Show HN:KittenML 发布三款新模型,开源 TTS 小于 25 MB,表现力出众
作者: rohan_joshi | 发布于: 2026-02-20 02:11
19. 开源语音克隆应用采用Qwen3-TTS技术
作者: angelmm | 发布于: 2026-02-19 12:25
20. 语音助手语音转文本性能评测:10项服务、千条样本、语义错误率分析
作者: edgarsDev | 发布于: 2026-02-18 17:26