Hacker News 音频技术 - 2026-04-29
1. PAVO-Bench – 5万轮语音对话与8.5万参数路由器,用于ASR→LLM→TTS
作者: vnmoorthy | 发布于: 2026-04-28 14:58
2. Show HN: STT.ai
作者: nadermx | 发布于: 2026-04-28 14:06
3. 使用Soniox语音识别与合成构建语音代理
作者: easwee | 发布于: 2026-04-28 09:31
4. Show HN:Out Loud – 开源桌面文本转语音应用,支持 macOS/Windows/Linux
一款免费开源的跨平台TTS桌面应用,支持macOS、Windows和Linux,无需订阅或联网。
作者: julia-kafarska | 发布于: 2026-04-26 22:19
5. Stt.ai MCP 服务器
作者: nadermx | 发布于: 2026-04-26 04:52
6. MiMo-v2.5-TTS 系列
作者: gainsurier | 发布于: 2026-04-24 00:58
7. 开放基准测试:商业流式TTS模型中的文本规范化
作者: baghdasaryana | 发布于: 2026-04-22 14:12
8. Linux 上更好的文本转语音(TTS)体验
作者: speckx | 发布于: 2026-04-21 20:56
9. Show HN: TTS.ai
作者: nadermx | 发布于: 2026-04-18 19:18
10. Grok TTS与STT API接口
作者: chopete3 | 发布于: 2026-04-18 08:10
11. Gemini 3.1 Flash TTS
作者: langitbiru | 发布于: 2026-04-16 06:17
12. Gemini 3.1 Flash TTS – 支持定向提示
作者: aanet | 发布于: 2026-04-15 17:47
13. Moss-TTS-Nano:CPU上的实时语音AI(开源TTS技术栈)
作者: steveharing1 | 发布于: 2026-04-15 17:38
14. Gemini 3.1 Flash TTS:下一代富有表现力的AI语音
作者: pretext | 发布于: 2026-04-15 16:32
15. Show HN:我因在航班上听完了有声书,所以开发了一款设备端TTS应用
开发者因不满云端TTS服务,在iPhone上本地运行Kokoro模型,并开发了LoudReader应用,支持离线朗读和PDF导入。
作者: mowmiatlas | 发布于: 2026-04-15 15:11
16. TTS引擎:WebSocket与同步性能相差5.5倍,M4上INT8比fp16更慢
作者: KirMoisha | 发布于: 2026-04-15 14:23
17. Show HN:为欧洲构建语音模型,意外在英语Open-ASR中登顶
作者: raoulritter | 发布于: 2026-04-15 12:06
18. Voxtral TTS – 高质量文本转语音API
作者: danielmateo773 | 发布于: 2026-04-15 02:54
19. Show HN:我在 WhisperX 中增加了对 Qwen3-ASR 和 Qwen3 强制对齐器的支持
作者: mahfouz22 | 发布于: 2026-04-14 15:57
20. ASR模型在克罗地亚语和塞尔维亚语上表现的地区差异
作者: taubek | 发布于: 2026-04-12 14:00