hacker_news_audio_tech_2026-04-30

Hacker News 音频技术 - 2026-04-30

1. 本地TTS正变得强大且易用

作者: speckx | 发布于: 2026-04-29 14:11


2. PAVO-Bench – 5万次语音交互与8.5万参数路由器的ASR→LLM→TTS基准测试

作者: vnmoorthy | 发布于: 2026-04-28 14:58


3. Show HN: STT.ai

作者: nadermx | 发布于: 2026-04-28 14:06


4. 使用Soniox语音识别与合成构建语音助手

作者: easwee | 发布于: 2026-04-28 09:31


5. Show HN: Out Loud – 开源桌面TTS应用,支持macOS/Windows/Linux

一款免费、MIT许可的跨平台桌面TTS应用,无需订阅或联网,解决现有TTS应用的痛点。

作者: julia-kafarska | 发布于: 2026-04-26 22:19


6. Stt.ai MCP 服务器

作者: nadermx | 发布于: 2026-04-26 04:52


7. MiMo-v2.5-TTS系列

作者: gainsurier | 发布于: 2026-04-24 00:58


8. 开放基准测试:商业流式TTS模型中的文本规范化

作者: baghdasaryana | 发布于: 2026-04-22 14:12


9. Linux 上更好的文本转语音(TTS)体验

作者: speckx | 发布于: 2026-04-21 20:56


10. Show HN: TTS.ai

作者: nadermx | 发布于: 2026-04-18 19:18


11. Grok TTS与STT API接口

作者: chopete3 | 发布于: 2026-04-18 08:10


12. Gemini 3.1 Flash TTS

作者: langitbiru | 发布于: 2026-04-16 06:17


13. Gemini 3.1 Flash TTS – 支持定向提示

作者: aanet | 发布于: 2026-04-15 17:47


14. Moss-TTS-Nano:CPU上的实时语音AI(开源TTS技术栈)

作者: steveharing1 | 发布于: 2026-04-15 17:38


15. Gemini 3.1 Flash TTS:下一代富有表现力的AI语音技术

作者: pretext | 发布于: 2026-04-15 16:32


16. Show HN:我开发了一款设备端TTS应用,因为我在飞机上听完了所有有声书

开发者因不满云端TTS和播客限制,在iPhone上创建了离线语音朗读应用LoudReader,支持本地合成、PDF/EPUB导入,并解决了流式合成和热管理难题。

作者: mowmiatlas | 发布于: 2026-04-15 15:11


17. TTS引擎对比:WebSocket比同步快5.5倍,M4上INT8比fp16更慢

作者: KirMoisha | 发布于: 2026-04-15 14:23


18. Show HN:为欧洲构建语音模型,意外在英语Open-ASR中登顶

作者: raoulritter | 发布于: 2026-04-15 12:06


19. Voxtral TTS – 高质量文本转语音API

作者: danielmateo773 | 发布于: 2026-04-15 02:54


20. Show HN:我在 WhisperX 中增加了对 Qwen3-ASR 和 Qwen3 强制对齐器的支持

作者: mahfouz22 | 发布于: 2026-04-14 15:57