hacker_news_audio_tech_2026-03-16

Hacker News 音频技术 - 2026-03-16

1. Show HN:SciTeX 通知——为 AI 智能体赋予声音:支持文本转语音、电话与短信

为AI代理构建的多级通知系统,通过语音、邮件、短信直至电话呼叫提醒用户任务进度,支持本地和远程服务器。

作者: ywatanabe1989 | 发布于: 2026-03-15 22:19


2. Show HN: TTS.ai – 文本转语音

作者: nadermx | 发布于: 2026-03-15 16:41


3. Show HN:在浏览器中使用设备端语音识别实现语音跟踪的提词器

基于语音识别的浏览器提词器,可实时高亮脚本并自动跟随语速,支持暂停和跳行定位。

作者: lbaune | 发布于: 2026-03-15 09:15


4. Show HN:CastReader – 免费为 Kindle Cloud Reader 提供语音朗读的扩展

CastReader浏览器扩展通过解码字体和OCR技术,解决Kindle等平台因非标准渲染导致的文本提取问题,支持多站点内容提取和开源TTS语音合成。

作者: vinxu | 发布于: 2026-03-12 19:07


5. 自托管TTS代理与语音管理器

作者: mooreds | 发布于: 2026-03-10 13:32


6. Show HN:TTS.ai

作者: nadermx | 发布于: 2026-03-08 07:01


7. Qwen3-ASR-Swift

作者: handfuloflight | 发布于: 2026-03-05 10:00


8. Show HN:KokoClone——使用Kokoro TTS实现零样本语音克隆

KokoClone项目在Kokoro TTS基础上实现零样本语音克隆,支持多语言,可在CPU/GPU上运行,保持原项目的速度和实时性。

作者: Ashish106 | 发布于: 2026-03-04 19:07


9. 多语言语音识别中的音调保真度:一项诊断性评估

作者: ibobev | 发布于: 2026-03-04 18:10


10. Ask HN:Mac 上有类似 willowvoice 的 TTS 工具吗?

用户寻求在Mac上通过快捷键调用高质量TTS朗读文本的服务,类似WillowVoice.com。

作者: fiiico | 发布于: 2026-03-04 11:24


11. 原生 Swift/MLX 实现完整语音处理流程:ASR、TTS、语音转换,支持端侧运行

作者: ipotapov | 发布于: 2026-03-03 06:41


12. Qwen3-ASR 0.6B与1.7B转录模型的C语言推理实现

作者: Curiositry | 发布于: 2026-02-28 00:05


13. Parakeet.cpp – 纯C++实现、支持Metal GPU加速的Parakeet语音识别推理

作者: noahkay13 | 发布于: 2026-02-27 03:48


14. Show HN:基于Kitten TTS的CPU低延迟流式语音助手

Neo AI开发了在CPU上低延迟运行的语音助手流程,适用于普通笔记本或边缘设备,包含语音检测、CPU友好的LLM与TTS流及异步管道以减少延迟。

作者: gauravvij137 | 发布于: 2026-02-26 12:42


15. TinyTTS:超轻量级英语TTS(900万参数,20MB),8倍CPU,67倍GPU速度

TinyTTS是一个超轻量级本地语音合成工具,仅20MB,支持CPU/GPU,专为边缘设备和资源受限场景设计。

作者: letrghieu | 发布于: 2026-02-25 14:46


16. Show HN:Moonshine 开源权重语音转文字模型——准确率超越 WhisperLargev3

小型初创公司推出开源语音转文本模型,在流式处理和词错率方面优于OpenAI Whisper,性能接近行业领先水平。

作者: petewarden | 发布于: 2026-02-24 21:54


17. Show HN:Localvoxtral – 在 macOS 上实现本地实时听写与流式语音识别

一款原生macOS菜单栏应用,使用Mistral Voxtral实现完全本地的实时语音转文字,边说边出文本,支持Apple Silicon和NVIDIA GPU后端。

作者: T0mSIlver | 发布于: 2026-02-24 15:00


18. Show HN:TTSLab——一款基于WebGPU在浏览器中运行的语音AI助手与TTS实验室

TTSLab是一款开源工具,可在浏览器中通过WebGPU和WASM本地运行文本转语音和语音转文本模型,无需API或网络请求,支持语音代理和多种模型。

作者: MbBrainz | 发布于: 2026-02-23 15:52


19. Kyutai Labs 的 Pocket TTS 推出 iOS 版本

作者: unamentis | 发布于: 2026-02-20 17:14


20. Show HN:Apple Silicon 本地 TTS 支持 OpenClaw(基于 MLX,零配置)

为Mac开发的OpenClaw插件,可在本地运行文本转语音,无需API密钥或云端服务。它封装mlx-audio,自动管理Python环境和服务器进程,并提供多种语音模型选择。

作者: ZacharyZZ | 发布于: 2026-02-20 03:00