Hacker News 音频技术 - 2026-03-17
1. 用手机语音输入在笔记本电脑上打字
作者开发了一个工具,可通过手机键盘语音输入在电脑上打字,支持vim、浏览器等环境。
作者: theSage | 发布于: 2026-03-16 06:56
2. Show HN:SciTeX 通知——为 AI 智能体赋予声音:支持文本转语音、电话与短信
为AI代理构建的多级通知系统,通过语音、邮件、短信直至电话呼叫提醒用户任务进度,支持本地和远程服务器。
作者: ywatanabe1989 | 发布于: 2026-03-15 22:19
3. Show HN: TTS.ai – 文本转语音
作者: nadermx | 发布于: 2026-03-15 16:41
4. Show HN:在浏览器中使用设备端语音识别实现语音跟踪的提词器
基于语音识别的浏览器端提词器,可根据说话节奏自动滚动和高亮文本,支持暂停和跳行定位。
作者: lbaune | 发布于: 2026-03-15 09:15
5. Show HN:CastReader – 免费为 Kindle Cloud Reader 提供语音朗读的扩展
CastReader浏览器扩展通过解码字体和OCR技术,解决Kindle等平台因非标准渲染导致的文本提取问题,支持多站点内容提取和开源TTS语音合成。
作者: vinxu | 发布于: 2026-03-12 19:07
6. 自托管TTS代理与语音管理器
作者: mooreds | 发布于: 2026-03-10 13:32
7. Show HN:TTS.ai
作者: nadermx | 发布于: 2026-03-08 07:01
8. Qwen3-ASR-Swift
作者: handfuloflight | 发布于: 2026-03-05 10:00
9. Show HN:KokoClone——使用 Kokoro TTS 实现零样本语音克隆
KokoClone项目在Kokoro TTS基础上实现零样本语音克隆,支持多语言,可在CPU/GPU上运行,保持原项目的速度和实时性。
作者: Ashish106 | 发布于: 2026-03-04 19:07
10. 多语言语音识别中的音调保真度:一项诊断性评估
作者: ibobev | 发布于: 2026-03-04 18:10
11. Ask HN:Mac 上有类似 willowvoice 的 TTS 工具吗?
用户询问Mac上是否有类似WillowVoice的快捷键高质量文本朗读工具。
作者: fiiico | 发布于: 2026-03-04 11:24
12. 原生 Swift/MLX 全语音处理流程:端侧 ASR、TTS 与语音转换
作者: ipotapov | 发布于: 2026-03-03 06:41
13. Qwen3-ASR 0.6B与1.7B转录模型的C语言推理实现
作者: Curiositry | 发布于: 2026-02-28 00:05
14. Parakeet.cpp – 纯C++实现、支持Metal GPU加速的Parakeet语音识别推理
作者: noahkay13 | 发布于: 2026-02-27 03:48
15. Show HN:基于Kitten TTS的CPU低延迟流式语音助手
Neo AI开发了一个在CPU上低延迟运行的语音助手管道,适用于普通笔记本或边缘设备,包含语音检测和流式处理模块。
作者: gauravvij137 | 发布于: 2026-02-26 12:42
16. TinyTTS:超轻量级英语TTS(900万参数,20MB),CPU提速8倍,GPU提速67倍
TinyTTS是一个专为边缘设备设计的轻量级文本转语音模型,仅20MB大小,可在CPU上快速运行,旨在节省VRAM以配合大型语言模型使用。
作者: letrghieu | 发布于: 2026-02-25 14:46
17. Show HN:Moonshine 开源权重 STT 模型——准确率超越 WhisperLargev3
小型初创公司发布开源语音转文本模型,声称在流式处理中词错率低于OpenAI Whisper,并在HF OpenASR排行榜上表现优异。
作者: petewarden | 发布于: 2026-02-24 21:54
18. Show HN:Localvoxtral – 在 macOS 上实现本地实时听写,支持流式语音识别
本地macOS菜单栏应用,使用Mistral Voxtral实现实时语音转文字,完全在设备端运行,无需云端或订阅。支持Apple Silicon和NVIDIA GPU两种后端。
作者: T0mSIlver | 发布于: 2026-02-24 15:00
19. Show HN:TTSLab——一款基于WebGPU在浏览器中运行的语音AI助手与TTS实验平台
TTSLab是一款开源工具,可在浏览器内通过WebGPU和WASM本地运行TTS和STT模型,无需网络或API密钥,并包含实验性语音代理功能。
作者: MbBrainz | 发布于: 2026-02-23 15:52
20. Kyutai Labs 的 Pocket TTS 推出 iOS 版本
作者: unamentis | 发布于: 2026-02-20 17:14