文章列表

最新 AI 创业产品工具应用论文笔记 markdown DeepSeek Qwen3 Github 开源项目前端 RAG 知识图谱 OpenAI MCP Agent Manus 视频即梦可灵短剧数字人 AI工具 Python Coze 扣子空间 Dify 智能体 Cursor 多模态效率提示词搜索 Transformer 产品经理刘强东京东外卖面试巴菲特游戏强化学习量化关税语音 redis Mistral 豆包数据可视化 SaaS Deep Research DeepWiki Claude Ollama 2025 API

为什么苹果做AI，豆包去做手机是一个商业逻辑，豆包手机如何应对大厂绞杀

阿润的商业笔记 · 1个月前 · 阅读原文

鸿蒙HarmonyOS多线程编程实战：AI语音

用户859968167769 · 1个月前 · 阅读原文

电脑音频录制工具（语音聊天录音软件） - Wagwei

Wagwei · 1个月前 · 阅读原文

语音助手的进化：从级联“工具链”到端到端“原生脑”

杰克说AI · 1个月前 · 阅读原文

C#AI系列(5): 从零开始 C# 轻松语音识别 - LdotJdot

LdotJdot · 1个月前 · 阅读原文

从理论到实践：构建你的AI语音桌面助手（Demo演示）

码事漫谈 · 1个月前 · 阅读原文

AI语音：从分段交互到端到端的全面解析

一葉 · 1个月前 · 阅读原文

豆包输入法 iPhone 版正式上线，该来的都来了

青小蛙 · 2个月前 · 阅读原文

Vue2实现语音报警

IT界Tony哥 · 2个月前 · 阅读原文

Sesame AI：红杉资本押注的下一代语音交互平台

张艾拉 · 2个月前 · 阅读原文

用 Node.js 封装豆包语音识别AI模型接口：双向实时流式传输音频和文本

编程干货铺 · 3个月前 · 阅读原文

Spring Boot快速集成MiniMax、CosyVoice实现文本转语音 - 程序猿DD

程序猿DD · 3个月前 · 阅读原文

阿里云智能语音简单使用：语音识别 - beckyye

beckyye · 3个月前 · 阅读原文

语音助手的「智商滑铁卢」：当GPT开口说话，准确率从74.8%跌到6.1%

语音助手的「智商滑铁卢」：当GPT开口说话，准确率从74.8%跌到6.1%

· 3个月前 · 阅读原文

美团LongCat-Audio-Codec：给语音大模型装上“顺风耳”与“巧舌”

墨风如雪 · 3个月前 · 阅读原文

豆包语音 2.0：数学公式也能读

豆包语音 2.0：数学公式也能读

金色传说大聪明 · 3个月前 · 阅读原文

用深度学习实现语音情绪识别（SER）

用深度学习实现语音情绪识别（SER）

川后静波 · 3个月前 · 阅读原文

语音控制的太空射击游戏开发笔记 - hloadfio

hloadfio · 3个月前 · 阅读原文

手动下载 Faster-Whisper 模型，轻松解决下载难题

手动下载 Faster-Whisper 模型，轻松解决下载难题

pyvideotrans · 3个月前 · 阅读原文

Z Product｜“让AI问出每一个关键问题”：红杉连投两轮的Listen Labs如何用AI重塑400亿市场研究行业

Z Product｜“让AI问出每一个关键问题”：红杉连投两轮的Listen Labs如何用AI重塑400亿市场研究行业

Z Potentials · 3个月前 · 阅读原文

Ming-UniAudio：首个多功能统一语音大模型

Ming-UniAudio：首个多功能统一语音大模型

弹贝斯的鱼 · 3个月前 · 阅读原文

10-10榜单速递：AI简报、隐私保护与语音代理革新团队效率

10-10榜单速递：AI简报、隐私保护与语音代理革新团队效率

MaiMai · 3个月前 · 阅读原文

2.6K Star！超逼真端侧TTS模型，0.5B参数3秒音频即时克隆！

2.6K Star！超逼真端侧TTS模型，0.5B参数3秒音频即时克隆！

痕小子 · 3个月前 · 阅读原文

【语音转录-字幕配音-视频翻译】-多种渠道多种方式一站搞定-pyVideoTrans

【语音转录-字幕配音-视频翻译】-多种渠道多种方式一站搞定-pyVideoTrans

pyvideotrans · 3个月前 · 阅读原文

8.7K Star！不用GPU也能搞语音合成，推荐这个25MB的语音合成神器，从App到嵌入式，从Web到桌面软件，哪里都能用

8.7K Star！不用GPU也能搞语音合成，推荐这个25MB的语音合成神器，从App到嵌入式，从Web到桌面软件，哪里都能用

菜菜 · 3个月前 · 阅读原文

AI赚钱产品077：NaturalReader减少人工朗读负担，将文字转为自然语音

AI赚钱产品077：NaturalReader减少人工朗读负担，将文字转为自然语音

吴俊驰 · 3个月前 · 阅读原文

FunASR 前端语音识别代码解析

Cosolar · 3个月前 · 阅读原文

AI语音输入法太好使了，讯飞识别率远不如 Spokenly、豆包输入法

AI语音输入法太好使了，讯飞识别率远不如 Spokenly、豆包输入法

Aitrainee · 3个月前 · 阅读原文

GitHub高星推荐 | 这款免费开源语音转录工具，让创作效率翻倍

GitHub高星推荐 | 这款免费开源语音转录工具，让创作效率翻倍

牛皮糖 · 3个月前 · 阅读原文

一个开源免费的文本转语音工具2.0

一个开源免费的文本转语音工具2.0

clkup · 3个月前 · 阅读原文

一手TTS-2语音合成模型安装教程及实际使用

白羊武士弗拉明戈 · 3个月前 · 阅读原文

开源语音识别FunASR入门详解 - weiwei22844

weiwei22844 · 4个月前 · 阅读原文

VoxCPM:新一代高拟真语音生成模型 - 肖祥

肖祥 · 4个月前 · 阅读原文

【GitHub每日速递 250915】3 个宝藏开源项目：超长语音合成、算法学习库、自托管软件导航，开发者速收 - piggy侠

piggy侠 · 4个月前 · 阅读原文

只要 12GB 内存，Edge 就能实时翻译视频中的音频了。对，就是你想的那样。

青小蛙 · 4个月前 · 阅读原文

在 Web 前端实现流式 TTS 播放

晚星star · 4个月前 · 阅读原文

揭秘语音交互的核心技术

货拉拉技术 · 4个月前 · 阅读原文

ASR评测需要关注的指标和分析方式

一葉 · 4个月前 · 阅读原文

语音分离最全综述来了！清华等团队深度分析200+文章，系统解析「鸡尾酒会问题」研究

机器之心 · 4个月前 · 阅读原文

硅谷顶级VC如何看语音AI？Greylock合伙人揭秘语音Agent构建的三层策略

深思圈 · 5个月前 · 阅读原文

470万美元种子轮背后：这位华人CEO如何用语音AI征服硅谷投资人？

深思圈 · 5个月前 · 阅读原文

AI 硬件 PM 指南 2 : 语音交互，让硬件听懂人话

硬核PM · 5个月前 · 阅读原文

whisper语音转文字及其视频配置中英文字幕应用 - weiwei22844

weiwei22844 · 5个月前 · 阅读原文

马斯克：Grok 4现已免费提供给所有用户，免费用户每天可少量查询；苹果测试全新AI语音控制功能丨AIGC日报

马斯克：Grok 4现已免费提供给所有用户，免费用户每天可少量查询；苹果测试全新AI语音控制功能丨AIGC日报

· 5个月前 · 阅读原文

被低估的AI语音，AI商业化的下一张船票已来

乌鸦智能说 · 5个月前 · 阅读原文

语音合成（TTS）跳跃与重复问题的解析：成因、机制及解决方案

语音合成（TTS）跳跃与重复问题的解析：成因、机制及解决方案

张北北 · 5个月前 · 阅读原文

苹果Siri新功能曝光：仅凭语音执行精准操作

苹果Siri新功能曝光：仅凭语音执行精准操作

卞纯 · 5个月前 · 阅读原文

被低估的AI语音，AI商业化的下一张船票已来

被低估的AI语音，AI商业化的下一张船票已来

智能乌鸦 · 5个月前 · 阅读原文

我用AI做了两个工具，终于实现手机微信输入法在PC端的语音输入了！！！

我用AI做了两个工具，终于实现手机微信输入法在PC端的语音输入了！！！

东瓶西镜同学 · 5个月前 · 阅读原文

语音活动检测（VAD） - 凌逆战

凌逆战 · 5个月前 · 阅读原文

我的AI早报系统2.0：这次，我用MiniMax语音+MCP给它注入了灵魂

我的AI早报系统2.0：这次，我用MiniMax语音+MCP给它注入了灵魂

苍何 · 5个月前 · 阅读原文

微软的 Azure AI 语音只需几秒音频就能生成逼真的深度伪造

微软的 Azure AI 语音只需几秒音频就能生成逼真的深度伪造

AI音频时代 · 5个月前 · 阅读原文

08-06榜单速递：高效工具优化网站性能、AI语音与健康管理

08-06榜单速递：高效工具优化网站性能、AI语音与健康管理

MaiMai · 5个月前 · 阅读原文

速递｜Meta的AI音频竞赛再落子，双月连购PlayAI+WaveForms，补全AI情感语音拼图

速递｜Meta的AI音频竞赛再落子，双月连购PlayAI+WaveForms，补全AI情感语音拼图

theinformation · 5个月前 · 阅读原文

中英双语一起破防！北大×腾讯发布“地狱级”测试基准，直击语音对话模型软肋

中英双语一起破防！北大×腾讯发布“地狱级”测试基准，直击语音对话模型软肋

让你更懂AI的 · 5个月前 · 阅读原文

MiniMax语音模型上新！40种语言真人级生成，喜马拉雅、网易已接入声线

MiniMax语音模型上新！40种语言真人级生成，喜马拉雅、网易已接入声线

王涵 · 5个月前 · 阅读原文

乌鸦AI日报：ChatGPT 有望每周吸引7亿用户；通义语音大牛鄢志杰转投京东

乌鸦AI日报：ChatGPT 有望每周吸引7亿用户；通义语音大牛鄢志杰转投京东

· 5个月前 · 阅读原文

E2 TTS：令人尴尬地简单、完全非自回归、零样本的语音合成技术

E2 TTS：令人尴尬地简单、完全非自回归、零样本的语音合成技术

张北北 · 5个月前 · 阅读原文

通义语音大牛鄢志杰转投京东，阿里高P技术骨干正遭大厂集体“围猎”

通义语音大牛鄢志杰转投京东，阿里高P技术骨干正遭大厂集体“围猎”

· 5个月前 · 阅读原文

Voicebox：大规模文本引导的多语言通用语音生成技术

Voicebox：大规模文本引导的多语言通用语音生成技术

张北北 · 5个月前 · 阅读原文

豆包语音输入法识别率高的离谱

吴俊驰 · 6个月前 · 阅读原文

Parakeet 日语音视频转录整合包

Parakeet 日语音视频转录整合包

pyvideotrans · 6个月前 · 阅读原文

豆包上新同声传译，顺便狙击阿里AI眼镜？

豆包上新同声传译，顺便狙击阿里AI眼镜？

涯角 · 6个月前 · 阅读原文

6.2K Star！MIT出品的多语言语音合成神器，CPU实时推理吊打商业软件！

6.2K Star！MIT出品的多语言语音合成神器，CPU实时推理吊打商业软件！

菜菜 · 6个月前 · 阅读原文

AI语音领域“新王易主”！MiniMax强势登顶，ElevenLabs时代落幕！

AI语音领域“新王易主”！MiniMax强势登顶，ElevenLabs时代落幕！

半点轻松 · 6个月前 · 阅读原文

刚刚，字节掏出AI同传模型王炸，2秒延迟，0样本复刻你的声音，一手实测来了

刚刚，字节掏出AI同传模型王炸，2秒延迟，0样本复刻你的声音，一手实测来了

江宇 · 6个月前 · 阅读原文

微信刚刚更新：内置的这个语音识别，太特么强了

微信刚刚更新：内置的这个语音识别，太特么强了

· 6个月前 · 阅读原文