最新 AI 创业 产品 工具 应用 论文 笔记 markdown DeepSeek Qwen3 Github 开源项目 前端 RAG 知识图谱 OpenAI MCP Agent Manus 视频 即梦 可灵 短剧 数字人 AI工具 Python Coze 扣子空间 Dify 智能体 Cursor 多模态 效率 提示词 搜索 Transformer 产品经理 刘强东 京东 外卖 面试 巴菲特 游戏 强化学习 量化 关税 语音 redis Mistral 豆包 数据可视化 SaaS Deep Research DeepWiki Claude Ollama 2025 API
语音助手的「智商滑铁卢」:当GPT开口说话,准确率从74.8%跌到6.1%
语音助手的「智商滑铁卢」:当GPT开口说话,准确率从74.8%跌到6.1%
美团LongCat-Audio-Codec:给语音大模型装上“顺风耳”与“巧舌”
豆包语音 2.0:数学公式也能读
豆包语音 2.0:数学公式也能读
用深度学习实现语音情绪识别(SER)
用深度学习实现语音情绪识别(SER)
语音控制的太空射击游戏开发笔记 - hloadfio
手动下载 Faster-Whisper 模型,轻松解决下载难题
手动下载 Faster-Whisper 模型,轻松解决下载难题
Z Product|“让AI问出每一个关键问题”:红杉连投两轮的Listen Labs如何用AI重塑400亿市场研究行业
Z Product|“让AI问出每一个关键问题”:红杉连投两轮的Listen Labs如何用AI重塑400亿市场研究行业
Ming-UniAudio:首个多功能统一语音大模型
Ming-UniAudio:首个多功能统一语音大模型
10-10榜单速递:AI简报、隐私保护与语音代理革新团队效率
10-10榜单速递:AI简报、隐私保护与语音代理革新团队效率
2.6K Star!超逼真端侧TTS模型,0.5B参数3秒音频即时克隆!
2.6K Star!超逼真端侧TTS模型,0.5B参数3秒音频即时克隆!
【语音转录-字幕配音-视频翻译】-多种渠道多种方式一站搞定-pyVideoTrans
【语音转录-字幕配音-视频翻译】-多种渠道多种方式一站搞定-pyVideoTrans
8.7K Star!不用GPU也能搞语音合成,推荐这个25MB的语音合成神器,从App到嵌入式,从Web到桌面软件,哪里都能用
8.7K Star!不用GPU也能搞语音合成,推荐这个25MB的语音合成神器,从App到嵌入式,从Web到桌面软件,哪里都能用
AI赚钱产品077:NaturalReader减少人工朗读负担,将文字转为自然语音
AI赚钱产品077:NaturalReader减少人工朗读负担,将文字转为自然语音
FunASR 前端语音识别代码解析
AI语音输入法太好使了,讯飞识别率远不如 Spokenly、豆包输入法
AI语音输入法太好使了,讯飞识别率远不如 Spokenly、豆包输入法
GitHub高星推荐 | 这款免费开源语音转录工具,让创作效率翻倍
GitHub高星推荐 | 这款免费开源语音转录工具,让创作效率翻倍
一个开源免费的文本转语音工具2.0
一个开源免费的文本转语音工具2.0
一手TTS-2语音合成模型安装教程及实际使用
开源语音识别FunASR入门详解 - weiwei22844
VoxCPM:新一代高拟真语音生成模型 - 肖祥
【GitHub每日速递 250915】3 个宝藏开源项目:超长语音合成、算法学习库、自托管软件导航,开发者速收 - piggy侠
只要 12GB 内存,Edge 就能实时翻译视频中的音频了。对,就是你想的那样。
在 Web 前端实现流式 TTS 播放
揭秘语音交互的核心技术
ASR评测需要关注的指标和分析方式
语音分离最全综述来了!清华等团队深度分析200+文章,系统解析「鸡尾酒会问题」研究
硅谷顶级VC如何看语音AI?Greylock合伙人揭秘语音Agent构建的三层策略
470万美元种子轮背后:这位华人CEO如何用语音AI征服硅谷投资人?
AI 硬件 PM 指南 2 : 语音交互,让硬件听懂人话
whisper语音转文字及其视频配置中英文字幕应用 - weiwei22844
马斯克:Grok 4现已免费提供给所有用户,免费用户每天可少量查询;苹果测试全新AI语音控制功能丨AIGC日报
马斯克:Grok 4现已免费提供给所有用户,免费用户每天可少量查询;苹果测试全新AI语音控制功能丨AIGC日报
被低估的AI语音,AI商业化的下一张船票已来
语音合成(TTS)跳跃与重复问题的解析:成因、机制及解决方案
语音合成(TTS)跳跃与重复问题的解析:成因、机制及解决方案
苹果Siri新功能曝光:仅凭语音执行精准操作 
苹果Siri新功能曝光:仅凭语音执行精准操作 
被低估的AI语音,AI商业化的下一张船票已来
被低估的AI语音,AI商业化的下一张船票已来
我用AI做了两个工具,终于实现手机微信输入法在PC端的语音输入了!!!
我用AI做了两个工具,终于实现手机微信输入法在PC端的语音输入了!!!
语音活动检测(VAD) - 凌逆战
我的AI早报系统2.0:这次,我用MiniMax语音+MCP给它注入了灵魂
我的AI早报系统2.0:这次,我用MiniMax语音+MCP给它注入了灵魂
微软的 Azure AI 语音只需几秒音频就能生成逼真的深度伪造
微软的 Azure AI 语音只需几秒音频就能生成逼真的深度伪造
08-06榜单速递:高效工具优化网站性能、AI语音与健康管理
08-06榜单速递:高效工具优化网站性能、AI语音与健康管理
速递|Meta的AI音频竞赛再落子,双月连购PlayAI+WaveForms,补全AI情感语音拼图
速递|Meta的AI音频竞赛再落子,双月连购PlayAI+WaveForms,补全AI情感语音拼图
中英双语一起破防!北大×腾讯发布“地狱级”测试基准,直击语音对话模型软肋
中英双语一起破防!北大×腾讯发布“地狱级”测试基准,直击语音对话模型软肋
MiniMax语音模型上新!40种语言真人级生成,喜马拉雅、网易已接入声线
MiniMax语音模型上新!40种语言真人级生成,喜马拉雅、网易已接入声线
乌鸦AI日报:ChatGPT 有望每周吸引7亿用户;通义语音大牛鄢志杰转投京东
乌鸦AI日报:ChatGPT 有望每周吸引7亿用户;通义语音大牛鄢志杰转投京东
E2 TTS:令人尴尬地简单、完全非自回归、零样本的语音合成技术
E2 TTS:令人尴尬地简单、完全非自回归、零样本的语音合成技术
通义语音大牛鄢志杰转投京东,阿里高P技术骨干正遭大厂集体“围猎”
通义语音大牛鄢志杰转投京东,阿里高P技术骨干正遭大厂集体“围猎”
Voicebox:大规模文本引导的多语言通用语音生成技术
Voicebox:大规模文本引导的多语言通用语音生成技术
豆包语音输入法识别率高的离谱
豆包语音输入法识别率高的离谱
Parakeet 日语音视频转录整合包
Parakeet 日语音视频转录整合包
豆包上新同声传译,顺便狙击阿里AI眼镜?
豆包上新同声传译,顺便狙击阿里AI眼镜?
6.2K Star!MIT出品的多语言语音合成神器,CPU实时推理吊打商业软件!
6.2K Star!MIT出品的多语言语音合成神器,CPU实时推理吊打商业软件!
AI语音领域“新王易主”!MiniMax强势登顶,ElevenLabs时代落幕!
AI语音领域“新王易主”!MiniMax强势登顶,ElevenLabs时代落幕!
刚刚,字节掏出AI同传模型王炸,2秒延迟,0样本复刻你的声音,一手实测来了
刚刚,字节掏出AI同传模型王炸,2秒延迟,0样本复刻你的声音,一手实测来了
微信刚刚更新:内置的这个语音识别,太特么强了
微信刚刚更新:内置的这个语音识别,太特么强了
李沐B站更新了!教你手搓语音大模型,代码全开源还能在线试玩
李沐B站更新了!教你手搓语音大模型,代码全开源还能在线试玩
AI语音助手专用的“响应加速器”
AI语音助手专用的“响应加速器”
开源真强大,不敢相信,太真实,揭秘8.3k star 开源神器 VoiceCraft 如何封神!!!
开源真强大,不敢相信,太真实,揭秘8.3k star 开源神器 VoiceCraft 如何封神!!!
速递|AI可接管60%非紧急来电:AI语音Hyper获630万美元融资,为公共紧急电话系统“减淤疏堵”
速递|AI可接管60%非紧急来电:AI语音Hyper获630万美元融资,为公共紧急电话系统“减淤疏堵”
首个开源「AI智能语音转文本模型」,质量超whisper,成本爆降。
首个开源「AI智能语音转文本模型」,质量超whisper,成本爆降。
10分钟长音频直接对话!Audio Flamingo 3开源,语音版AGI来了
10分钟长音频直接对话!Audio Flamingo 3开源,语音版AGI来了
也玩音频克隆IndexTTS - weiwei22844
Index-TTS Windows 一键整合包下载和使用
Index-TTS Windows 一键整合包下载和使用
Mistral首个开源语音模型来了!全面碾压Whisper,多项测试超越GPT-4o mini
Mistral首个开源语音模型来了!全面碾压Whisper,多项测试超越GPT-4o mini
完全透明开源的共情语音大模型,三阶段训练,四大模块实现端到端对话 | 紫东太初联合长城汽车开源OpenS2S
完全透明开源的共情语音大模型,三阶段训练,四大模块实现端到端对话 | 紫东太初联合长城汽车开源OpenS2S