最新 AI 创业 产品 工具 应用 论文 笔记 markdown DeepSeek Qwen3 Github 开源项目 前端 RAG 知识图谱 OpenAI MCP Agent Manus 视频 即梦 可灵 短剧 数字人 AI工具 Python Coze 扣子空间 Dify 智能体 Cursor 多模态 效率 提示词 搜索 Transformer 产品经理 刘强东 京东 外卖 面试 巴菲特 游戏 强化学习 量化 关税 语音 redis Mistral 豆包 数据可视化 SaaS Deep Research DeepWiki Claude Ollama 2025 API
硅谷顶级VC如何看语音AI?Greylock合伙人揭秘语音Agent构建的三层策略
470万美元种子轮背后:这位华人CEO如何用语音AI征服硅谷投资人?
AI 硬件 PM 指南 2 : 语音交互,让硬件听懂人话
whisper语音转文字及其视频配置中英文字幕应用 - weiwei22844
马斯克:Grok 4现已免费提供给所有用户,免费用户每天可少量查询;苹果测试全新AI语音控制功能丨AIGC日报
马斯克:Grok 4现已免费提供给所有用户,免费用户每天可少量查询;苹果测试全新AI语音控制功能丨AIGC日报
被低估的AI语音,AI商业化的下一张船票已来
语音合成(TTS)跳跃与重复问题的解析:成因、机制及解决方案
语音合成(TTS)跳跃与重复问题的解析:成因、机制及解决方案
苹果Siri新功能曝光:仅凭语音执行精准操作 
苹果Siri新功能曝光:仅凭语音执行精准操作 
被低估的AI语音,AI商业化的下一张船票已来
被低估的AI语音,AI商业化的下一张船票已来
我用AI做了两个工具,终于实现手机微信输入法在PC端的语音输入了!!!
我用AI做了两个工具,终于实现手机微信输入法在PC端的语音输入了!!!
语音活动检测(VAD) - 凌逆战
我的AI早报系统2.0:这次,我用MiniMax语音+MCP给它注入了灵魂
我的AI早报系统2.0:这次,我用MiniMax语音+MCP给它注入了灵魂
微软的 Azure AI 语音只需几秒音频就能生成逼真的深度伪造
微软的 Azure AI 语音只需几秒音频就能生成逼真的深度伪造
08-06榜单速递:高效工具优化网站性能、AI语音与健康管理
08-06榜单速递:高效工具优化网站性能、AI语音与健康管理
速递|Meta的AI音频竞赛再落子,双月连购PlayAI+WaveForms,补全AI情感语音拼图
速递|Meta的AI音频竞赛再落子,双月连购PlayAI+WaveForms,补全AI情感语音拼图
中英双语一起破防!北大×腾讯发布“地狱级”测试基准,直击语音对话模型软肋
中英双语一起破防!北大×腾讯发布“地狱级”测试基准,直击语音对话模型软肋
MiniMax语音模型上新!40种语言真人级生成,喜马拉雅、网易已接入声线
MiniMax语音模型上新!40种语言真人级生成,喜马拉雅、网易已接入声线
乌鸦AI日报:ChatGPT 有望每周吸引7亿用户;通义语音大牛鄢志杰转投京东
乌鸦AI日报:ChatGPT 有望每周吸引7亿用户;通义语音大牛鄢志杰转投京东
E2 TTS:令人尴尬地简单、完全非自回归、零样本的语音合成技术
E2 TTS:令人尴尬地简单、完全非自回归、零样本的语音合成技术
通义语音大牛鄢志杰转投京东,阿里高P技术骨干正遭大厂集体“围猎”
通义语音大牛鄢志杰转投京东,阿里高P技术骨干正遭大厂集体“围猎”
Voicebox:大规模文本引导的多语言通用语音生成技术
Voicebox:大规模文本引导的多语言通用语音生成技术
豆包语音输入法识别率高的离谱
豆包语音输入法识别率高的离谱
Parakeet 日语音视频转录整合包
Parakeet 日语音视频转录整合包
豆包上新同声传译,顺便狙击阿里AI眼镜?
豆包上新同声传译,顺便狙击阿里AI眼镜?
6.2K Star!MIT出品的多语言语音合成神器,CPU实时推理吊打商业软件!
6.2K Star!MIT出品的多语言语音合成神器,CPU实时推理吊打商业软件!
AI语音领域“新王易主”!MiniMax强势登顶,ElevenLabs时代落幕!
AI语音领域“新王易主”!MiniMax强势登顶,ElevenLabs时代落幕!
刚刚,字节掏出AI同传模型王炸,2秒延迟,0样本复刻你的声音,一手实测来了
刚刚,字节掏出AI同传模型王炸,2秒延迟,0样本复刻你的声音,一手实测来了
微信刚刚更新:内置的这个语音识别,太特么强了
微信刚刚更新:内置的这个语音识别,太特么强了
李沐B站更新了!教你手搓语音大模型,代码全开源还能在线试玩
李沐B站更新了!教你手搓语音大模型,代码全开源还能在线试玩
AI语音助手专用的“响应加速器”
AI语音助手专用的“响应加速器”
开源真强大,不敢相信,太真实,揭秘8.3k star 开源神器 VoiceCraft 如何封神!!!
开源真强大,不敢相信,太真实,揭秘8.3k star 开源神器 VoiceCraft 如何封神!!!
速递|AI可接管60%非紧急来电:AI语音Hyper获630万美元融资,为公共紧急电话系统“减淤疏堵”
速递|AI可接管60%非紧急来电:AI语音Hyper获630万美元融资,为公共紧急电话系统“减淤疏堵”
首个开源「AI智能语音转文本模型」,质量超whisper,成本爆降。
首个开源「AI智能语音转文本模型」,质量超whisper,成本爆降。
10分钟长音频直接对话!Audio Flamingo 3开源,语音版AGI来了
10分钟长音频直接对话!Audio Flamingo 3开源,语音版AGI来了
也玩音频克隆IndexTTS - weiwei22844
Index-TTS Windows 一键整合包下载和使用
Index-TTS Windows 一键整合包下载和使用
Mistral首个开源语音模型来了!全面碾压Whisper,多项测试超越GPT-4o mini
Mistral首个开源语音模型来了!全面碾压Whisper,多项测试超越GPT-4o mini
完全透明开源的共情语音大模型,三阶段训练,四大模块实现端到端对话 | 紫东太初联合长城汽车开源OpenS2S
完全透明开源的共情语音大模型,三阶段训练,四大模块实现端到端对话 | 紫东太初联合长城汽车开源OpenS2S
前端语音 + 后端大模型:手把手教你0成本打造一个会「听」会「说」的智能助理
前端语音 + 后端大模型:手把手教你0成本打造一个会「听」会「说」的智能助理
全球首创!B站推出影视级TTS语音模型,支持零样本语音+情绪双克隆,精准时长控制!
全球首创!B站推出影视级TTS语音模型,支持零样本语音+情绪双克隆,精准时长控制!
Meta斥资近亿美元收购语音AI公司,扎克伯格的超级智慧版图浮出水面!
Meta斥资近亿美元收购语音AI公司,扎克伯格的超级智慧版图浮出水面!
小语种字幕解决方案:Gemini攻克小语种语音识别,生成广播级SRT字幕
小语种字幕解决方案:Gemini攻克小语种语音识别,生成广播级SRT字幕
Whisper语音识别断句不够好?用AI 大模型和结构化输出打造完美字幕【附提示词】
Whisper语音识别断句不够好?用AI 大模型和结构化输出打造完美字幕【附提示词】
开源语音转文字神器!浏览器本地运行,无需上传,Whisper驱动,隐私+实时两不误!
开源语音转文字神器!浏览器本地运行,无需上传,Whisper驱动,隐私+实时两不误!
TMM 2025 | 超越SOTA!AdaMesh用10秒视频生成个性化语音动画,表情生动性提升40%。
TMM 2025 | 超越SOTA!AdaMesh用10秒视频生成个性化语音动画,表情生动性提升40%。
19条作品涨粉66万!用MiniMax语音一句话生成古代才女独白,涨粉+变现双双起飞
19条作品涨粉66万!用MiniMax语音一句话生成古代才女独白,涨粉+变现双双起飞
当 Normalizing flow 遇上语音生成:AI 说话变 “真人” 的秘密在这里!
当 Normalizing flow 遇上语音生成:AI 说话变 “真人” 的秘密在这里!
80%留存、19%付费率!这款AI语音键盘凭什么拿下5600万美元融资?
80%留存、19%付费率!这款AI语音键盘凭什么拿下5600万美元融资?
1年15倍增长,硅谷顶级VC投资2000万美金,这家来自欧洲的公司如何在拥挤的AI语音客服赛道杀出重围
对话Wispr Flow 创始人 Tanay:语音输入,如何创造极致的 Voice AI 产品体验
对话Wispr Flow 创始人 Tanay:语音输入,如何创造极致的 Voice AI 产品体验
1年15倍增长,硅谷顶级VC投资2000万美金,这家来自欧洲的公司如何在拥挤的AI语音客服赛道杀出重围
1年15倍增长,硅谷顶级VC投资2000万美金,这家来自欧洲的公司如何在拥挤的AI语音客服赛道杀出重围
语音AI小巨头ElevenLabs创始人:今年将通过与AI代理对话的图灵测试,实现无障碍的跨语言交流
语音AI小巨头ElevenLabs创始人:今年将通过与AI代理对话的图灵测试,实现无障碍的跨语言交流
NLP之文本纠错开源大模型:兼看语音大模型总结
NLP之文本纠错开源大模型:兼看语音大模型总结
会议记录神器Get笔记:语音转文字+智能总结,免费600分钟超长待机!
会议记录神器Get笔记:语音转文字+智能总结,免费600分钟超长待机!
AI 语音爆发的这半年,一位「局中人」看到的赛道爆发逻辑
AI 语音爆发的这半年,一位「局中人」看到的赛道爆发逻辑
TEN VAD 企业级别的语音检测器开源了,效果非常好
TEN VAD 企业级别的语音检测器开源了,效果非常好
开源端到端语音大模型:直接从原始音频输入,生成语音输出
开源端到端语音大模型:直接从原始音频输入,生成语音输出
Parakeet 本地化语音识别转录部署指南并在pyVideoTrans中使用
Parakeet 本地化语音识别转录部署指南并在pyVideoTrans中使用