最新
AI
创业
产品
工具
应用
论文
笔记
markdown
DeepSeek
Qwen3
Github
开源项目
前端
RAG
知识图谱
OpenAI
MCP
Agent
Manus
视频
即梦
可灵
短剧
数字人
AI工具
Python
Coze
扣子空间
Dify
智能体
Cursor
多模态
效率
提示词
搜索
Transformer
产品经理
刘强东
京东
外卖
面试
巴菲特
游戏
强化学习
量化
关税
语音
redis
Mistral
豆包
数据可视化
SaaS
Deep Research
DeepWiki
Claude
Ollama
2025
API
语音助手的「智商滑铁卢」:当GPT开口说话,准确率从74.8%跌到6.1%
· 17小时前 ·
阅读原文
美团LongCat-Audio-Codec:给语音大模型装上“顺风耳”与“巧舌”
墨风如雪 · 21小时前 ·
阅读原文
豆包语音 2.0:数学公式也能读
金色传说大聪明 · 2天前 ·
阅读原文
用深度学习实现语音情绪识别(SER)
川后静波 · 2天前 ·
阅读原文
语音控制的太空射击游戏开发笔记 - hloadfio
hloadfio · 2天前 ·
阅读原文
手动下载 Faster-Whisper 模型,轻松解决下载难题
pyvideotrans · 4天前 ·
阅读原文
Z Product|“让AI问出每一个关键问题”:红杉连投两轮的Listen Labs如何用AI重塑400亿市场研究行业
Z Potentials · 5天前 ·
阅读原文
Ming-UniAudio:首个多功能统一语音大模型
弹贝斯的鱼 · 5天前 ·
阅读原文
10-10榜单速递:AI简报、隐私保护与语音代理革新团队效率
MaiMai · 1周前 ·
阅读原文
2.6K Star!超逼真端侧TTS模型,0.5B参数3秒音频即时克隆!
痕小子 · 1周前 ·
阅读原文
【语音转录-字幕配音-视频翻译】-多种渠道多种方式一站搞定-pyVideoTrans
pyvideotrans · 1周前 ·
阅读原文
8.7K Star!不用GPU也能搞语音合成,推荐这个25MB的语音合成神器,从App到嵌入式,从Web到桌面软件,哪里都能用
菜菜 · 1周前 ·
阅读原文
AI赚钱产品077:NaturalReader减少人工朗读负担,将文字转为自然语音
吴俊驰 · 1周前 ·
阅读原文
FunASR 前端语音识别代码解析
Cosolar · 1周前 ·
阅读原文
AI语音输入法太好使了,讯飞识别率远不如 Spokenly、豆包输入法
Aitrainee · 1周前 ·
阅读原文
GitHub高星推荐 | 这款免费开源语音转录工具,让创作效率翻倍
牛皮糖 · 1周前 ·
阅读原文
一个开源免费的文本转语音工具2.0
clkup · 1周前 ·
阅读原文
一手TTS-2语音合成模型安装教程及实际使用
白羊武士弗拉明戈 · 1周前 ·
阅读原文
开源语音识别FunASR入门详解 - weiwei22844
weiwei22844 · 3周前 ·
阅读原文
VoxCPM:新一代高拟真语音生成模型 - 肖祥
肖祥 · 3周前 ·
阅读原文
【GitHub每日速递 250915】3 个宝藏开源项目:超长语音合成、算法学习库、自托管软件导航,开发者速收 - piggy侠
piggy侠 · 1个月前 ·
阅读原文
只要 12GB 内存,Edge 就能实时翻译视频中的音频了。对,就是你想的那样。
青小蛙 · 1个月前 ·
阅读原文
在 Web 前端实现流式 TTS 播放
晚星star · 1个月前 ·
阅读原文
揭秘语音交互的核心技术
货拉拉技术 · 1个月前 ·
阅读原文
ASR评测需要关注的指标和分析方式
一葉 · 1个月前 ·
阅读原文
语音分离最全综述来了!清华等团队深度分析200+文章,系统解析「鸡尾酒会问题」研究
机器之心 · 1个月前 ·
阅读原文
硅谷顶级VC如何看语音AI?Greylock合伙人揭秘语音Agent构建的三层策略
深思圈 · 1个月前 ·
阅读原文
470万美元种子轮背后:这位华人CEO如何用语音AI征服硅谷投资人?
深思圈 · 1个月前 ·
阅读原文
AI 硬件 PM 指南 2 : 语音交互,让硬件听懂人话
硬核PM · 1个月前 ·
阅读原文
whisper语音转文字及其视频配置中英文字幕应用 - weiwei22844
weiwei22844 · 1个月前 ·
阅读原文
马斯克:Grok 4现已免费提供给所有用户,免费用户每天可少量查询;苹果测试全新AI语音控制功能丨AIGC日报
· 2个月前 ·
阅读原文
被低估的AI语音,AI商业化的下一张船票已来
乌鸦智能说 · 2个月前 ·
阅读原文
语音合成(TTS)跳跃与重复问题的解析:成因、机制及解决方案
张北北 · 2个月前 ·
阅读原文
苹果Siri新功能曝光:仅凭语音执行精准操作
卞纯 · 2个月前 ·
阅读原文
被低估的AI语音,AI商业化的下一张船票已来
智能乌鸦 · 2个月前 ·
阅读原文
我用AI做了两个工具,终于实现手机微信输入法在PC端的语音输入了!!!
东瓶西镜同学 · 2个月前 ·
阅读原文
语音活动检测(VAD) - 凌逆战
凌逆战 · 2个月前 ·
阅读原文
我的AI早报系统2.0:这次,我用MiniMax语音+MCP给它注入了灵魂
苍何 · 2个月前 ·
阅读原文
微软的 Azure AI 语音只需几秒音频就能生成逼真的深度伪造
AI音频时代 · 2个月前 ·
阅读原文
08-06榜单速递:高效工具优化网站性能、AI语音与健康管理
MaiMai · 2个月前 ·
阅读原文
速递|Meta的AI音频竞赛再落子,双月连购PlayAI+WaveForms,补全AI情感语音拼图
theinformation · 2个月前 ·
阅读原文
中英双语一起破防!北大×腾讯发布“地狱级”测试基准,直击语音对话模型软肋
让你更懂AI的 · 2个月前 ·
阅读原文
MiniMax语音模型上新!40种语言真人级生成,喜马拉雅、网易已接入声线
王 涵 · 2个月前 ·
阅读原文
乌鸦AI日报:ChatGPT 有望每周吸引7亿用户;通义语音大牛鄢志杰转投京东
· 2个月前 ·
阅读原文
E2 TTS:令人尴尬地简单、完全非自回归、零样本的语音合成技术
张北北 · 2个月前 ·
阅读原文
通义语音大牛鄢志杰转投京东,阿里高P技术骨干正遭大厂集体“围猎”
· 2个月前 ·
阅读原文
Voicebox:大规模文本引导的多语言通用语音生成技术
张北北 · 2个月前 ·
阅读原文
豆包语音输入法识别率高的离谱
吴俊驰 · 3个月前 ·
阅读原文
Parakeet 日语音视频转录整合包
pyvideotrans · 3个月前 ·
阅读原文
豆包上新同声传译,顺便狙击阿里AI眼镜?
涯角 · 3个月前 ·
阅读原文
6.2K Star!MIT出品的多语言语音合成神器,CPU实时推理吊打商业软件!
菜菜 · 3个月前 ·
阅读原文
AI语音领域“新王易主”!MiniMax强势登顶,ElevenLabs时代落幕!
半点轻松 · 3个月前 ·
阅读原文
刚刚,字节掏出AI同传模型王炸,2秒延迟,0样本复刻你的声音,一手实测来了
江 宇 · 3个月前 ·
阅读原文
微信刚刚更新:内置的这个语音识别,太特么强了
· 3个月前 ·
阅读原文
李沐B站更新了!教你手搓语音大模型,代码全开源还能在线试玩
关注前沿科技 · 3个月前 ·
阅读原文
AI语音助手专用的“响应加速器”
前端设计大神 · 3个月前 ·
阅读原文
开源真强大,不敢相信,太真实,揭秘8.3k star 开源神器 VoiceCraft 如何封神!!!
小华 · 3个月前 ·
阅读原文
速递|AI可接管60%非紧急来电:AI语音Hyper获630万美元融资,为公共紧急电话系统“减淤疏堵”
techcrunch · 3个月前 ·
阅读原文
首个开源「AI智能语音转文本模型」,质量超whisper,成本爆降。
开源AI · 3个月前 ·
阅读原文
10分钟长音频直接对话!Audio Flamingo 3开源,语音版AGI来了
· 3个月前 ·
阅读原文
也玩音频克隆IndexTTS - weiwei22844
weiwei22844 · 3个月前 ·
阅读原文
Index-TTS Windows 一键整合包下载和使用
pyvideotrans · 3个月前 ·
阅读原文
Mistral首个开源语音模型来了!全面碾压Whisper,多项测试超越GPT-4o mini
· 3个月前 ·
阅读原文
完全透明开源的共情语音大模型,三阶段训练,四大模块实现端到端对话 | 紫东太初联合长城汽车开源OpenS2S
关注前沿科技 · 3个月前 ·
阅读原文
×
加载中...