最新 AI 创业 产品 工具 应用 论文 笔记 markdown DeepSeek Qwen3 Github 开源项目 前端 RAG 知识图谱 OpenAI MCP Agent Manus 视频 即梦 数字人 AI工具 Python Coze 扣子空间 Dify 智能体 Cursor 多模态 效率 提示词 搜索 Transformer 产品经理 刘强东 京东 外卖 面试 巴菲特 游戏 强化学习 量化 关税 语音 redis Mistral
IndexTTS-vLLM:让语音合成更快速、更高效
IndexTTS-vLLM:让语音合成更快速、更高效
开源播客TTS神器!高效TTS模型:Muyan-TTS,0.33秒生成1秒音频,零样本语音合成!
开源播客TTS神器!高效TTS模型:Muyan-TTS,0.33秒生成1秒音频,零样本语音合成!
92ms极速Token响应!VITA团队开源实时语音大模型,推理效率暴增5倍
92ms极速Token响应!VITA团队开源实时语音大模型,推理效率暴增5倍
动嘴比动手快,我做了个AI语音备忘录
动嘴比动手快,我做了个AI语音备忘录
90元,DIY小智AI腕表开源,DeepSeek语音交互超有趣!
90元,DIY小智AI腕表开源,DeepSeek语音交互超有趣!
字节
字节"扣子空间 mini版"全面开源,超强深度研究能力,还集成了语音播客生成功能!
VITA-Audio:一款高效的语音语言模型,能够快速生成音频和文本内容
VITA-Audio:一款高效的语音语言模型,能够快速生成音频和文本内容
最强国产TTS接入MCP后,10分钟克隆哪吒2人物语音
最强国产TTS接入MCP后,10分钟克隆哪吒2人物语音
一个使用 Python 实现的小智语音客户端,旨在通过代码学习和在没有硬件条件下体验 AI 小智的语音功能。
一个使用 Python 实现的小智语音客户端,旨在通过代码学习和在没有硬件条件下体验 AI 小智的语音功能。
一点小更新 3.69 : 使用 LLM 大模型对语音识别结果重新断句
一点小更新 3.69 : 使用 LLM 大模型对语音识别结果重新断句
RealtimeTTS: 一款将大模型文字流实时转高质量语音的库
RealtimeTTS: 一款将大模型文字流实时转高质量语音的库
RealtimeVoiceChat: 又一款开源的实时语音聊天工具
RealtimeVoiceChat: 又一款开源的实时语音聊天工具
RealtimeSTT: 一款开源的实时声音转录库
RealtimeSTT: 一款开源的实时声音转录库
新型开源端到端 AI 语音模型!Voila:195ms 超低延迟引领全双工对话!
新型开源端到端 AI 语音模型!Voila:195ms 超低延迟引领全双工对话!
中科院实时语音交互新突破:LLaMA-Omni2如何让AI对话更自然流畅?
中科院实时语音交互新突破:LLaMA-Omni2如何让AI对话更自然流畅?
Parakeet TDT 0.6B V2:从实验室到行业颠覆,英伟达 0.6B 参数语音模型如何 1 秒搞定 60 分钟音频转录
Parakeet TDT 0.6B V2:从实验室到行业颠覆,英伟达 0.6B 参数语音模型如何 1 秒搞定 60 分钟音频转录
语音交互革命:揭秘新一代AI助手Voila如何突破技术边界
语音交互革命:揭秘新一代AI助手Voila如何突破技术边界
英伟达全新开源自动语音识别模型与其他开源语音模型的对比
英伟达全新开源自动语音识别模型与其他开源语音模型的对比
【HN测评012】高效率AI语音聊天引擎:普通人的下一个
【HN测评012】高效率AI语音聊天引擎:普通人的下一个"搞钱"风口已经来了
超越人类反应速度 | 开源语音大模型Voila支持195ms情感对话、百万音色+10秒声音克隆。
超越人类反应速度 | 开源语音大模型Voila支持195ms情感对话、百万音色+10秒声音克隆。
英伟达开源语音识别模型!0.6B 参数登顶 ASR 榜单,1 秒转录 60 分钟音频!
英伟达开源语音识别模型!0.6B 参数登顶 ASR 榜单,1 秒转录 60 分钟音频!
一键包:语音转文本,视频自动添加字幕,语音识别funasr还是很不错的
一键包:语音转文本,视频自动添加字幕,语音识别funasr还是很不错的
RealtimeVoiceChat:用语音与AI进行自然流畅对话的实时交互项目
RealtimeVoiceChat:用语音与AI进行自然流畅对话的实时交互项目
毫秒响应延迟!开源统一语音对话模型Voila
毫秒响应延迟!开源统一语音对话模型Voila
【HN日榜】500ms低延迟!AI语音聊天,开启实时交流新体验
【HN日榜】500ms低延迟!AI语音聊天,开启实时交流新体验
一款名为 Dia 的新开源文本到语音模型
一款名为 Dia 的新开源文本到语音模型
Z Product|被Meta收购后再创业,Sesame突破语音“恐怖谷”,a16z押注,“让AI听懂人心,让沟通回归自然”
Z Product|被Meta收购后再创业,Sesame突破语音“恐怖谷”,a16z押注,“让AI听懂人心,让沟通回归自然”
F5R-TTS:腾讯出品,TTS领域的新王者?流匹配+强化学习,语音克隆新高度!
F5R-TTS:腾讯出品,TTS领域的新王者?流匹配+强化学习,语音克隆新高度!
Dia:两个本科生打造的开源AI语音模型,复刻NotebookLM
Dia:两个本科生打造的开源AI语音模型,复刻NotebookLM
【技术分享】Edge-TTS与Cloudflare Worker结合,免费TTS服务轻松搭建!
【技术分享】Edge-TTS与Cloudflare Worker结合,免费TTS服务轻松搭建!
Rask:以假乱真的AI对口型、翻译、语音克隆工具
Rask:以假乱真的AI对口型、翻译、语音克隆工具
效果炸裂,谷歌的免费笔记神器正式支持中文语音播客
效果炸裂,谷歌的免费笔记神器正式支持中文语音播客
13.5K Star!支持5国语言+全栈语音生成,这个开源AI语音项目绝了!
13.5K Star!支持5国语言+全栈语音生成,这个开源AI语音项目绝了!
语音领域ISCA Fellow 2025公布:上海交大俞凯、台大李宏毅等三位华人入选
清华与智谱联合发布TTS模型GLM-4-Voice,支持情绪、语气控制,多语言,实时效果很不错~
清华与智谱联合发布TTS模型GLM-4-Voice,支持情绪、语气控制,多语言,实时效果很不错~
Kimi-Audio开源横扫全场景,1300万+小时数据炼成语音世界“大一统”
Kimi-Audio开源横扫全场景,1300万+小时数据炼成语音世界“大一统”
可以在终端运行的轻量化AI编程助手,还可以直接使用语音编程!
可以在终端运行的轻量化AI编程助手,还可以直接使用语音编程!
一个开源的文本转语音工具,支持超长文本和多角色配音,旨在帮助用户轻松将文本内容转换为高质量的语音输出。
一个开源的文本转语音工具,支持超长文本和多角色配音,旨在帮助用户轻松将文本内容转换为高质量的语音输出。
一键数字人再次升级,内置多个参考语音-多个参考视频,还支持自主上传音频和视频
一键数字人再次升级,内置多个参考语音-多个参考视频,还支持自主上传音频和视频
Dia-1.6B TTS: 最佳文本转语音AI模型
Dia-1.6B TTS: 最佳文本转语音AI模型
如何导出微信好友的所有语音
如何导出微信好友的所有语音
BosonAI推出音频理解和音频生成:一款具有实时音频推理和表达性语音合成的先进AI解决方案
BosonAI推出音频理解和音频生成:一款具有实时音频推理和表达性语音合成的先进AI解决方案
电视装了智能体,只凭台词就能找到剧集了
电视装了智能体,只凭台词就能找到剧集了
两本科生自学3个月复刻谷歌爆款产品,开源AI语音新标杆一天揽获5000星标
两本科生自学3个月复刻谷歌爆款产品,开源AI语音新标杆一天揽获5000星标
16亿参数!Nari Labs发布文本到语音模型Dia,逼真对话+情感控制,等你来体验
16亿参数!Nari Labs发布文本到语音模型Dia,逼真对话+情感控制,等你来体验
【HN日榜】ESP32秒变AI语音助手!开源项目让你体验实时语音交互
【HN日榜】ESP32秒变AI语音助手!开源项目让你体验实时语音交互
融合大模型的对话式语音 AI 变革与技术架构
两本科生自学3个月复刻谷歌爆款产品,开源AI语音新标杆一天揽获5000星标
两本科生自学3个月复刻谷歌爆款产品,开源AI语音新标杆一天揽获5000星标
速递|两名本科生3个月打造的AI语音模型,挑战谷歌NotebookLM,16亿参数实现自然对话生成
速递|两名本科生3个月打造的AI语音模型,挑战谷歌NotebookLM,16亿参数实现自然对话生成
Dia是由Nari Labs开发的一个拥有1.6B参数的文本到语音模型
Dia是由Nari Labs开发的一个拥有1.6B参数的文本到语音模型
【HN日榜】Dia:开源文本转语音模型,生成逼真对话!
【HN日榜】Dia:开源文本转语音模型,生成逼真对话!
04-21榜单速递:AI调试工具与语音克隆技术领衔,7款开发者效率工具深度解析
04-21榜单速递:AI调试工具与语音克隆技术领衔,7款开发者效率工具深度解析
IBM Granite 3.3:语音识别、推理增强与RAG的完美融合
IBM Granite 3.3:语音识别、推理增强与RAG的完美融合
级联vs端到端、全双工、轮次检测、方言语种、商业模式…语音 AI 开发者都在关心什么?丨Voice Agent 学习笔记
视听语音LLM效率革命!MMS-LLaMA词误率0.74%创纪录,Token开销暴降86%
视听语音LLM效率革命!MMS-LLaMA词误率0.74%创纪录,Token开销暴降86%
智能语音备忘录:SpeechRecognition与gTTS的奇妙融合 - TechSynapse
语音交互革命!开源神器Oliva:一句话秒搜海量数据,多AI协作颠覆传统搜索
语音交互革命!开源神器Oliva:一句话秒搜海量数据,多AI协作颠覆传统搜索
GLM-4-Voice 9B 实时多语言语音对话AI,具有情感、语调和语速(附源代码+模型权重)
浙大赵洲教授团队发布MegaTTS3,让AI语音更自然的新一代语音合成技术
深入解析语音AI项目:ABexit/ASR-LLM-TTS的技术实现与应用前景
开源TTS项目GPT-SoVITS,支持跨语言合成、支持多语言~
SparkAudio/VoxBox:为文本到语音(TTS)系统训练提供大规模语音语料库
MegaTTS 3:字节跳动开源语音神器,吊打VALL-E,自然度逼近真人录音
实时语音交互数字人VideoChat,可自定义形象与音色,支持音色克隆,首包延迟低至3s
[开源APP推荐] Vocable AAC - 免提文本转语音
还在手写笔记?实测多款AI语音转写神器!学生党/打工人速存
开源语音克隆利器-OpenVoice
语音指令怎么避免同音词干扰?
ElevenLabs MCP:为开发者与创作者赋能的语音AI智能处理工具!
开口跪!小智 AI 语音情感值拉满,全靠 CosyVoice 2.0! 太顶了,多语言、方言、声音克隆全拿捏!
推出 Amazon Nova Sonic:为生成式 AI 应用程序带来类似人类的语音对话体验
AI语音迎来「特斯拉时刻」,一条工作流「吃掉」全球百亿市场
半开源语音克隆神器 MegaTTS3:安装难、用起来更难?手把手带你从零到精通
用Python实现超酷语音合成第二弹——edge-tts
安利免费开源的声音克隆、文本转语音整合包软件、一键本地安装!
成本最高降90%!百度发布端到端语音语言大模型,已在文小言上线
音频生成技术探索与淘宝域实践
微信语音(silk)转mp3
一键包:B站开源语音克隆TTS,速度-质量达到sota水平,超越 CosyVoice2、Fish-Speech 等模型
免费中文离线语音转文本服务,HassOS零配置开箱即用