最新 AI 创业 产品 工具 应用 论文 笔记 markdown DeepSeek Qwen3 Github 开源项目 前端 RAG 知识图谱 OpenAI MCP Agent Manus 视频 即梦 可灵 短剧 数字人 AI工具 Python Coze 扣子空间 Dify 智能体 Cursor 多模态 效率 提示词 搜索 Transformer 产品经理 刘强东 京东 外卖 面试 巴菲特 游戏 强化学习 量化 关税 语音 redis Mistral 豆包 数据可视化 SaaS Deep Research DeepWiki Claude Ollama 2025 API DeepResearch
Gemmaverse 开发者故事 | 阿里国际基于 Gemma 开放模型探索多模态应用
Gemmaverse 开发者故事 | 阿里国际基于 Gemma 开放模型探索多模态应用
最新!多模态机器人控制idea狂飙:西湖大学&浙大提出突破传统VLA局限的统一架构?
最新!多模态机器人控制idea狂飙:西湖大学&浙大提出突破传统VLA局限的统一架构?
深思考人工智能CEO 兼 AI 算法科学家杨志明将在AICon北京分享端侧多模态大模型的创新实践
架构设计是范式:从以文本为中心的RAG发展为智能控制的多模态MRAG
架构设计是范式:从以文本为中心的RAG发展为智能控制的多模态MRAG
Ollama连续更新了3个版本!  终于把这些问题解决了!
Ollama连续更新了3个版本! 终于把这些问题解决了!
直播预约 | 多模态论文分享@ICML&ACL2025
直播预约 | 多模态论文分享@ICML&ACL2025
视觉感知RAG × 多模态推理 × 强化学习 = VRAG-RL
视觉感知RAG × 多模态推理 × 强化学习 = VRAG-RL
书籍下载-《多模态情感计算:情感信息的表示、建模与分析》
书籍下载-《多模态情感计算:情感信息的表示、建模与分析》
基于LLM的AI应急:多模态信息智能化分析整合助力字节事故处置效率提升30%
基于LLM的AI应急:多模态信息智能化分析整合助力字节事故处置效率提升30%
一文搞懂多模态视觉-语言模型:Qwen2.5-VL
一文搞懂多模态视觉-语言模型:Qwen2.5-VL
聊聊大模型推理系统之 HydraInfer:多模态大模型推理效率提升 4 倍背后的三大创新
聊聊大模型推理系统之 HydraInfer:多模态大模型推理效率提升 4 倍背后的三大创新
中稿⁺¹ !多模态学习+注意力机制再登顶会!新成果GPU内存消耗减半
中稿⁺¹ !多模态学习+注意力机制再登顶会!新成果GPU内存消耗减半
ACL 2025 | MMUnlearner解耦视觉-文本知识,多模态大模型遗忘进入细粒度时代
ACL 2025 | MMUnlearner解耦视觉-文本知识,多模态大模型遗忘进入细粒度时代
字节多模态模型BAGEL一手实测
字节多模态模型BAGEL一手实测
面向Agent的多模态数据建设探索!
面向Agent的多模态数据建设探索!
博士招生 | 北京大学智能学院 钟亦武老师 招收多模态推理/具身智能方向 博士
博士招生 | 北京大学智能学院 钟亦武老师 招收多模态推理/具身智能方向 博士
乖乖,太能打了!多模态融合目标检测新SOTA性能起飞!
乖乖,太能打了!多模态融合目标检测新SOTA性能起飞!
字节开源多模态理解与生成统一模型,对视觉的理解到达开源顶峰,AI图片编辑能力超强。
字节开源多模态理解与生成统一模型,对视觉的理解到达开源顶峰,AI图片编辑能力超强。
字节多模态模型BAGEL一手实测
字节多模态模型BAGEL一手实测
全面评估多模态模型视频OCR能力,Gemini 准确率仅73.7%
全面评估多模态模型视频OCR能力,Gemini 准确率仅73.7%
招聘 | 北京格灵深瞳-多模态实习生
招聘 | 北京格灵深瞳-多模态实习生
ByteBrain x 清华 VLDB25|时序多模态大语言模型 ChatTS
ByteBrain x 清华 VLDB25|时序多模态大语言模型 ChatTS
实现GPT 4o图像生成编辑能力 BFL推出新一代多模态图像生成与编辑模型:FLUX.1 Kontext
实现GPT 4o图像生成编辑能力 BFL推出新一代多模态图像生成与编辑模型:FLUX.1 Kontext
实现GPT 4o图像生成编辑能力 BFL推出新一代多模态图像生成与编辑模型:FLUX.1 Kontext
实现GPT 4o图像生成编辑能力 BFL推出新一代多模态图像生成与编辑模型:FLUX.1 Kontext
多模态扩散模型开始爆发,这次是高速可控还能学习推理的LaViDa
多模态扩散模型开始爆发,这次是高速可控还能学习推理的LaViDa
多模态理解在 AIGC 场景中的主要应用
Lovart实测:一条指令生成10页有声绘本!多模态惊艳,角色却飘了?
Lovart实测:一条指令生成10页有声绘本!多模态惊艳,角色却飘了?
清华首创多模态+知识图谱+RAG,问答精准度超 94%
清华首创多模态+知识图谱+RAG,问答精准度超 94%
大语言模型只需
大语言模型只需"阅读"就能看懂图片、听懂声音?
AI学习如何连接视觉和声音,无需人工干预​
AI学习如何连接视觉和声音,无需人工干预​
多模态,杀疯了!!
多模态,杀疯了!!
2025智源大会 · 多模态论坛:认知革命、范式对抗与 AGI 关键一跃
2025智源大会 · 多模态论坛:认知革命、范式对抗与 AGI 关键一跃
千卡级分布式集群上的视觉多模态大模型落地实践
2025多模态好发论文的方向!
2025多模态好发论文的方向!
字节开源多模态复杂文档解析模型!Dolphin:页面与元素并行解析,精准解析复杂文档!
字节开源多模态复杂文档解析模型!Dolphin:页面与元素并行解析,精准解析复杂文档!
SmolVLM2轻量级视频多模态模型,应用效果测评(风景、事故、仿真、统计、文字、识物) - iNeuOS工业互联网系统
抓紧上车,字节出手,分分钟登顶,斩获3.1k星!字节BAGEL多模态模型让AI会看会想会创作,太牛批~~~
抓紧上车,字节出手,分分钟登顶,斩获3.1k星!字节BAGEL多模态模型让AI会看会想会创作,太牛批~~~
文档智能解析项目汇总(含pipline、多模态端到端解析)
文档智能解析项目汇总(含pipline、多模态端到端解析)
多模态融合可能是现在或者未来一段时间最好发论文的方向了!
多模态融合可能是现在或者未来一段时间最好发论文的方向了!
书籍下载-《多模态智能感知的现代应用》-论文版
书籍下载-《多模态智能感知的现代应用》-论文版
多模态大模型不会画辅助线?最新评估得分:o3仅25.8%,远低于人类82.3% | 清华腾讯斯坦福联合
多模态大模型不会画辅助线?最新评估得分:o3仅25.8%,远低于人类82.3% | 清华腾讯斯坦福联合
多模态内容生成:从技术突破到创新应用落地|AICon北京
ComfyUI API 节点再升级!视频生成、3D 创作、LLM 集成齐发
ComfyUI API 节点再升级!视频生成、3D 创作、LLM 集成齐发
字节Dolphin:多模态文档图像解析模型
字节Dolphin:多模态文档图像解析模型
多模态模型具备“物理推理能力”了吗?新基准揭示:表现最好的GPT-o4 mini也远不及人类!
多模态模型具备“物理推理能力”了吗?新基准揭示:表现最好的GPT-o4 mini也远不及人类!
3D实时互动数字人集成了图像编辑、视频生成功能,这下多模态能力又增强了
3D实时互动数字人集成了图像编辑、视频生成功能,这下多模态能力又增强了
腾讯混元多模态大模型技术实践与思考|AICon北京
让视觉语言模型像o3一样动手搜索、写代码!Visual ARFT实现多模态智能体能力
让视觉语言模型像o3一样动手搜索、写代码!Visual ARFT实现多模态智能体能力
让视觉语言模型像o3一样动手搜索、写代码!Visual ARFT实现多模态智能体能力
舍弃自回归!国内团队打造纯扩散多模态大模型LLaDA-V,理解任务新SOTA