最新 AI 创业 产品 工具 应用 论文 笔记 markdown DeepSeek Qwen3 Github 开源项目 前端 RAG 知识图谱 OpenAI MCP Agent Manus 视频 即梦 可灵 短剧 数字人 AI工具 Python Coze 扣子空间 Dify 智能体 Cursor 多模态 效率 提示词 搜索 Transformer 产品经理 刘强东 京东 外卖 面试 巴菲特 游戏 强化学习 量化 关税 语音 redis Mistral 豆包 数据可视化 SaaS Deep Research DeepWiki Claude Ollama 2025 API
ICCV 2025 | 美团论文精选及多模态推理竞赛冠军方法分享
支付宝悄悄放了个大招:AGI相机“灵光”,你的世界观要变了!
死磕「文本智能」,多模态研究的下一个前沿
大模型 | VLA 初识及在自动驾驶场景中的应用
SAIL-VL2本地部署教程:2B/8B参数媲美大规模模型,为轻量级设备量身打造的多模态大脑
再看两阶段多模态文档解析大模型-PaddleOCR-VL架构、数据、训练方法
再看两阶段多模态文档解析大模型-PaddleOCR-VL架构、数据、训练方法
HKU MMLab最新开源SRUM!基于统一多模态模型的训练后奖励微调
HKU MMLab最新开源SRUM!基于统一多模态模型的训练后奖励微调
NeurIPS 2025 | 上交大提出MM-UPT:多模态大模型的“无监督后训练”范式
NeurIPS 2025 | 上交大提出MM-UPT:多模态大模型的“无监督后训练”范式
NeurIPS2025 | 攻破闭源多模态大模型:一种基于特征最优对齐的新型对抗攻击方法
NeurIPS2025 | 攻破闭源多模态大模型:一种基于特征最优对齐的新型对抗攻击方法
多模态大模型做文档解析方案总结指引:兼看最近多模态模型数据合成思路
多模态大模型做文档解析方案总结指引:兼看最近多模态模型数据合成思路
RAG、Search Agent不香了?苹果DeepMMSearch-R1杀入多模态搜索新战场
RAG、Search Agent不香了?苹果DeepMMSearch-R1杀入多模态搜索新战场
打败 Qwen2.5-VL,完全开源可复现LLaVA-OneVision-1.5 的多模态模型
打败 Qwen2.5-VL,完全开源可复现LLaVA-OneVision-1.5 的多模态模型
如何打造一个文档解析的多模态大模型?MinerU2.5架构、数据、训练方法
如何打造一个文档解析的多模态大模型?MinerU2.5架构、数据、训练方法
不再靠“猜坐标”!新加坡工程院院士颜水成携华南理工 & A*STAR团队联合发布PaDT:实现真正的多模态表征输出
不再靠“猜坐标”!新加坡工程院院士颜水成携华南理工 & A*STAR团队联合发布PaDT:实现真正的多模态表征输出
舍弃人工标注!华人团队提出多模态大模型自我进化算法
舍弃人工标注!华人团队提出多模态大模型自我进化算法
多模态大模型首次实现像素级推理!3B参数超越72B传统模型,NeurIPS 2025收录
多模态大模型首次实现像素级推理!3B参数超越72B传统模型,NeurIPS 2025收录
AI能否「圣地巡礼」?多模态大模型全新评估基准VIR-Bench来了
AI能否「圣地巡礼」?多模态大模型全新评估基准VIR-Bench来了
多模态大模型做目标检测Detect Anything思路及其工程化数据合成路线
多模态大模型做目标检测Detect Anything思路及其工程化数据合成路线
不再靠「猜坐标」!颜水成团队等联合发布PaDT多模态大模型:实现真正的多模态表征输出
不再靠「猜坐标」!颜水成团队等联合发布PaDT多模态大模型:实现真正的多模态表征输出
AI玩拼图游戏暴涨视觉理解力,告别文本中心训练,无需标注的多模态大模型后训练范式
AI玩拼图游戏暴涨视觉理解力,告别文本中心训练,无需标注的多模态大模型后训练范式
AI能否「圣地巡礼」?多模态大模型全新评估基准VIR-Bench来了
AI能否「圣地巡礼」?多模态大模型全新评估基准VIR-Bench来了
面向金融SEC申报书的多模态RAG知识库建设思路及昨日前沿技术进展回顾
面向金融SEC申报书的多模态RAG知识库建设思路及昨日前沿技术进展回顾
视觉精准,文本稳健,足够轻巧!Qwen3-VL-4B/8B 开源上线
视觉精准,文本稳健,足够轻巧!Qwen3-VL-4B/8B 开源上线
VLA 演进为 MLA!北大提出统一点云、触觉与视觉的全新具身大模型架构
VLA 演进为 MLA!北大提出统一点云、触觉与视觉的全新具身大模型架构
万物皆可描述!遥感图像描述进入对象级细粒度理解时代,多模态模型权重、数据和代码全开源!
万物皆可描述!遥感图像描述进入对象级细粒度理解时代,多模态模型权重、数据和代码全开源!
聊聊大模型推理系统之RServe如何实现66%延迟降低与109%吞吐提升?
聊聊大模型推理系统之RServe如何实现66%延迟降低与109%吞吐提升?
Qwen3-VL 发布十二大多模态场景应用指南
Qwen3-VL 发布十二大多模态场景应用指南
景不动人动,MLLM如何面对「移步换景」的真实世界?OST-Bench揭示多模态大模型在线时空理解短板
景不动人动,MLLM如何面对「移步换景」的真实世界?OST-Bench揭示多模态大模型在线时空理解短板
LLaVA-OneVision-1.5全链路开源!8B多模态模型预训练仅4天1.6万美元,普通人也能复现强性能
LLaVA-OneVision-1.5全链路开源!8B多模态模型预训练仅4天1.6万美元,普通人也能复现强性能
华人团队论文登上Hugging Face日榜前三,让多模态AI自我进化,超越现有SOTA方法
华人团队论文登上Hugging Face日榜前三,让多模态AI自我进化,超越现有SOTA方法
从互联网视频提取多模态具身数据、将数采成本降至行业千分之五,具身智能企业获数千万元融资|早起看早期
从互联网视频提取多模态具身数据、将数采成本降至行业千分之五,具身智能企业获数千万元融资|早起看早期
用Lovart+S模型一站式搞定 | 赵露思风格穿搭的品牌素材库:图片+视频,提效500%
用Lovart+S模型一站式搞定 | 赵露思风格穿搭的品牌素材库:图片+视频,提效500%
Gemini 2.5 Pro 是怎么炼成的?-- gemini 2.5 技术报告阅读笔记与思考
Gemini 2.5 Pro 是怎么炼成的?-- gemini 2.5 技术报告阅读笔记与思考
HF今日论文43篇|Meta提出智能体“早期经验”学习范式,上海AILab提升多模态长链推理18.6%、实现可解释化学合成新突破
HF今日论文43篇|Meta提出智能体“早期经验”学习范式,上海AILab提升多模态长链推理18.6%、实现可解释化学合成新突破
AI产品经理第七堂课:多模态智能体设计与跨场景落地
AI产品经理第七堂课:多模态智能体设计与跨场景落地
基于文档布局Graph的多模态文档RAG及Query分词打标量化的LAD-RAG思路
基于文档布局Graph的多模态文档RAG及Query分词打标量化的LAD-RAG思路
新出的多模态AI笔记工具:视频秒变图文笔记、生成脑图、播客等,太好用了!
喜报:红熊AI与联通(上海)产业互联网有限公司达成AI项目合作
喜报:红熊AI与联通(上海)产业互联网有限公司达成AI项目合作
QARM:多模态语义对齐与量化在推荐系统中的实践路径 - GRITJW
【10.08AI日报】相关论文代码:涉及推理优化、效率提升、安全对齐、多模态生成等核心领域
【10.08AI日报】相关论文代码:涉及推理优化、效率提升、安全对齐、多模态生成等核心领域