最新 AI 创业 产品 工具 应用 论文 笔记 markdown DeepSeek Qwen3 Github 开源项目 前端 RAG 知识图谱 OpenAI MCP Agent Manus 视频 即梦 可灵 短剧 数字人 AI工具 Python Coze 扣子空间 Dify 智能体 Cursor 多模态 效率 提示词 搜索 Transformer 产品经理 刘强东 京东 外卖 面试 巴菲特 游戏 强化学习 量化 关税 语音 redis Mistral 豆包 数据可视化 SaaS Deep Research DeepWiki Claude Ollama 2025 API
AI入门知识点:什么是 AIGC、多模态、RAG、Function Call、Agent、MCP?
多模态 Agent 技术全景解析 — 从模型能力、Agent 架构到工程化与商业落地
多模态图文训推一体化平台 X-AnyLabeling 3.0 版本正式发布!首次支持远程模型推理服务,并新增 Qwen3-VL 等多款主流模型及诸多功能特性,等
GLM-4.6V 实测:当视觉模型学会“动手”,它离“顶尖”还差什么?
搞定多模态微调只需一杯咖啡的时间?FC DevPod + Llama-Factory 极速实战 - Serverless社区
赋能智慧隧道施工:工程车辆多模态数据采集系统 - 康谋自动驾驶
当 Prompt 理论遇上生成式多模态 —— 新技术如何推动产品体验跃迁(Nano Banana Pro VS Z-Image-Turbo)
Databend 11 月月报:多模态查询智能
UniParse:让多模态模型真正“读懂”文档的解析引擎
迎接「万物皆可RAG」时代:最新综述展示50多种多模态组合的巨大待探索空间
京东云JoyAgent持续开源!多模态RAG能力正式开源
重新认识Gemini
LangChain1.0实战之多模态RAG系统(二)——多模态RAG系统图片分析与语音转写功能实现
生成式UI+多模态融合:Gemini 3如何重塑人机交互未来
一文讲清:多模态学习:多模态融合 + 跨模态对齐
产品经理手记:Gemini 3产品深度解析与战略思考
AI+财税:多模态财税问答系统项目方案书
实测GenFlow 3.0:第一次觉得百度做对了
基于 Hologres 构建智能驾驶图像高性能分析系统
从0到1:智能汇 AI 全栈实战,拆解多模态 AI 应用开发全流程
抢占VQA多模态风口:产品经理的场景挖掘与产品创新价值转化指南
LazyLLM教程 | 第13讲:RAG+多模态:图片、表格通吃的问答系统
ICCV 2025 | 美团论文精选及多模态推理竞赛冠军方法分享
支付宝悄悄放了个大招:AGI相机“灵光”,你的世界观要变了!
死磕「文本智能」,多模态研究的下一个前沿
大模型 | VLA 初识及在自动驾驶场景中的应用
SAIL-VL2本地部署教程:2B/8B参数媲美大规模模型,为轻量级设备量身打造的多模态大脑
再看两阶段多模态文档解析大模型-PaddleOCR-VL架构、数据、训练方法
再看两阶段多模态文档解析大模型-PaddleOCR-VL架构、数据、训练方法
HKU MMLab最新开源SRUM!基于统一多模态模型的训练后奖励微调
HKU MMLab最新开源SRUM!基于统一多模态模型的训练后奖励微调
NeurIPS 2025 | 上交大提出MM-UPT:多模态大模型的“无监督后训练”范式
NeurIPS 2025 | 上交大提出MM-UPT:多模态大模型的“无监督后训练”范式