最新 AI 创业 产品 工具 应用 论文 笔记 markdown DeepSeek Qwen3 Github 开源项目 前端 RAG 知识图谱 OpenAI MCP Agent Manus 视频 即梦 可灵 短剧 数字人 AI工具 Python Coze 扣子空间 Dify 智能体 Cursor 多模态 效率 提示词 搜索 Transformer 产品经理 刘强东 京东 外卖 面试 巴菲特 游戏 强化学习 量化 关税 语音 redis Mistral 豆包 数据可视化 SaaS Deep Research DeepWiki Claude Ollama 2025 API DeepResearch
微软RPT:强化学习的风又吹到了预训练!
微软RPT:强化学习的风又吹到了预训练!
声智科技副总裁黄赟贺确认出席AICon北京,并分享非线性声学与强化学习如何让AI融入真实世界
具身智能路线之争:All in 模仿强化学习 vs 死磕传统控制?从业者到底该「信」谁?
具身智能路线之争:All in 模仿强化学习 vs 死磕传统控制?从业者到底该「信」谁?
直击强化学习前沿,RL专场来袭丨AI Insight Talk直播预告
直击强化学习前沿,RL专场来袭丨AI Insight Talk直播预告
大语言模型的全新预训练范式-强化预训练
大语言模型的全新预训练范式-强化预训练
颠覆!强化学习不再是微调专利,微软直接将其用于基模训练
颠覆!强化学习不再是微调专利,微软直接将其用于基模训练
Anthropic联合创始人:强化学习潜力超乎想象 |  Sessions: AI论坛
Anthropic联合创始人:强化学习潜力超乎想象 | Sessions: AI论坛
MSRA清北推出强化预训练!取代传统自监督,14B模型媲美32B
MSRA清北推出强化预训练!取代传统自监督,14B模型媲美32B
GraphRAG的优劣势及文档解析结合RL强化学习新思路Infinity Parser
GraphRAG的优劣势及文档解析结合RL强化学习新思路Infinity Parser
「Next-Token」范式改变!刚刚,强化学习预训练来了
「Next-Token」范式改变!刚刚,强化学习预训练来了
「Next-Token」范式改变!刚刚,强化学习预训练来了
从苦涩的教训到经验时代!强化学习之父Sutton的访谈总结
从苦涩的教训到经验时代!强化学习之父Sutton的访谈总结
Nature发表!多尺度强化学习重大成果!
Nature发表!多尺度强化学习重大成果!
ReSearch:通过强化学习让大模型学会在推理中搜索
ReSearch:通过强化学习让大模型学会在推理中搜索
大模型是「躲在洞穴里」观察世界? 强化学习大佬「吹哨」提醒LLM致命缺点
[深度解读]大模型是“洞穴里的观察者”?强化学习专家Sergey Levine揭秘LLM与人类智能的本质差异
[深度解读]大模型是“洞穴里的观察者”?强化学习专家Sergey Levine揭秘LLM与人类智能的本质差异
无人艇集群路径规划研究综述: 深度强化学习
无人艇集群路径规划研究综述: 深度强化学习
大模型是「躲在洞穴里」观察世界? 强化学习大佬「吹哨」提醒LLM致命缺点
大模型是「躲在洞穴里」观察世界? 强化学习大佬「吹哨」提醒LLM致命缺点
强化学习之父:LLM主导只是暂时,扩展计算才是正解
强化学习之父:LLM主导只是暂时,扩展计算才是正解
TORL:工具集成强化学习,让大语言模型学会用代码解题
TORL:工具集成强化学习,让大语言模型学会用代码解题
强化学习之父Richard Sutton智源大会最新演讲:欢迎来到经验时代!
强化学习之父Richard Sutton智源大会最新演讲:欢迎来到经验时代!
邮件问答新突破!ART·E 用强化学习优化 LLM 代理,成本更低、速度更快
邮件问答新突破!ART·E 用强化学习优化 LLM 代理,成本更低、速度更快
强化学习再梳理:PPO→GRPO→DAPO
强化学习再梳理:PPO→GRPO→DAPO
强化学习之父Richard Sutton:人类数据耗尽,AI正在进入“经验时代”!
强化学习之父Richard Sutton:人类数据耗尽,AI正在进入“经验时代”!
智驾|一文读懂大模型训练的技术框架和优化策略
智驾|一文读懂大模型训练的技术框架和优化策略
京东集团算法总监韩艾将在AICon北京站分享基于强化学习的异构多智能体联合进化算法
红温预警!“打假”7篇近期热门RL强化学习论文
红温预警!“打假”7篇近期热门RL强化学习论文
效率飙涨177%!清华、蚂蚁联合开源全异步RL新成果,8B/14B模型斩获同尺寸SOTA
效率飙涨177%!清华、蚂蚁联合开源全异步RL新成果,8B/14B模型斩获同尺寸SOTA
10行代码,AIME24/25提高15%!揭秘大模型强化学习熵机制
RL后训练步入超节点时代!华为黑科技榨干算力,一张卡干俩活
RL后训练步入超节点时代!华为黑科技榨干算力,一张卡干俩活
ByteBrain团队EuroSys25 | 秒级推理强化学习系统,实现云计算虚机重调度
ByteBrain团队EuroSys25 | 秒级推理强化学习系统,实现云计算虚机重调度
清华、蚂蚁联合开源AReaL-boba2,实现全异步强化学习,14B代码模型达到SOTA水平
RL圈“打假”:这7篇热门论文请避雷
RL圈“打假”:这7篇热门论文请避雷
10步优化超越强化学习,仅需1条未标注数据!后训练强势破局
10步优化超越强化学习,仅需1条未标注数据!后训练强势破局
重磅开源!首个全异步强化学习训练系统来了,SOTA推理大模型RL训练提速2.77倍
重磅开源!首个全异步强化学习训练系统来了,SOTA推理大模型RL训练提速2.77倍
重磅开源!首个全异步强化学习训练系统来了,SOTA推理大模型RL训练提速2.77倍
登上Science子刊封面的硬核idea:端到端强化学习,首次实现机器狗全自主打羽毛球!
登上Science子刊封面的硬核idea:端到端强化学习,首次实现机器狗全自主打羽毛球!
阿里通义的视觉RAG革命!VRAG-RL:基于强化学习的视觉感知RAG框架,性能飙升30%
阿里通义的视觉RAG革命!VRAG-RL:基于强化学习的视觉感知RAG框架,性能飙升30%