文章列表

最新 AI 创业产品工具应用论文笔记 markdown DeepSeek Qwen3 Github 开源项目前端 RAG 知识图谱 OpenAI MCP Agent Manus 视频即梦可灵短剧数字人 AI工具 Python Coze 扣子空间 Dify 智能体 Cursor 多模态效率提示词搜索 Transformer 产品经理刘强东京东外卖面试巴菲特游戏强化学习量化关税语音 redis Mistral 豆包数据可视化 SaaS Deep Research DeepWiki Claude Ollama 2025 API DeepResearch

微软RPT：强化学习的风又吹到了预训练！

微软RPT：强化学习的风又吹到了预训练！

· 6小时前 · 原文

声智科技副总裁黄赟贺确认出席AICon北京，并分享非线性声学与强化学习如何让AI融入真实世界

AICon 全球人工智能开发与应用大会 · 1天前 · 原文

具身智能路线之争：All in 模仿强化学习 vs 死磕传统控制？从业者到底该「信」谁？

具身智能路线之争：All in 模仿强化学习 vs 死磕传统控制？从业者到底该「信」谁？

深蓝学院-具身君 · 1天前 · 原文

直击强化学习前沿，RL专场来袭丨AI Insight Talk直播预告

直击强化学习前沿，RL专场来袭丨AI Insight Talk直播预告

AI Insight Talk · 2天前 · 原文

大语言模型的全新预训练范式-强化预训练

大语言模型的全新预训练范式-强化预训练

无影寺 · 2天前 · 原文

颠覆！强化学习不再是微调专利，微软直接将其用于基模训练

颠覆！强化学习不再是微调专利，微软直接将其用于基模训练

Tensorlong 看天下 · 2天前 · 原文

Anthropic联合创始人：强化学习潜力超乎想象 | Sessions: AI论坛

Anthropic联合创始人：强化学习潜力超乎想象 | Sessions: AI论坛

数字开物 · 3天前 · 原文

MSRA清北推出强化预训练！取代传统自监督，14B模型媲美32B

MSRA清北推出强化预训练！取代传统自监督，14B模型媲美32B

关注前沿科技 · 3天前 · 原文

GraphRAG的优劣势及文档解析结合RL强化学习新思路Infinity Parser

GraphRAG的优劣势及文档解析结合RL强化学习新思路Infinity Parser

刘焕勇 · 3天前 · 原文

「Next-Token」范式改变！刚刚，强化学习预训练来了

机器之心 · 3天前 · 原文

「Next-Token」范式改变！刚刚，强化学习预训练来了

「Next-Token」范式改变！刚刚，强化学习预训练来了

· 3天前 · 原文

从苦涩的教训到经验时代！强化学习之父Sutton的访谈总结

从苦涩的教训到经验时代！强化学习之父Sutton的访谈总结

· 3天前 · 原文

Nature发表！多尺度强化学习重大成果！

Nature发表！多尺度强化学习重大成果！

· 4天前 · 原文

ReSearch：通过强化学习让大模型学会在推理中搜索

ReSearch：通过强化学习让大模型学会在推理中搜索

Q同学的nlp笔记 · 4天前 · 原文

大模型是「躲在洞穴里」观察世界？强化学习大佬「吹哨」提醒LLM致命缺点

机器之心 · 4天前 · 原文

[深度解读]大模型是“洞穴里的观察者”？强化学习专家Sergey Levine揭秘LLM与人类智能的本质差异

[深度解读]大模型是“洞穴里的观察者”？强化学习专家Sergey Levine揭秘LLM与人类智能的本质差异

Wolfgang · 4天前 · 原文

无人艇集群路径规划研究综述: 深度强化学习

无人艇集群路径规划研究综述: 深度强化学习

· 4天前 · 原文

大模型是「躲在洞穴里」观察世界？强化学习大佬「吹哨」提醒LLM致命缺点

大模型是「躲在洞穴里」观察世界？强化学习大佬「吹哨」提醒LLM致命缺点

· 4天前 · 原文

强化学习之父：LLM主导只是暂时，扩展计算才是正解

强化学习之父：LLM主导只是暂时，扩展计算才是正解

关注前沿科技 · 4天前 · 原文

TORL：工具集成强化学习，让大语言模型学会用代码解题

TORL：工具集成强化学习，让大语言模型学会用代码解题

Q同学的nlp笔记 · 5天前 · 原文

强化学习之父Richard Sutton智源大会最新演讲：欢迎来到经验时代！

强化学习之父Richard Sutton智源大会最新演讲：欢迎来到经验时代！

智源社区 · 6天前 · 原文

邮件问答新突破！ART·E 用强化学习优化 LLM 代理，成本更低、速度更快

邮件问答新突破！ART·E 用强化学习优化 LLM 代理，成本更低、速度更快

· 1周前 · 原文

强化学习再梳理：PPO→GRPO→DAPO

强化学习再梳理：PPO→GRPO→DAPO

catneverfat · 1周前 · 原文

强化学习之父Richard Sutton：人类数据耗尽，AI正在进入“经验时代”！

强化学习之父Richard Sutton：人类数据耗尽，AI正在进入“经验时代”！

· 1周前 · 原文

智驾｜一文读懂大模型训练的技术框架和优化策略

智驾｜一文读懂大模型训练的技术框架和优化策略

天涯咫尺TGH · 1周前 · 原文

京东集团算法总监韩艾将在AICon北京站分享基于强化学习的异构多智能体联合进化算法

AICon 全球人工智能开发与应用大会 · 1周前 · 原文

红温预警！“打假”7篇近期热门RL强化学习论文

红温预警！“打假”7篇近期热门RL强化学习论文

一蛙AI · 1周前 · 原文

效率飙涨177%！清华、蚂蚁联合开源全异步RL新成果，8B/14B模型斩获同尺寸SOTA

效率飙涨177%！清华、蚂蚁联合开源全异步RL新成果，8B/14B模型斩获同尺寸SOTA

陈骏达 · 1周前 · 原文

10行代码，AIME24/25提高15%！揭秘大模型强化学习熵机制

机器之心 · 1周前 · 原文

RL后训练步入超节点时代！华为黑科技榨干算力，一张卡干俩活

RL后训练步入超节点时代！华为黑科技榨干算力，一张卡干俩活

新智元 · 1周前 · 原文

ByteBrain团队EuroSys25 | 秒级推理强化学习系统，实现云计算虚机重调度

ByteBrain团队EuroSys25 | 秒级推理强化学习系统，实现云计算虚机重调度

ByteBrain · 1周前 · 原文

清华、蚂蚁联合开源AReaL-boba2，实现全异步强化学习，14B代码模型达到SOTA水平

李冬梅 · 1周前 · 原文

RL圈“打假”：这7篇热门论文请避雷

RL圈“打假”：这7篇热门论文请避雷

一蛙AI · 1周前 · 原文

10步优化超越强化学习，仅需1条未标注数据！后训练强势破局

10步优化超越强化学习，仅需1条未标注数据！后训练强势破局

新智元 · 1周前 · 原文

重磅开源！首个全异步强化学习训练系统来了，SOTA推理大模型RL训练提速2.77倍

机器之心 · 1周前 · 原文

重磅开源！首个全异步强化学习训练系统来了，SOTA推理大模型RL训练提速2.77倍

重磅开源！首个全异步强化学习训练系统来了，SOTA推理大模型RL训练提速2.77倍

· 1周前 · 原文

登上Science子刊封面的硬核idea：端到端强化学习，首次实现机器狗全自主打羽毛球！

登上Science子刊封面的硬核idea：端到端强化学习，首次实现机器狗全自主打羽毛球！

深蓝学院-具身君 · 1周前 · 原文

阿里通义的视觉RAG革命！VRAG-RL：基于强化学习的视觉感知RAG框架，性能飙升30%

阿里通义的视觉RAG革命！VRAG-RL：基于强化学习的视觉感知RAG框架，性能飙升30%

痕小子 · 1周前 · 原文