最新 AI 创业 产品 工具 应用 论文 笔记 markdown DeepSeek Qwen3 Github 开源项目 前端 RAG 知识图谱 OpenAI MCP Agent Manus 视频 即梦 可灵 短剧 数字人 AI工具 Python Coze 扣子空间 Dify 智能体 Cursor 多模态 效率 提示词 搜索 Transformer 产品经理 刘强东 京东 外卖 面试 巴菲特 游戏 强化学习 量化 关税 语音 redis Mistral 豆包 数据可视化 SaaS Deep Research DeepWiki Claude Ollama 2025 API
90%导航成功率+泛化率,ETH的新强化学习方法使微型机器人在血管里不再迷路
性能提升84%-166%!L-Zero仅靠强化学习解锁大模型探索世界的能力 | 已开源
性能提升84%-166%!L-Zero仅靠强化学习解锁大模型探索世界的能力 | 已开源
Cosmos-RL:专为物理AI应用打造的灵活可扩展强化学习框架
Cosmos-RL:专为物理AI应用打造的灵活可扩展强化学习框架
『量化好声音 08』强化学习能否自我演化出交易智慧?
『量化好声音 08』强化学习能否自我演化出交易智慧?
看到一篇论文《反思,重试,奖励:通过强化学习实现自我改进的大语言模型》
看到一篇论文《反思,重试,奖励:通过强化学习实现自我改进的大语言模型》
Meta| RL离线强化学习革命,告别On-Policy!
Meta| RL离线强化学习革命,告别On-Policy!
跨域强化学习真的有用吗?GURU 数据集下实验证明了什么
跨域强化学习真的有用吗?GURU 数据集下实验证明了什么
强化学习也能预训练?效果可提升20倍,华人新作引爆RL新范式!
强化学习也能预训练?效果可提升20倍,华人新作引爆RL新范式!
突破通用领域推理的瓶颈!清华NLP实验室强化学习新研究RLPR
突破通用领域推理的瓶颈!清华NLP实验室强化学习新研究RLPR
突破通用领域推理的瓶颈!清华NLP实验室强化学习新研究RLPR
拿下工业、矿产能源头部客户订单,北京人形机器人公司获近亿元融资|早起看早期
拿下工业、矿产能源头部客户订单,北京人形机器人公司获近亿元融资|早起看早期
拿下工业、矿产能源头部客户订单,北京人形机器人公司获近亿元融资|36氪首发
拿下工业、矿产能源头部客户订单,北京人形机器人公司获近亿元融资|36氪首发
基于深度强化学习的无人机自主感知−规划−控制策略
基于深度强化学习的无人机自主感知−规划−控制策略
基于Dyna-Q强化学习的智能营销系统:融合贝叶斯生存模型与Transformer注意力机制的电商客户重参与策略优化
基于Dyna-Q强化学习的智能营销系统:融合贝叶斯生存模型与Transformer注意力机制的电商客户重参与策略优化
拿下工业、矿产能源头部客户订单,北京人形机器人公司获近亿元融资|硬氪首发
拿下工业、矿产能源头部客户订单,北京人形机器人公司获近亿元融资|硬氪首发
魔鬼都在细节里!如何实现强化学习交易模型
魔鬼都在细节里!如何实现强化学习交易模型
让多模态大模型「想明白再画」!港大等开源GoT-R1:强化学习解锁视觉生成推理新范式
微软&北大|新的验证方法表明RL确系能够提升基模推理能力
微软&北大|新的验证方法表明RL确系能够提升基模推理能力
重磅!淘天联合爱橙开源强化学习训练框架ROLL,高效支持十亿到千亿参数大模型训练
重磅!淘天联合爱橙开源强化学习训练框架ROLL,高效支持十亿到千亿参数大模型训练
极客说|强化学习(RL)与有监督微调(SFT)的选择以及奖励函数的优化
极客说|强化学习(RL)与有监督微调(SFT)的选择以及奖励函数的优化
搞不懂GRPO?那就动手搓一个...
搞不懂GRPO?那就动手搓一个...
7B模型吊打GPT-4o?强化学习驱动的具身推理落地实测,性能飙升60%!(附实现代码)
7B模型吊打GPT-4o?强化学习驱动的具身推理落地实测,性能飙升60%!(附实现代码)
直播预约 | 强化学习训练能否不依赖外部知识优化模型的弱点?
直播预约 | 强化学习训练能否不依赖外部知识优化模型的弱点?
从OpenAI回清华,吴翼揭秘强化学习之路:随机选的、笑谈“当年不懂股权的我” | AGI 技术 50 人
从OpenAI回清华,吴翼揭秘强化学习之路:随机选的、笑谈“当年不懂股权的我” | AGI 技术 50 人
强化学习新发现:无需数学样本,仅游戏训练AI推理大增
强化学习新发现:无需数学样本,仅游戏训练AI推理大增
英伟达|反转再反转?证实RL确实能够提升基础模型的推理能力!
英伟达|反转再反转?证实RL确实能够提升基础模型的推理能力!
史上最高种子轮花落AI:20亿美元断档领先,苹果Meta抢着都投不进,扎克伯格转头挖联创也遭拒
史上最高种子轮花落AI:20亿美元断档领先,苹果Meta抢着都投不进,扎克伯格转头挖联创也遭拒
强化学习如何让DeepResearch变得更聪明?深度解析Kimi-Researcher的训练秘密
强化学习如何让DeepResearch变得更聪明?深度解析Kimi-Researcher的训练秘密
「强化学习教师」登场!7B模型击败671B DeepSeek-R1,小模型也可训练大模型了
「强化学习教师」登场!7B模型击败671B DeepSeek-R1,小模型也可训练大模型了
只训练数学,却在物理化学生物战胜o1!新强化学习算法带来显著性能提升,还缓解训练崩溃问题
只训练数学,却在物理化学生物战胜o1!新强化学习算法带来显著性能提升,还缓解训练崩溃问题
直播预约 | SwS: 强化学习训练能否不依赖外部知识优化模型的弱点?
直播预约 | SwS: 强化学习训练能否不依赖外部知识优化模型的弱点?
学习一下!逆强化学习算法解析
学习一下!逆强化学习算法解析
从RLHF、PPO到GRPO再训练推理模型,这是你需要的强化学习入门指南
新手必看!强化学习入门指南 | 从RLHF、PPO、GRPO到RLVR,最后到训练推理模型
新手必看!强化学习入门指南 | 从RLHF、PPO、GRPO到RLVR,最后到训练推理模型
清华|再反转?确认RL并未真正提升基础模型推理能力!
清华|再反转?确认RL并未真正提升基础模型推理能力!
从RLHF、PPO到GRPO再训练推理模型,这是你需要的强化学习入门指南
从RLHF、PPO到GRPO再训练推理模型,这是你需要的强化学习入门指南
Kimi 放出大招,人类最后的考试通过率 26.9%
Kimi 放出大招,人类最后的考试通过率 26.9%
知识储备≠模型能力!DeepMind强化学习微调:大幅缩小「知行差距」
知识储备≠模型能力!DeepMind强化学习微调:大幅缩小「知行差距」
月之暗面「调教」出最强Agent,在「人类最后一场考试」拿下最新 SOTA
月之暗面「调教」出最强Agent,在「人类最后一场考试」拿下最新 SOTA
性能函数引导的无人机集群深度强化学习控制方法
性能函数引导的无人机集群深度强化学习控制方法
京东集团算法总监韩艾将在 AICon 北京站分享基于强化学习的异构多智能体联合进化算法
京东集团算法总监韩艾将在 AICon 北京站分享基于强化学习的异构多智能体联合进化算法