最新 AI 创业 产品 工具 应用 论文 笔记 markdown DeepSeek Qwen3 Github 开源项目 前端 RAG 知识图谱 OpenAI MCP Agent Manus 视频 即梦 可灵 短剧 数字人 AI工具 Python Coze 扣子空间 Dify 智能体 Cursor 多模态 效率 提示词 搜索 Transformer 产品经理 刘强东 京东 外卖 面试 巴菲特 游戏 强化学习 量化 关税 语音 redis Mistral 豆包 数据可视化 SaaS Deep Research DeepWiki Claude Ollama 2025 API
强化学习的“GPT-3 时刻”即将到来
打磨7年,李航新书《机器学习方法(第2版)》发布,有了强化学习,赠书20本
仅靠5000+样本,全新强化学习范式让30B轻松击败671B的DeepSeek V3
强化学习之父Richard Sutton最新演讲揭示OaK架构:通向超级智能的八步愿景
研究者警告:强化学习暗藏「策略悬崖」危机,AI对齐的根本性挑战浮现
OpenAI没开源的gpt-oss基础模型,他去掉强化学习逆转出来了
让强化学习快如闪电:FlashRL一条命令实现极速Rollout,已全部开源
WAIC强化学习新范式探索之夜 | 强化学习与大模型融合,是智能体进化的 “黄金法则”,还是误入复杂迷宫的 “冒险尝试”?
WAIC强化学习新范式探索之夜 | 强化学习与大模型融合,是智能体进化的 “黄金法则”,还是误入复杂迷宫的 “冒险尝试”?
MARS:风险感知多智能体投资组合管理元适应强化学习框架,牛市夏普比率提高101.4%
MARS:风险感知多智能体投资组合管理元适应强化学习框架,牛市夏普比率提高101.4%
RLC 2025 来袭!强化学习论文全集免费领!
RLC 2025 来袭!强化学习论文全集免费领!
联合理解生成的关键拼图?腾讯发布X-Omini:强化学习让离散自回归生成方法重焕生机,轻松渲染长文本图像
联合理解生成的关键拼图?腾讯发布X-Omni:强化学习让离散自回归生成方法重焕生机,轻松渲染长文本图像
联合理解生成的关键拼图?腾讯发布X-Omni:强化学习让离散自回归生成方法重焕生机,轻松渲染长文本图像
仅一行代码即可极大优化SFT泛化能力!东南大学等顶尖高校揭示SFT泛化能力差的根本原因,并提出高效改进方案
仅一行代码即可极大优化SFT泛化能力!东南大学等顶尖高校揭示SFT泛化能力差的根本原因,并提出高效改进方案
强化学习故障诊断 | 一种基于数据增强的旋转机械故障诊断新型强化学习智能体
强化学习故障诊断 | 一种基于数据增强的旋转机械故障诊断新型强化学习智能体
ICML 2025 | 强化学习+可解释AI:信息门控技术开源代码实测!
ICML 2025 | 强化学习+可解释AI:信息门控技术开源代码实测!
无需外部数据!AI自问自答实现推理能力进化
无需外部数据!AI自问自答实现推理能力进化
ICML 2025 | RL-Lyap:强化学习驱动的解析 Lyapunov 函数发现框架
ICML 2025 | RL-Lyap:强化学习驱动的解析 Lyapunov 函数发现框架
强化学习的10层境界(下):多智能体与博弈,以及LLM引导的策略生成
强化学习的10层境界(下):多智能体与博弈,以及LLM引导的策略生成
字节&MAP重塑大模型推理算法优化重点,强化学习重在高效探索助力LLM提升上限
字节&MAP重塑大模型推理算法优化重点,强化学习重在高效探索助力LLM提升上限
强化学习+MCP=王炸?开源框架教AI在MCP中玩转工具解决任务,实测效果超越GPT!
强化学习+MCP=王炸?开源框架教AI在MCP中玩转工具解决任务,实测效果超越GPT!
WAIC 2025思辨会七 | 强化学习是否是开启决策智能的“黄金钥匙”?
WAIC 2025思辨会七 | 强化学习是否是开启决策智能的“黄金钥匙”?
图灵奖得主Sutton再突破:强化学习在控制问题上媲美深度强化学习?
图灵奖得主Sutton再突破:强化学习在控制问题上媲美深度强化学习?
快手提出强化学习创新框架RLEP,突破大模型推理瓶颈
快手提出强化学习创新框架RLEP,突破大模型推理瓶颈
清华叉院教授手把手教你写强化学习
清华叉院教授手把手教你写强化学习
RAG革命!Graph-R1,首个RL驱动的图推理代理
RAG革命!Graph-R1,首个RL驱动的图推理代理
LLM抢人血案:强化学习天才被挖空,一朝沦为「无人区」!
LLM抢人血案:强化学习天才被挖空,一朝沦为「无人区」!
ICLR25|打开RL黑盒,首次证明强化学习存在内在维度瓶颈
ICLR25|打开RL黑盒,首次证明强化学习存在内在维度瓶颈
比DanceGRPO更快更强!腾讯混元MixGRPO:提出局部强化学习策略,让图像生成提速71%
比DanceGRPO更快更强!腾讯混元MixGRPO:提出局部强化学习策略,让图像生成提速71%
语言反思>强化学习:伯克利新架构碾压传统RL
语言反思>强化学习:伯克利新架构碾压传统RL