最新
AI
创业
产品
工具
应用
论文
笔记
markdown
DeepSeek
Qwen3
Github
开源项目
前端
RAG
知识图谱
OpenAI
MCP
Agent
Manus
视频
即梦
可灵
短剧
数字人
AI工具
Python
Coze
扣子空间
Dify
智能体
Cursor
多模态
效率
提示词
搜索
Transformer
产品经理
刘强东
京东
外卖
面试
巴菲特
游戏
强化学习
量化
关税
语音
redis
Mistral
豆包
数据可视化
SaaS
Deep Research
DeepWiki
Claude
Ollama
2025
API
强化学习的“GPT-3 时刻”即将到来
· 1天前 ·
阅读原文
打磨7年,李航新书《机器学习方法(第2版)》发布,有了强化学习,赠书20本
机器之心 · 3天前 ·
阅读原文
仅靠5000+样本,全新强化学习范式让30B轻松击败671B的DeepSeek V3
机器之心 · 5天前 ·
阅读原文
强化学习之父Richard Sutton最新演讲揭示OaK架构:通向超级智能的八步愿景
机器之心 · 1周前 ·
阅读原文
研究者警告:强化学习暗藏「策略悬崖」危机,AI对齐的根本性挑战浮现
机器之心 · 2周前 ·
阅读原文
OpenAI没开源的gpt-oss基础模型,他去掉强化学习逆转出来了
机器之心 · 2周前 ·
阅读原文
让强化学习快如闪电:FlashRL一条命令实现极速Rollout,已全部开源
机器之心 · 2周前 ·
阅读原文
WAIC强化学习新范式探索之夜 | 强化学习与大模型融合,是智能体进化的 “黄金法则”,还是误入复杂迷宫的 “冒险尝试”?
· 2周前 ·
阅读原文
MARS:风险感知多智能体投资组合管理元适应强化学习框架,牛市夏普比率提高101.4%
· 2周前 ·
阅读原文
RLC 2025 来袭!强化学习论文全集免费领!
大模型说 · 2周前 ·
阅读原文
联合理解生成的关键拼图?腾讯发布X-Omini:强化学习让离散自回归生成方法重焕生机,轻松渲染长文本图像
机器之心 · 2周前 ·
阅读原文
联合理解生成的关键拼图?腾讯发布X-Omni:强化学习让离散自回归生成方法重焕生机,轻松渲染长文本图像
· 2周前 ·
阅读原文
仅一行代码即可极大优化SFT泛化能力!东南大学等顶尖高校揭示SFT泛化能力差的根本原因,并提出高效改进方案
机智流科技 · 2周前 ·
阅读原文
强化学习故障诊断 | 一种基于数据增强的旋转机械故障诊断新型强化学习智能体
CYJ · 2周前 ·
阅读原文
ICML 2025 | 强化学习+可解释AI:信息门控技术开源代码实测!
模型说 · 3周前 ·
阅读原文
无需外部数据!AI自问自答实现推理能力进化
关注前沿科技 · 3周前 ·
阅读原文
ICML 2025 | RL-Lyap:强化学习驱动的解析 Lyapunov 函数发现框架
AI前沿速递 · 3周前 ·
阅读原文
强化学习的10层境界(下):多智能体与博弈,以及LLM引导的策略生成
· 3周前 ·
阅读原文
字节&MAP重塑大模型推理算法优化重点,强化学习重在高效探索助力LLM提升上限
关注前沿科技 · 3周前 ·
阅读原文
强化学习+MCP=王炸?开源框架教AI在MCP中玩转工具解决任务,实测效果超越GPT!
关注前沿科技 · 3周前 ·
阅读原文
WAIC 2025思辨会七 | 强化学习是否是开启决策智能的“黄金钥匙”?
WAIC · 3周前 ·
阅读原文
图灵奖得主Sutton再突破:强化学习在控制问题上媲美深度强化学习?
· 3周前 ·
阅读原文
快手提出强化学习创新框架RLEP,突破大模型推理瓶颈
· 3周前 ·
阅读原文
清华叉院教授手把手教你写强化学习
· 3周前 ·
阅读原文
RAG革命!Graph-R1,首个RL驱动的图推理代理
Tensorlong 看天下 · 3周前 ·
阅读原文
LLM抢人血案:强化学习天才被挖空,一朝沦为「无人区」!
新智元 · 3周前 ·
阅读原文
ICLR25|打开RL黑盒,首次证明强化学习存在内在维度瓶颈
Tensorlong 看天下 · 3周前 ·
阅读原文
比DanceGRPO更快更强!腾讯混元MixGRPO:提出局部强化学习策略,让图像生成提速71%
AI前沿速递 · 3周前 ·
阅读原文
语言反思>强化学习:伯克利新架构碾压传统RL
编辑部 · 3周前 ·
阅读原文
×
加载中...