最新
AI
创业
产品
工具
应用
论文
笔记
markdown
DeepSeek
Qwen3
Github
开源项目
前端
RAG
知识图谱
OpenAI
MCP
Agent
Manus
视频
即梦
可灵
短剧
数字人
AI工具
Python
Coze
扣子空间
Dify
智能体
Cursor
多模态
效率
提示词
搜索
Transformer
产品经理
刘强东
京东
外卖
面试
巴菲特
游戏
强化学习
量化
关税
语音
redis
Mistral
豆包
数据可视化
SaaS
Deep Research
DeepWiki
Claude
Ollama
2025
API
90%导航成功率+泛化率,ETH的新强化学习方法使微型机器人在血管里不再迷路
ScienceAI · 9小时前 ·
阅读原文
性能提升84%-166%!L-Zero仅靠强化学习解锁大模型探索世界的能力 | 已开源
关注前沿科技 · 1天前 ·
阅读原文
Cosmos-RL:专为物理AI应用打造的灵活可扩展强化学习框架
· 2天前 ·
阅读原文
『量化好声音 08』强化学习能否自我演化出交易智慧?
Flora · 2天前 ·
阅读原文
看到一篇论文《反思,重试,奖励:通过强化学习实现自我改进的大语言模型》
· 2天前 ·
阅读原文
Meta| RL离线强化学习革命,告别On-Policy!
Tensorlong 看天下 · 3天前 ·
阅读原文
跨域强化学习真的有用吗?GURU 数据集下实验证明了什么
NLP轻松谈 · 3天前 ·
阅读原文
强化学习也能预训练?效果可提升20倍,华人新作引爆RL新范式!
新智元 · 3天前 ·
阅读原文
突破通用领域推理的瓶颈!清华NLP实验室强化学习新研究RLPR
机器之心 · 5天前 ·
阅读原文
突破通用领域推理的瓶颈!清华NLP实验室强化学习新研究RLPR
· 5天前 ·
阅读原文
拿下工业、矿产能源头部客户订单,北京人形机器人公司获近亿元融资|早起看早期
黄楠 · 5天前 ·
阅读原文
拿下工业、矿产能源头部客户订单,北京人形机器人公司获近亿元融资|36氪首发
· 6天前 ·
阅读原文
基于深度强化学习的无人机自主感知−规划−控制策略
· 6天前 ·
阅读原文
基于Dyna-Q强化学习的智能营销系统:融合贝叶斯生存模型与Transformer注意力机制的电商客户重参与策略优化
P**nHub兄弟网站 · 6天前 ·
阅读原文
拿下工业、矿产能源头部客户订单,北京人形机器人公司获近亿元融资|硬氪首发
黄楠 · 6天前 ·
阅读原文
魔鬼都在细节里!如何实现强化学习交易模型
Aaron · 6天前 ·
阅读原文
让多模态大模型「想明白再画」!港大等开源GoT-R1:强化学习解锁视觉生成推理新范式
机器之心 · 1周前 ·
阅读原文
微软&北大|新的验证方法表明RL确系能够提升基模推理能力
Tensorlong 看天下 · 1周前 ·
阅读原文
重磅!淘天联合爱橙开源强化学习训练框架ROLL,高效支持十亿到千亿参数大模型训练
· 1周前 ·
阅读原文
极客说|强化学习(RL)与有监督微调(SFT)的选择以及奖励函数的优化
· 1周前 ·
阅读原文
搞不懂GRPO?那就动手搓一个...
小岛上爱喝酒 · 1周前 ·
阅读原文
7B模型吊打GPT-4o?强化学习驱动的具身推理落地实测,性能飙升60%!(附实现代码)
深蓝学院-具身君 · 1周前 ·
阅读原文
直播预约 | 强化学习训练能否不依赖外部知识优化模型的弱点?
NICE · 1周前 ·
阅读原文
从OpenAI回清华,吴翼揭秘强化学习之路:随机选的、笑谈“当年不懂股权的我” | AGI 技术 50 人
· 1周前 ·
阅读原文
强化学习新发现:无需数学样本,仅游戏训练AI推理大增
· 1周前 ·
阅读原文
英伟达|反转再反转?证实RL确实能够提升基础模型的推理能力!
Tensorlong 看天下 · 1周前 ·
阅读原文
史上最高种子轮花落AI:20亿美元断档领先,苹果Meta抢着都投不进,扎克伯格转头挖联创也遭拒
关注前沿科技 · 1周前 ·
阅读原文
强化学习如何让DeepResearch变得更聪明?深度解析Kimi-Researcher的训练秘密
ChallengeHub · 1周前 ·
阅读原文
「强化学习教师」登场!7B模型击败671B DeepSeek-R1,小模型也可训练大模型了
· 1周前 ·
阅读原文
只训练数学,却在物理化学生物战胜o1!新强化学习算法带来显著性能提升,还缓解训练崩溃问题
关注前沿科技 · 1周前 ·
阅读原文
直播预约 | SwS: 强化学习训练能否不依赖外部知识优化模型的弱点?
NICE · 1周前 ·
阅读原文
学习一下!逆强化学习算法解析
· 1周前 ·
阅读原文
从RLHF、PPO到GRPO再训练推理模型,这是你需要的强化学习入门指南
机器之心 · 1周前 ·
阅读原文
新手必看!强化学习入门指南 | 从RLHF、PPO、GRPO到RLVR,最后到训练推理模型
ShuCP · 1周前 ·
阅读原文
清华|再反转?确认RL并未真正提升基础模型推理能力!
Tensorlong 看天下 · 1周前 ·
阅读原文
从RLHF、PPO到GRPO再训练推理模型,这是你需要的强化学习入门指南
· 1周前 ·
阅读原文
Kimi 放出大招,人类最后的考试通过率 26.9%
· 1周前 ·
阅读原文
知识储备≠模型能力!DeepMind强化学习微调:大幅缩小「知行差距」
新智元 · 1周前 ·
阅读原文
月之暗面「调教」出最强Agent,在「人类最后一场考试」拿下最新 SOTA
· 1周前 ·
阅读原文
性能函数引导的无人机集群深度强化学习控制方法
· 1周前 ·
阅读原文
京东集团算法总监韩艾将在 AICon 北京站分享基于强化学习的异构多智能体联合进化算法
· 1周前 ·
阅读原文
×
加载中...