最新
AI
创业
产品
工具
应用
论文
笔记
markdown
DeepSeek
Qwen3
Github
开源项目
前端
RAG
知识图谱
OpenAI
MCP
Agent
Manus
视频
即梦
可灵
短剧
数字人
AI工具
Python
Coze
扣子空间
Dify
智能体
Cursor
多模态
效率
提示词
搜索
Transformer
产品经理
刘强东
京东
外卖
面试
巴菲特
游戏
强化学习
量化
关税
语音
redis
Mistral
豆包
数据可视化
SaaS
Deep Research
DeepWiki
Claude
Ollama
2025
API
DeepResearch
微软RPT:强化学习的风又吹到了预训练!
· 6小时前 ·
原文
声智科技副总裁黄赟贺确认出席AICon北京,并分享非线性声学与强化学习如何让AI融入真实世界
AICon 全球人工智能开发与应用大会 · 1天前 ·
原文
具身智能路线之争:All in 模仿强化学习 vs 死磕传统控制?从业者到底该「信」谁?
深蓝学院-具身君 · 1天前 ·
原文
直击强化学习前沿,RL专场来袭丨AI Insight Talk直播预告
AI Insight Talk · 2天前 ·
原文
大语言模型的全新预训练范式-强化预训练
无影寺 · 2天前 ·
原文
颠覆!强化学习不再是微调专利,微软直接将其用于基模训练
Tensorlong 看天下 · 2天前 ·
原文
Anthropic联合创始人:强化学习潜力超乎想象 | Sessions: AI论坛
数字开物 · 3天前 ·
原文
MSRA清北推出强化预训练!取代传统自监督,14B模型媲美32B
关注前沿科技 · 3天前 ·
原文
GraphRAG的优劣势及文档解析结合RL强化学习新思路Infinity Parser
刘焕勇 · 3天前 ·
原文
「Next-Token」范式改变!刚刚,强化学习预训练来了
机器之心 · 3天前 ·
原文
「Next-Token」范式改变!刚刚,强化学习预训练来了
· 3天前 ·
原文
从苦涩的教训到经验时代!强化学习之父Sutton的访谈总结
· 3天前 ·
原文
Nature发表!多尺度强化学习重大成果!
· 4天前 ·
原文
ReSearch:通过强化学习让大模型学会在推理中搜索
Q同学的nlp笔记 · 4天前 ·
原文
大模型是「躲在洞穴里」观察世界? 强化学习大佬「吹哨」提醒LLM致命缺点
机器之心 · 4天前 ·
原文
[深度解读]大模型是“洞穴里的观察者”?强化学习专家Sergey Levine揭秘LLM与人类智能的本质差异
Wolfgang · 4天前 ·
原文
无人艇集群路径规划研究综述: 深度强化学习
· 4天前 ·
原文
大模型是「躲在洞穴里」观察世界? 强化学习大佬「吹哨」提醒LLM致命缺点
· 4天前 ·
原文
强化学习之父:LLM主导只是暂时,扩展计算才是正解
关注前沿科技 · 4天前 ·
原文
TORL:工具集成强化学习,让大语言模型学会用代码解题
Q同学的nlp笔记 · 5天前 ·
原文
强化学习之父Richard Sutton智源大会最新演讲:欢迎来到经验时代!
智源社区 · 6天前 ·
原文
邮件问答新突破!ART·E 用强化学习优化 LLM 代理,成本更低、速度更快
· 1周前 ·
原文
强化学习再梳理:PPO→GRPO→DAPO
catneverfat · 1周前 ·
原文
强化学习之父Richard Sutton:人类数据耗尽,AI正在进入“经验时代”!
· 1周前 ·
原文
智驾|一文读懂大模型训练的技术框架和优化策略
天涯咫尺TGH · 1周前 ·
原文
京东集团算法总监韩艾将在AICon北京站分享基于强化学习的异构多智能体联合进化算法
AICon 全球人工智能开发与应用大会 · 1周前 ·
原文
红温预警!“打假”7篇近期热门RL强化学习论文
一蛙AI · 1周前 ·
原文
效率飙涨177%!清华、蚂蚁联合开源全异步RL新成果,8B/14B模型斩获同尺寸SOTA
陈骏达 · 1周前 ·
原文
10行代码,AIME24/25提高15%!揭秘大模型强化学习熵机制
机器之心 · 1周前 ·
原文
RL后训练步入超节点时代!华为黑科技榨干算力,一张卡干俩活
新智元 · 1周前 ·
原文
ByteBrain团队EuroSys25 | 秒级推理强化学习系统,实现云计算虚机重调度
ByteBrain · 1周前 ·
原文
清华、蚂蚁联合开源AReaL-boba2,实现全异步强化学习,14B代码模型达到SOTA水平
李冬梅 · 1周前 ·
原文
RL圈“打假”:这7篇热门论文请避雷
一蛙AI · 1周前 ·
原文
10步优化超越强化学习,仅需1条未标注数据!后训练强势破局
新智元 · 1周前 ·
原文
重磅开源!首个全异步强化学习训练系统来了,SOTA推理大模型RL训练提速2.77倍
机器之心 · 1周前 ·
原文
重磅开源!首个全异步强化学习训练系统来了,SOTA推理大模型RL训练提速2.77倍
· 1周前 ·
原文
登上Science子刊封面的硬核idea:端到端强化学习,首次实现机器狗全自主打羽毛球!
深蓝学院-具身君 · 1周前 ·
原文
阿里通义的视觉RAG革命!VRAG-RL:基于强化学习的视觉感知RAG框架,性能飙升30%
痕小子 · 1周前 ·
原文
×
加载中...