最新
AI
创业
产品
工具
应用
论文
笔记
markdown
DeepSeek
Qwen3
Github
开源项目
前端
RAG
知识图谱
OpenAI
MCP
Agent
Manus
视频
即梦
可灵
短剧
数字人
AI工具
Python
Coze
扣子空间
Dify
智能体
Cursor
多模态
效率
提示词
搜索
Transformer
产品经理
刘强东
京东
外卖
面试
巴菲特
游戏
强化学习
量化
关税
语音
redis
Mistral
豆包
数据可视化
SaaS
Deep Research
DeepWiki
Claude
Ollama
2025
API
毫无疑问,未来AI界将会是强化学习的天下
· 17小时前 ·
阅读原文
多轮Agent训练遇到级联失效?熵控制强化学习来破局
· 20小时前 ·
阅读原文
小米最新大模型成果!罗福莉现身了
关注前沿科技 · 1天前 ·
阅读原文
H1:用强化学习让大模型学会“长线思考”
无影寺 · 1天前 ·
阅读原文
5个RL优化技巧,推理速度直接拉满!
菽陌松囿 · 2天前 ·
阅读原文
罗福莉担任通讯作者,小米 × 北大联合发布R3:让MoE强化学习从崩盘回归可控
让你更懂AI的 · 2天前 ·
阅读原文
量化投资和金融科技的开源利器来了!
小G · 3天前 ·
阅读原文
如果RL可预测,我们还需要把训练跑满吗?中科大揭示参数更新的线性秘密
让你更懂AI的 · 4天前 ·
阅读原文
强化学习再迎范式切换:Sergey Levine团队把目标改写成“到达时间”
让你更懂AI的 · 4天前 ·
阅读原文
改变强化学习范式,Meta新作呼应Sutton「经验时代」预言
· 4天前 ·
阅读原文
元学习的终极形态!MIT新论文让LLM自己学会调参训练自己!
Tensorlong 看天下 · 5天前 ·
阅读原文
开发LLM强化学习框架的心得
· 5天前 ·
阅读原文
直播预约 | Memory-R1:用强化学习教大语言模型管理并使用记忆
NICE · 1周前 ·
阅读原文
强化学习之父,给大模型判了“死刑”
周屿 · 1周前 ·
阅读原文
北航团队提出新的离线分层扩散框架:基于结构信息原理,实现稳定离线策略学习|NeurIPS 2025
北航彭浩团队 · 1周前 ·
阅读原文
清华、NVIDIA、斯坦福提出DiffusionNFT:基于前向过程的扩散强化学习新范式,训练效率提升25倍
· 1周前 ·
阅读原文
字节3面没抗住:RL比SFT好在哪?
纪牛牛 · 1周前 ·
阅读原文
RL | 速读 IJCAI 2025 的强化学习论文 - MoonOut
MoonOut · 1周前 ·
阅读原文
打造自主学习的AI Agent:强化学习+LangGraph代码示例
P**nHub兄弟网站 · 1周前 ·
阅读原文
直观理解 RL 的框架与运作机制,并了解其在机器学习谱系中的位置
· 1周前 ·
阅读原文
大模型的智能体转向:Agentic 强化学习全景综述
· 1周前 ·
阅读原文
强化学习系统性学习笔记(一):从理论基础到策略优化 - GRITJW
GRITJW · 2周前 ·
阅读原文
为这一个Tab键,我愿意单独付费:Cursor用在线强化学习优化代码建议,护城河有了?
机器之心 · 1个月前 ·
阅读原文
从「会说」迈向「会做」,LLM下半场:Agentic强化学习范式综述
机器之心 · 1个月前 ·
阅读原文
×
加载中...