最新
AI
创业
产品
工具
应用
论文
笔记
markdown
DeepSeek
Qwen3
Github
开源项目
前端
RAG
知识图谱
OpenAI
MCP
Agent
Manus
视频
即梦
可灵
短剧
数字人
AI工具
Python
Coze
扣子空间
Dify
智能体
Cursor
多模态
效率
提示词
搜索
Transformer
产品经理
刘强东
京东
外卖
面试
巴菲特
游戏
强化学习
量化
关税
语音
redis
Mistral
豆包
数据可视化
SaaS
Deep Research
DeepWiki
Claude
Ollama
2025
API
1024层网络让强化学习性能飙升50倍,NeurIPS 2025最佳论文揭示深度scaling的力量
CoovallyAIHub · 1天前 ·
阅读原文
PbRL | 近两年论文阅读的不完全总结 - MoonOut
MoonOut · 3天前 ·
阅读原文
中科院工程师分享:用Unsloth打造推理增强大模型|低显存、高推理、可复用
AI大模型 · 2周前 ·
阅读原文
8美元即可对DeepSeek-V3.2做强化学习?腾讯优图提出Training-Free GRPO
Aine · 3周前 ·
阅读原文
基于Qlearning强化学习的Cart-Pole推车杆平衡控制系统matlab仿真 - 我爱C编程
我爱C编程 · 1个月前 ·
阅读原文
LLM 场景下的强化学习技术扫盲 - marsggbo
marsggbo · 1个月前 ·
阅读原文
毫无疑问,未来AI界将会是强化学习的天下
· 1个月前 ·
阅读原文
多轮Agent训练遇到级联失效?熵控制强化学习来破局
· 1个月前 ·
阅读原文
小米最新大模型成果!罗福莉现身了
关注前沿科技 · 1个月前 ·
阅读原文
H1:用强化学习让大模型学会“长线思考”
无影寺 · 1个月前 ·
阅读原文
5个RL优化技巧,推理速度直接拉满!
菽陌松囿 · 1个月前 ·
阅读原文
罗福莉担任通讯作者,小米 × 北大联合发布R3:让MoE强化学习从崩盘回归可控
让你更懂AI的 · 1个月前 ·
阅读原文
量化投资和金融科技的开源利器来了!
小G · 1个月前 ·
阅读原文
如果RL可预测,我们还需要把训练跑满吗?中科大揭示参数更新的线性秘密
让你更懂AI的 · 1个月前 ·
阅读原文
强化学习再迎范式切换:Sergey Levine团队把目标改写成“到达时间”
让你更懂AI的 · 1个月前 ·
阅读原文
×
加载中...