最新 AI 创业 产品 工具 应用 论文 笔记 markdown DeepSeek Qwen3 Github 开源项目 前端 RAG 知识图谱 OpenAI MCP Agent Manus 视频 即梦 可灵 短剧 数字人 AI工具 Python Coze 扣子空间 Dify 智能体 Cursor 多模态 效率 提示词 搜索 Transformer 产品经理 刘强东 京东 外卖 面试 巴菲特 游戏 强化学习 量化 关税 语音 redis Mistral 豆包 数据可视化 SaaS Deep Research DeepWiki Claude Ollama 2025 API
1024层网络让强化学习性能飙升50倍,NeurIPS 2025最佳论文揭示深度scaling的力量
PbRL | 近两年论文阅读的不完全总结 - MoonOut
中科院工程师分享:用Unsloth打造推理增强大模型|低显存、高推理、可复用
8美元即可对DeepSeek-V3.2做强化学习?腾讯优图提出Training-Free GRPO
基于Qlearning强化学习的Cart-Pole推车杆平衡控制系统matlab仿真 - 我爱C编程
LLM 场景下的强化学习技术扫盲 - marsggbo
毫无疑问,未来AI界将会是强化学习的天下
毫无疑问,未来AI界将会是强化学习的天下
多轮Agent训练遇到级联失效?熵控制强化学习来破局
多轮Agent训练遇到级联失效?熵控制强化学习来破局
小米最新大模型成果!罗福莉现身了
小米最新大模型成果!罗福莉现身了
H1:用强化学习让大模型学会“长线思考”
H1:用强化学习让大模型学会“长线思考”
5个RL优化技巧,推理速度直接拉满!
5个RL优化技巧,推理速度直接拉满!
罗福莉担任通讯作者,小米 × 北大联合发布R3:让MoE强化学习从崩盘回归可控
罗福莉担任通讯作者,小米 × 北大联合发布R3:让MoE强化学习从崩盘回归可控
量化投资和金融科技的开源利器来了!
量化投资和金融科技的开源利器来了!
如果RL可预测,我们还需要把训练跑满吗?中科大揭示参数更新的线性秘密
如果RL可预测,我们还需要把训练跑满吗?中科大揭示参数更新的线性秘密
强化学习再迎范式切换:Sergey Levine团队把目标改写成“到达时间”
强化学习再迎范式切换:Sergey Levine团队把目标改写成“到达时间”