文章列表

最新 AI 创业产品工具应用论文笔记 markdown DeepSeek Qwen3 Github 开源项目前端 RAG 知识图谱 OpenAI MCP Agent Manus 视频即梦可灵短剧数字人 AI工具 Python Coze 扣子空间 Dify 智能体 Cursor 多模态效率提示词搜索 Transformer 产品经理刘强东京东外卖面试巴菲特游戏强化学习量化关税语音 redis Mistral 豆包数据可视化 SaaS Deep Research DeepWiki Claude Ollama 2025 API

全球强化学习+VLA范式，PI*0.6背后都有这家中国公司技术伏笔

机器之心 · 3天前 · 阅读原文

LLM强化学习不稳定之谜，被Qwen团队从「一阶近似」视角解开

机器之心 · 1周前 · 阅读原文

碾压π0.5，复旦团队首创「世界模型+具身训练+强化学习」闭环框架

机器之心 · 1周前 · 阅读原文

论文精读——DeepSeek-R1 ：强化学习，如何让模型学会思考？

AI产品泡腾片 · 1周前 · 阅读原文

1024层网络让强化学习性能飙升50倍，NeurIPS 2025最佳论文揭示深度scaling的力量

CoovallyAIHub · 2周前 · 阅读原文

PbRL | 近两年论文阅读的不完全总结 - MoonOut

MoonOut · 2周前 · 阅读原文

中科院工程师分享：用Unsloth打造推理增强大模型｜低显存、高推理、可复用

AI大模型 · 3周前 · 阅读原文

8美元即可对DeepSeek-V3.2做强化学习？腾讯优图提出Training-Free GRPO

Aine · 1个月前 · 阅读原文

基于Qlearning强化学习的Cart-Pole推车杆平衡控制系统matlab仿真 - 我爱C编程

我爱C编程 · 1个月前 · 阅读原文

LLM 场景下的强化学习技术扫盲 - marsggbo

marsggbo · 1个月前 · 阅读原文

毫无疑问，未来AI界将会是强化学习的天下

毫无疑问，未来AI界将会是强化学习的天下

· 1个月前 · 阅读原文

多轮Agent训练遇到级联失效？熵控制强化学习来破局

多轮Agent训练遇到级联失效？熵控制强化学习来破局

· 1个月前 · 阅读原文

小米最新大模型成果！罗福莉现身了

小米最新大模型成果！罗福莉现身了

关注前沿科技 · 1个月前 · 阅读原文

H1：用强化学习让大模型学会“长线思考”

H1：用强化学习让大模型学会“长线思考”

无影寺 · 1个月前 · 阅读原文

5个RL优化技巧，推理速度直接拉满！

5个RL优化技巧，推理速度直接拉满！

菽陌松囿 · 1个月前 · 阅读原文