最新 AI 创业 产品 工具 DeepSeek Qwen3 Github 开源项目 前端 RAG OpenAI MCP Agent Manus 视频 数字人 AI工具 Python Coze 扣子空间 Dify 智能体 Cursor 多模态 效率 提示词 搜索 Transformer 产品经理 刘强东 京东 外卖
被Transformer光芒掩盖的论文,Meta科学家回顾十年前创新之作
被Transformer光芒掩盖的论文,Meta科学家回顾十年前创新之作
不懂Transformer的AI产品经理,自己组织的会只能当观众!
不懂Transformer的AI产品经理,自己组织的会只能当观众!
告别单一模型!2025年CNN与Transformer融合的创新思路!
告别单一模型!2025年CNN与Transformer融合的创新思路!
基于混合 Transformer + GRU 的加密货币价格预测,多指标全面提升
基于混合 Transformer + GRU 的加密货币价格预测,多指标全面提升
AI产品经理的基础知识:一篇文章搞懂Transformer以及扩散模型
AI产品经理的基础知识:一篇文章搞懂Transformer以及扩散模型
打破Transformer霸权!全新液态神经网络刷爆SOTA!
打破Transformer霸权!全新液态神经网络刷爆SOTA!
ICLR 2025 Oral|差分注意力机制引领变革,DIFF Transformer攻克长序列建模难题
ICLR 2025 Oral|差分注意力机制引领变革,DIFF Transformer攻克长序列建模难题
ICLR 2025 Oral|差分注意力机制引领变革,DIFF Transformer攻克长序列建模难题
字节Seed团队PHD-Transformer突破预训练长度扩展!破解KV缓存膨胀难题
探秘Transformer系列之(31)--- Medusa - 罗西的思考
字节Seed团队PHD-Transformer突破预训练长度扩展!破解KV缓存膨胀难题
字节Seed团队PHD-Transformer突破预训练长度扩展!破解KV缓存膨胀难题
从机器翻译开始了解Transformer架构
从机器翻译开始了解Transformer架构
讲透一个强大算法模型,Transformer!!
讲透一个强大算法模型,Transformer!!
面试题:Transformer为什么要有注意力机制?
面试题:Transformer为什么要有注意力机制?
从0构建大模型知识体系(4):大模型的爸爸Transformer
斯坦福发了个新的 Transformer 课程
斯坦福发了个新的 Transformer 课程
探秘Transformer系列之(30)--- 投机解码 - 罗西的思考
QKV讲不清,还敢在简历写
QKV讲不清,还敢在简历写"精通Transformer"?(优化版)
Transformer原作打脸DeepSeek观点?一句Wait就能引发反思,RL都不用
Transformer原作打脸DeepSeek观点?一句Wait就能引发反思,RL都不用
「全球首个自回归视频生成大模型」,刚刚,Swin Transformer作者创业团队重磅开源!
彻底搞懂!Transformer !!
彻底搞懂!Transformer !!
高分利器:Transformer+图像处理!创新性绝了,3位 IEEE Fellow推荐的含金量!
高分利器:Transformer+图像处理!创新性绝了,3位 IEEE Fellow推荐的含金量!
突破Transformer,结合随机森林时序预测 !!
突破Transformer,结合随机森林时序预测 !!
Transformer论文作者、Cohere创始人Aidan:没想到这架构这么多年没过时,当Agent能访问人类所有资源才更有用
Transformer+Mamba黄金组合!长文推理性能飙升3倍,性能还更强
一跃成为大模型核心框架的Transformer,到底解决什么问题?
探秘Transformer系列之(29)--- DeepSeek MoE - 罗西的思考
Nature子刊,EPFL与上海交大用多模态Transformer精准预测全局最低吸附能,助力催化剂设计
比较全!回顾LLM发展史 | Transformer、蒸馏、MoE、思维链(CoT)
QKV都讲不清,还敢在简历写“精通Transformer”?
顶刊神思路!融合Transformer与CNN做医学图像!!
Jeff Dean演讲回顾LLM发展史,Transformer、蒸馏、MoE、思维链等技术都来自谷歌
Jeff Dean演讲回顾LLM发展史,Transformer、蒸馏、MoE、思维链等技术都来自谷歌
突破Transformer,融合贝叶斯优化时序预测 !!
探秘Transformer系列之(28)--- DeepSeek MLA - 罗西的思考
CVPR 2025 | 何恺明联手Yann LeCun,仅用9行代码就实现无需归一化的Transformer!
谷歌提出Transformer架构中,表示崩塌、过度压缩的5个解决方法
从模型原理到代码实践,深入浅出上手Transformer,叩开大模型世界的大门
Transformer Pytorch实现(详细注释)
讲透一个强大算法模型,Transformer !!
图解 Transformer,一文吃透工作原理
万字长文!一文了解归一化:从Transformer归一化到主流大模型归一化的演变!
基于素描监督学习的医学图像分割多轴视觉 Transformer 边缘增强 !
探秘Transformer系列之(27)--- MQA & GQA - 罗西的思考
100 行代码,轻松构建 Transformer 模型
注意力机制-Transformer:深度学习的革命性架构
CVPR'25 | 多任务场景下的Transformer高效Finetune方法
基于素描监督学习的医学图像分割多轴视觉 Transformer 边缘增强 !
探秘Transformer系列之(26)--- KV Cache优化---分离or合并 - 罗西的思考
探秘Transformer系列之(25)--- KV Cache优化之处理长文本序列 - 罗西的思考
探秘Transformer系列之(24)--- KV Cache优化 - 罗西的思考
时间序列Transformer模型中灵活引入不同类型外部特征的方法
AmazingQuant :从0到1打造基于Transformer多模型融合的智能量化交易系统
探秘Transformer系列之(23)--- 长度外推 - 罗西的思考
Multi-Token突破注意力机制瓶颈,Meta发明了一种很新的Transformer
探秘Transformer系列之(22)--- LoRA - 罗西的思考
预测精度达93%,个人电脑可部署,科学家开发Transformer新方法预测结合蛋白
Transformer 通关秘籍7:词向量的通俗理解
探秘Transformer系列之(21)--- MoE
探秘Transformer系列之(21)--- MoE - 罗西的思考
探秘Transformer系列之(20)--- KV Cache - 罗西的思考
探秘Transformer系列之(19)----FlashAttention V2 及升级版本
探秘Transformer系列之(19)----FlashAttention V2 及升级版本 - 罗西的思考
基于PyTorch 实现一个基于 Transformer 架构的字符级语言模型
探秘Transformer系列之(18)--- FlashAttention
探秘Transformer系列之(18)--- FlashAttention - 罗西的思考
腾讯混元、英伟达都发混合架构模型,Mamba-Transformer要崛起吗?
无需Attention的未来,RWKV-7能成为替代Transformer的那只黑天鹅吗?
关于Transformer中Decoder模块是如何预测下一个字符的算法 - 一只会铲史的猫
「注意力实际上是对数的」?七年前的Transformer还有新发现,Karpathy点赞
探秘Transformer系列之(17)--- RoPE
探秘Transformer系列之(17)--- RoPE - 罗西的思考
探秘Transformer系列之(16)--- 资源占用 - 罗西的思考
探秘Transformer系列之(15)--- 采样和输出 - 罗西的思考
探秘Transformer系列之(14)--- 残差网络和归一化 - 罗西的思考
没有归一化层的Transformer!刘壮带队,何恺明、Yann LeCun都参与了
探秘Transformer系列之(13)--- Feed-Forward Networks
探秘Transformer系列之(13)--- FFN - 罗西的思考
探秘Transformer系列之(12)--- 多头自注意力 - 罗西的思考
实战-基于Transformer生成文章标题
探秘Transformer系列之(11)--- 掩码 - 罗西的思考
Transformer原理详解
探秘Transformer系列之(10)--- 自注意力 - 罗西的思考
AI 学习之路(一)- 重新认识 AI
探秘Transformer系列之(9)--- 位置编码分类 - 罗西的思考
探秘Transformer之(8)--- 位置编码 - 罗西的思考
MIT三人团队:用Transformer解决经验贝叶斯问题,比经典方法快100倍
Transformer架构+分子网络,MIT模型解码癌症系统生物学
探秘Transformer系列之(7)--- embedding - 罗西的思考
Transformer革新药物研发:TRACER框架实现反应感知的分子设计与合成优化
探秘Transformer系列之(6)--- token - 罗西的思考
探秘Transformer系列之(5)--- 训练&推理 - 罗西的思考
探秘Transformer系列之(4)--- 编码器 & 解码器
探秘Transformer系列之(4)--- 编码器 & 解码器 - 罗西的思考
探秘Transformer系列之(3)---数据处理 - 罗西的思考
比知识蒸馏好用,田渊栋等提出连续概念混合,再度革新Transformer预训练框架
炒菜、雕刻、绘画、汽车人变形!MakeAnything用扩散Transformer解锁多任务过程生成
Transformer 模型在 征程 6 平台上的高效支持
探秘Transformer系列之(2)---总体架构 - 罗西的思考
复旦团队提出Transformer生成的原子嵌入策略,可通过ML提高晶体特性的预测准确性
Transformer-Squared:停止微调 LLMs - 果冻人工智能
港大字节最新视频生成模型刷屏!网友直接RIP市场营销,Sora也不香了
探秘Transformer系列之(1):注意力机制
为什么大语言模型难以处理长上下文?从 Transformer 到 Mamba
Huggingface使用 - chaplinthink