最新 AI 创业 产品 工具 应用 论文 笔记 markdown DeepSeek Qwen3 Github 开源项目 前端 RAG 知识图谱 OpenAI MCP Agent Manus 视频 即梦 可灵 短剧 数字人 AI工具 Python Coze 扣子空间 Dify 智能体 Cursor 多模态 效率 提示词 搜索 Transformer 产品经理 刘强东 京东 外卖 面试 巴菲特 游戏 强化学习 量化 关税 语音 redis Mistral 豆包 数据可视化 SaaS Deep Research DeepWiki Claude Ollama 2025 API
Transformer八子初创:AI横扫NP难题竞赛,Top 2%选手竟是智能体!
Transformer八子初创:AI横扫NP难题竞赛,Top 2%选手竟是智能体!
零基础解码Transformer与大模型核心原理
Transformer和扩散模型这对AI组合,凭什么横扫多模态霸榜顶会?
Transformer和扩散模型这对AI组合,凭什么横扫多模态霸榜顶会?
挑战 Transformer 架构的谷歌最新扩散模型 Gemini Diffusion 系统提示词
挑战 Transformer 架构的谷歌最新扩散模型 Gemini Diffusion 系统提示词
全球首次,Transformer「混血」速度狂飙65倍!英伟达已下注
全球首次,Transformer「混血」速度狂飙65倍!英伟达已下注
Transformer架构介绍+从零搭建预训练模型项目
Transformer架构介绍+从零搭建预训练模型项目
你应该懂的AI大模型(六)之 transformers - BricheersZ
字节Seed新作DeltaFormer: 下一代模型架构的尝试
字节Seed新作DeltaFormer: 下一代模型架构的尝试
手把手教你实现PyTorch版ViT:图像分类任务中的Transformer实战 - SkyXZ
Transformer八周年!Attention Is All You Need被引破18万封神
Transformer八周年!Attention Is All You Need被引破18万封神
全面讲透,Transformer的5大核心优势 !!
全面讲透,Transformer的5大核心优势 !!
突破Transformer!协同XGBoost时序预测 !!
突破Transformer!协同XGBoost时序预测 !!
LSTM+Transformer炸场!时空建模从「局部瞎子」到「全局透视」的革命!
LSTM+Transformer炸场!时空建模从「局部瞎子」到「全局透视」的革命!
文生图新架构!清华提出MADFormer!混合自回归与扩散的Transformer模型!
文生图新架构!清华提出MADFormer!混合自回归与扩散的Transformer模型!
探秘Transformer系列之(36)--- 大模型量化方案 - 罗西的思考
论文解读:Knowledge Neurons in Pretrained Transformers - 颀周
让AI有“内心戏”!英国副教授改进Transformer模拟人脑TPNs机制
让AI有“内心戏”!英国副教授改进Transformer模拟人脑TPNs机制
Reading List: 那些成就 LLMs 的关键论文
Reading List: 那些成就 LLMs 的关键论文
谷歌Transformer过时了?清华姚班校友等三连击,爆改注意力!
谷歌Transformer过时了?清华姚班校友等三连击,爆改注意力!
SAR图像目标检测新高峰:R-Sparse R-CNN借BAPs、DCP与Transformer登顶 !
SAR图像目标检测新高峰:R-Sparse R-CNN借BAPs、DCP与Transformer登顶 !
讲透一个强大算法模型,Transformer !!
讲透一个强大算法模型,Transformer !!
为什么我还是无法理解 Transformer?
为什么我还是无法理解 Transformer?
搞不懂Transformer?那是你还不了解输入嵌入与位置编码!
搞不懂Transformer?那是你还不了解输入嵌入与位置编码!
华人科学家发明「AI诊断笔」,手写识别帕金森病,准确率超95%
华人科学家发明「AI诊断笔」,手写识别帕金森病,准确率超95%
微软等提出「模型链」新范式,与Transformer性能相当,扩展性灵活性更好
微软等提出「模型链」新范式,与Transformer性能相当,扩展性灵活性更好
微软等提出「模型链」新范式,与Transformer性能相当,扩展性灵活性更好
探秘Transformer系列之(35)--- 大模型量化基础 - 罗西的思考
2025年,Mamba 与 Transformer “联姻”,视觉领域迎来了大动作!
2025年,Mamba 与 Transformer “联姻”,视觉领域迎来了大动作!
登上Nature子刊!Transformer可解释性成为一区首选,创新思路竟如此easy!
登上Nature子刊!Transformer可解释性成为一区首选,创新思路竟如此easy!
Transformer不止自注意力!被低估的FFN才是架构的另一半真相!
Transformer不止自注意力!被低估的FFN才是架构的另一半真相!
Transformer入门必读!从文本分词到输出概率的全解析
Transformer入门必读!从文本分词到输出概率的全解析
手都敲麻了,一文解析Transformer模型的基本原理与Pytorch代码实现。
手都敲麻了,一文解析Transformer模型的基本原理与Pytorch代码实现。
Andrej Karpathy为何选择了Transformer?
Andrej Karpathy为何选择了Transformer?
快速理解热门LLM大语言模型
快速理解热门LLM大语言模型
告别「烧显卡」训练!上交大团队发布AutoGnothi:黑盒Transformer实现自我解释
告别「烧显卡」训练!上交大团队发布AutoGnothi:黑盒Transformer实现自我解释
改进Transformer就能入选 CVPR!这份人人都能用的魔改Transformer创新点,学到就是赚到!
改进Transformer就能入选 CVPR!这份人人都能用的魔改Transformer创新点,学到就是赚到!
ICML 2025 | 又快又强的狮虎兽!仅20M词元微调,Transformer秒切线性RNN
ICML 2025 | 又快又强的狮虎兽!仅20M词元微调,Transformer秒切线性RNN
讲透一个强大算法模型,Transformer !!
讲透一个强大算法模型,Transformer !!
KAN+Transformer,简单又很顶的联合思路,早上车早发高分!
KAN+Transformer,简单又很顶的联合思路,早上车早发高分!
Transformer,一个神奇算法模型!!
Transformer,一个神奇算法模型!!
基于改进Transformer模型的高效残差网络复杂图像风格迁移技术研究及其实现 !
基于改进Transformer模型的高效残差网络复杂图像风格迁移技术研究及其实现 !
探秘Transformer系列之(34)--- 量化基础 - 罗西的思考
一文搞懂大模型的架构(Transformer)
一文搞懂大模型的架构(Transformer)
自注意力中簇的涌现
自注意力中簇的涌现
基于改进Transformer模型的高效残差网络复杂图像风格迁移技术研究及其实现 !
基于改进Transformer模型的高效残差网络复杂图像风格迁移技术研究及其实现 !
arXiv:2410|注意力层中秩崩溃与信号传播的谱分析
arXiv:2410|注意力层中秩崩溃与信号传播的谱分析
下一代Transformer到底长啥样?
下一代Transformer到底长啥样?
GitHub星标3k+的AI实战宝典:从理论到竞赛一站式通关
GitHub星标3k+的AI实战宝典:从理论到竞赛一站式通关
讲透一个强大算法模型,Transformer !!
讲透一个强大算法模型,Transformer !!
BEV感知两大范式:LSS vs Transformer,到底谁更适合量产?
BEV感知两大范式:LSS vs Transformer,到底谁更适合量产?
高置信度故障诊断论文学习 | 基于Transformer注意力不确定性的旋转机械故障诊断可信性研究
高置信度故障诊断论文学习 | 基于Transformer注意力不确定性的旋转机械故障诊断可信性研究
5分钟解释Transformer,一个神奇的算法模型 !!
5分钟解释Transformer,一个神奇的算法模型 !!
探秘Transformer系列之(33)--- DeepSeek MTP - 罗西的思考
用生活例子解密DeepSeek/GPT的“大脑养成记”:AI婴儿到全能大师的底层原理
视觉Transformer(ViT ):它凭什么超越CNN,看懂这篇文章你就什么都不缺了!
视觉Transformer(ViT ):它凭什么超越CNN,看懂这篇文章你就什么都不缺了!
Transformer | 一文带你了解Embedding(从传统嵌入方法到大模型Embedding)
Transformer | 一文带你了解Embedding(从传统嵌入方法到大模型Embedding)
ChatGPT+DeepSeek+Transformer:解锁Nature级论文的“写作密码
ChatGPT+DeepSeek+Transformer:解锁Nature级论文的“写作密码
Transformer在高频交易中的应用:融合速度与智能
Transformer在高频交易中的应用:融合速度与智能
彻底搞懂!Transformer !!
彻底搞懂!Transformer !!
连续思维机器来了!Transformer八子之一创企推出,让AI不再「一步到位」拍脑袋做决定
连续思维机器来了!Transformer八子之一创企推出,让AI不再「一步到位」拍脑袋做决定
刚刚,“Transformer八子”之一创业团队提出“连续思维机器”:如人类推理般可解释,还能涌现新能力
刚刚,“Transformer八子”之一创业团队提出“连续思维机器”:如人类推理般可解释,还能涌现新能力
杀疯了!融合LSTM与Transformer时间序列预测 !!
杀疯了!融合LSTM与Transformer时间序列预测 !!
哈佛新论文揭示 Transformer 模型与人脑“同步纠结”全过程!AI也会犹豫、反悔?
哈佛新论文揭示 Transformer 模型与人脑“同步纠结”全过程!AI也会犹豫、反悔?
GNN与Transformer创新结合!全局与局部的完美融合,模型性能起飞!
GNN与Transformer创新结合!全局与局部的完美融合,模型性能起飞!
那些连Transformer都搞不懂的AI工程师和传统程序员没什么区别!
那些连Transformer都搞不懂的AI工程师和传统程序员没什么区别!
突破Transformer!结合卡尔曼滤波轻松“水”SCI二区!
突破Transformer!结合卡尔曼滤波轻松“水”SCI二区!
BEV感知两大范式:LSS vs Transformer,到底谁更适合量产?
BEV感知两大范式:LSS vs Transformer,到底谁更适合量产?
斯坦福大学官方AI课程:NLP+深度神经网络+Transformer
斯坦福大学官方AI课程:NLP+深度神经网络+Transformer
CNN+Transformer+Mamba,多热点联合=不撞车+高分保证√
CNN+Transformer+Mamba,多热点联合=不撞车+高分保证√
闲聊transformer
【機器學習2021】Transformer-李宏毅
精通DeepSeek?先搞定Transformer架构(四)——解析Transformer编码器的自注意力机制
精通DeepSeek?先搞定Transformer架构(四)——解析Transformer编码器的自注意力机制
精通DeepSeek?先搞定Transformer架构(三)——编码器部分掩码张量(Masking)实现详解
精通DeepSeek?先搞定Transformer架构(三)——编码器部分掩码张量(Masking)实现详解
精通DeepSeek?先搞定Transformer架构(二)——输入部分如何让模型理解文本,带你全面掌握!
精通DeepSeek?先搞定Transformer架构(二)——输入部分如何让模型理解文本,带你全面掌握!
精通DeepSeek?先搞定Transformer架构(一)——深入解析Transformer全流程!
精通DeepSeek?先搞定Transformer架构(一)——深入解析Transformer全流程!
被Transformer光芒掩盖的论文,Meta科学家回顾十年前创新之作
被Transformer光芒掩盖的论文,Meta科学家回顾十年前创新之作
不懂Transformer的AI产品经理,自己组织的会只能当观众!
不懂Transformer的AI产品经理,自己组织的会只能当观众!
告别单一模型!2025年CNN与Transformer融合的创新思路!
告别单一模型!2025年CNN与Transformer融合的创新思路!
基于混合 Transformer + GRU 的加密货币价格预测,多指标全面提升
基于混合 Transformer + GRU 的加密货币价格预测,多指标全面提升
AI产品经理的基础知识:一篇文章搞懂Transformer以及扩散模型
AI产品经理的基础知识:一篇文章搞懂Transformer以及扩散模型
打破Transformer霸权!全新液态神经网络刷爆SOTA!
打破Transformer霸权!全新液态神经网络刷爆SOTA!
ICLR 2025 Oral|差分注意力机制引领变革,DIFF Transformer攻克长序列建模难题
ICLR 2025 Oral|差分注意力机制引领变革,DIFF Transformer攻克长序列建模难题
ICLR 2025 Oral|差分注意力机制引领变革,DIFF Transformer攻克长序列建模难题
字节Seed团队PHD-Transformer突破预训练长度扩展!破解KV缓存膨胀难题
探秘Transformer系列之(31)--- Medusa - 罗西的思考
字节Seed团队PHD-Transformer突破预训练长度扩展!破解KV缓存膨胀难题
字节Seed团队PHD-Transformer突破预训练长度扩展!破解KV缓存膨胀难题
从机器翻译开始了解Transformer架构
从机器翻译开始了解Transformer架构
讲透一个强大算法模型,Transformer!!
讲透一个强大算法模型,Transformer!!
面试题:Transformer为什么要有注意力机制?
面试题:Transformer为什么要有注意力机制?
从0构建大模型知识体系(4):大模型的爸爸Transformer
斯坦福发了个新的 Transformer 课程
斯坦福发了个新的 Transformer 课程
探秘Transformer系列之(30)--- 投机解码 - 罗西的思考
QKV讲不清,还敢在简历写
QKV讲不清,还敢在简历写"精通Transformer"?(优化版)
Transformer原作打脸DeepSeek观点?一句Wait就能引发反思,RL都不用
Transformer原作打脸DeepSeek观点?一句Wait就能引发反思,RL都不用
「全球首个自回归视频生成大模型」,刚刚,Swin Transformer作者创业团队重磅开源!
彻底搞懂!Transformer !!
彻底搞懂!Transformer !!
高分利器:Transformer+图像处理!创新性绝了,3位 IEEE Fellow推荐的含金量!
高分利器:Transformer+图像处理!创新性绝了,3位 IEEE Fellow推荐的含金量!
突破Transformer,结合随机森林时序预测 !!
突破Transformer,结合随机森林时序预测 !!
Transformer论文作者、Cohere创始人Aidan:没想到这架构这么多年没过时,当Agent能访问人类所有资源才更有用
Transformer论文作者、Cohere创始人Aidan:没想到这架构这么多年没过时,当Agent能访问人类所有资源才更有用
Transformer+Mamba黄金组合!长文推理性能飙升3倍,性能还更强
Transformer+Mamba黄金组合!长文推理性能飙升3倍,性能还更强
一跃成为大模型核心框架的Transformer,到底解决什么问题?
一跃成为大模型核心框架的Transformer,到底解决什么问题?
探秘Transformer系列之(29)--- DeepSeek MoE - 罗西的思考
Nature子刊,EPFL与上海交大用多模态Transformer精准预测全局最低吸附能,助力催化剂设计
比较全!回顾LLM发展史 | Transformer、蒸馏、MoE、思维链(CoT)
比较全!回顾LLM发展史 | Transformer、蒸馏、MoE、思维链(CoT)
QKV都讲不清,还敢在简历写“精通Transformer”?
QKV都讲不清,还敢在简历写“精通Transformer”?
顶刊神思路!融合Transformer与CNN做医学图像!!
顶刊神思路!融合Transformer与CNN做医学图像!!
Jeff Dean演讲回顾LLM发展史,Transformer、蒸馏、MoE、思维链等技术都来自谷歌
Jeff Dean演讲回顾LLM发展史,Transformer、蒸馏、MoE、思维链等技术都来自谷歌
Jeff Dean演讲回顾LLM发展史,Transformer、蒸馏、MoE、思维链等技术都来自谷歌
突破Transformer,融合贝叶斯优化时序预测 !!
探秘Transformer系列之(28)--- DeepSeek MLA - 罗西的思考
CVPR 2025 | 何恺明联手Yann LeCun,仅用9行代码就实现无需归一化的Transformer!
谷歌提出Transformer架构中,表示崩塌、过度压缩的5个解决方法
从模型原理到代码实践,深入浅出上手Transformer,叩开大模型世界的大门
Transformer Pytorch实现(详细注释)
讲透一个强大算法模型,Transformer !!
图解 Transformer,一文吃透工作原理
万字长文!一文了解归一化:从Transformer归一化到主流大模型归一化的演变!
基于素描监督学习的医学图像分割多轴视觉 Transformer 边缘增强 !
探秘Transformer系列之(27)--- MQA & GQA - 罗西的思考
100 行代码,轻松构建 Transformer 模型
注意力机制-Transformer:深度学习的革命性架构
CVPR'25 | 多任务场景下的Transformer高效Finetune方法
基于素描监督学习的医学图像分割多轴视觉 Transformer 边缘增强 !
探秘Transformer系列之(26)--- KV Cache优化---分离or合并 - 罗西的思考
探秘Transformer系列之(25)--- KV Cache优化之处理长文本序列 - 罗西的思考
探秘Transformer系列之(24)--- KV Cache优化 - 罗西的思考
时间序列Transformer模型中灵活引入不同类型外部特征的方法
AmazingQuant :从0到1打造基于Transformer多模型融合的智能量化交易系统
探秘Transformer系列之(23)--- 长度外推 - 罗西的思考
Multi-Token突破注意力机制瓶颈,Meta发明了一种很新的Transformer
探秘Transformer系列之(22)--- LoRA - 罗西的思考
预测精度达93%,个人电脑可部署,科学家开发Transformer新方法预测结合蛋白
Transformer 通关秘籍7:词向量的通俗理解
探秘Transformer系列之(21)--- MoE
探秘Transformer系列之(21)--- MoE - 罗西的思考
探秘Transformer系列之(20)--- KV Cache - 罗西的思考
探秘Transformer系列之(19)----FlashAttention V2 及升级版本
探秘Transformer系列之(19)----FlashAttention V2 及升级版本 - 罗西的思考
基于PyTorch 实现一个基于 Transformer 架构的字符级语言模型
探秘Transformer系列之(18)--- FlashAttention
探秘Transformer系列之(18)--- FlashAttention - 罗西的思考
腾讯混元、英伟达都发混合架构模型,Mamba-Transformer要崛起吗?
无需Attention的未来,RWKV-7能成为替代Transformer的那只黑天鹅吗?
关于Transformer中Decoder模块是如何预测下一个字符的算法 - 一只会铲史的猫
「注意力实际上是对数的」?七年前的Transformer还有新发现,Karpathy点赞
探秘Transformer系列之(17)--- RoPE
探秘Transformer系列之(17)--- RoPE - 罗西的思考
探秘Transformer系列之(16)--- 资源占用 - 罗西的思考
探秘Transformer系列之(15)--- 采样和输出 - 罗西的思考
探秘Transformer系列之(14)--- 残差网络和归一化 - 罗西的思考
没有归一化层的Transformer!刘壮带队,何恺明、Yann LeCun都参与了
探秘Transformer系列之(13)--- Feed-Forward Networks
探秘Transformer系列之(13)--- FFN - 罗西的思考
探秘Transformer系列之(12)--- 多头自注意力 - 罗西的思考
实战-基于Transformer生成文章标题
探秘Transformer系列之(11)--- 掩码 - 罗西的思考
Transformer原理详解
探秘Transformer系列之(10)--- 自注意力 - 罗西的思考
AI 学习之路(一)- 重新认识 AI
探秘Transformer系列之(9)--- 位置编码分类 - 罗西的思考
探秘Transformer之(8)--- 位置编码 - 罗西的思考
MIT三人团队:用Transformer解决经验贝叶斯问题,比经典方法快100倍
Transformer架构+分子网络,MIT模型解码癌症系统生物学
探秘Transformer系列之(7)--- embedding - 罗西的思考
Transformer革新药物研发:TRACER框架实现反应感知的分子设计与合成优化
探秘Transformer系列之(6)--- token - 罗西的思考
探秘Transformer系列之(5)--- 训练&推理 - 罗西的思考
探秘Transformer系列之(4)--- 编码器 & 解码器
探秘Transformer系列之(4)--- 编码器 & 解码器 - 罗西的思考
探秘Transformer系列之(3)---数据处理 - 罗西的思考
比知识蒸馏好用,田渊栋等提出连续概念混合,再度革新Transformer预训练框架
炒菜、雕刻、绘画、汽车人变形!MakeAnything用扩散Transformer解锁多任务过程生成
Transformer 模型在 征程 6 平台上的高效支持
探秘Transformer系列之(2)---总体架构 - 罗西的思考
复旦团队提出Transformer生成的原子嵌入策略,可通过ML提高晶体特性的预测准确性
Transformer-Squared:停止微调 LLMs - 果冻人工智能
港大字节最新视频生成模型刷屏!网友直接RIP市场营销,Sora也不香了
探秘Transformer系列之(1):注意力机制
为什么大语言模型难以处理长上下文?从 Transformer 到 Mamba
Huggingface使用 - chaplinthink