文章列表

13张图解Transformer和混合专家（MoE）的差别 | 大型语言模型的架构对比

智泊AI · 3天前 · 阅读原文

拆解Transformer之Embedding

ALLINAI · 3天前 · 阅读原文

讲透一个强大算法模型，Transformer！！

cos大壮 · 2周前 · 阅读原文

Mamba 架构上顶会ICLR 2026，AI大脑核心Transformer的王座还能坐稳吗？

suani · 2周前 · 阅读原文

光靠Transformer不够、驳斥“AI Agent泡沫论”！万字解密ML 2025大会首日最强思辨现场

· 2周前 · 阅读原文

Transformer杀回目标检测！与YOLO组成王炸组合，高分论文创新点一览

AI前沿速递 · 2周前 · 阅读原文

一文搞懂Transformer：6个大厂JD告诉你该学到什么程度？

AllenTang · 2周前 · 阅读原文

Mamba-3惊现ICLR 2026！推理性能三重暴打，Transformer的时代真要过去了？

AI前沿速递 · 2周前 · 阅读原文

Transformer+Mamba黄金组合太能打了，英伟达/Meta/腾讯抢着入场

· 2周前 · 阅读原文

视觉端到端控制新突破，GRASP实现无人机高速飞行自主避障

· 2周前 · 阅读原文

AI简史：从Transformer到BERT，我们如何走到了今天？

AI Online · 2周前 · 阅读原文

在 Windows 上部署 NVIDIA Parakeet-TDT 遇到的坑

mortimer · 2周前 · 阅读原文

不用库、不走捷径：用 PyTorch 从零实现 LLM

Ashish Abraham · 2周前 · 阅读原文

“推理模型还处于RNN的阶段”——李建忠对话GPT-5与Transformer发明者Lukasz Kaiser实录

李建忠研思 · 3周前 · 阅读原文

《大模型的第一性思考》李建忠对话GPT5与Transformer发明者Lukasz Kaiser实录

· 3周前 · 阅读原文

书籍下载-《深度学习数学工程》

陈萍萍的公主 · 3周前 · 阅读原文

Transformer这么火，LSTM这种“老古董”还有什么可研究的？

· 3周前 · 阅读原文

马毅团队重磅发布新书：从MCR²到白盒Transformer，重构深度学习的第一性原理

让你更懂AI的 · 3周前 · 阅读原文

Transformer这么火，LSTM这种“老古董”还有什么可研究的？

AI算法科研pa · 3周前 · 阅读原文

通透！从 RNN 到 Transformer ！！

cos大壮 · 3周前 · 阅读原文

Transformer这么火，LSTM这种“老古董”还有什么可研究的？

· 3周前 · 阅读原文

拆解 Transformer 的 “隐形大佬”：前馈神经网络（FFN）核心精讲

酸奶AIGC · 1个月前 · 阅读原文

搞不懂Transformer？我用大白话给你讲明白

骆齐 · 1个月前 · 阅读原文

2025 年大语言模型架构演进：DeepSeek V3、OLMo 2、Gemma 3 与 Mistral 3.1 核心技术剖析

· 1个月前 · 阅读原文

无所不能的Embedding（06） - 跨入Transformer时代～模型详解&代码实现

AI大模型 · 1个月前 · 阅读原文

从零开始学大模型之预训练语言模型

居然JuRan · 1个月前 · 阅读原文

线性复杂度破局！Swin Transformer 移位窗口颠覆高分辨率视觉建模

CoovallyAIHub · 3个月前 · 阅读原文

Oxc 最新 Transformer Alpha 功能速览！ 🚀🚀🚀

萌萌哒草头将军 · 3个月前 · 阅读原文

大模型的位置编码原理和相关变体

liz · 3个月前 · 阅读原文

书籍下载-《Python机器学习实战（第四版）》

陈萍萍的公主 · 3个月前 · 阅读原文

又是王冠：27M小模型超越o3-mini！拒绝马斯克的00后果然不同

关注前沿科技 · 3个月前 · 阅读原文

第二十天：Transformer

AllenTang · 3个月前 · 阅读原文

揭秘大模型的魔法：实现带有可训练权重的多头自注意力机制

写代码的中年人 · 3个月前 · 阅读原文

谷歌 DeepMind 重磅推出 “Transformer 杀手” 架构

人工智能前线 · 3个月前 · 阅读原文

前额叶皮层启发的Transformer模型应用及其进展

· 3个月前 · 阅读原文

Attention Sink现象揭秘：Transformer为何偏爱首Token？

郑明悟 · 3个月前 · 阅读原文

结合创新！ResNet+Transformer“黄金上分搭档”！审稿人直呼内行

· 3个月前 · 阅读原文

AI 基础知识从 0.5 到 0.6—— Transformer 架构为何能统治AI领域？

谦行 · 3个月前 · 阅读原文

【IEEE 2025】卷积 + Transformer 融合新范式，即插即用，场景分类准确率飙至 99.95%！

AI模块工坊 · 3个月前 · 阅读原文

NSA稀疏注意力深度解析：DeepSeek如何将Transformer复杂度从O(N²)降至线性，实现9倍训练加速

P**nHub兄弟网站 · 3个月前 · 阅读原文

ICML 2025 | 深度剖析时序 Transformer：为何有效，瓶颈何在？

时序之心 · 3个月前 · 阅读原文

NeurIPS | MIT 出品：Transformer 秩崩溃，被注意力掩码和 LayerNorm 拿捏！

· 4个月前 · 阅读原文

TTS-1技术报告：基于Transformer的文本转语音模型 - CodeShare

CodeShare · 4个月前 · 阅读原文

大模型技术人求生指南：你的Transformer和RAG知识正在过期

· 4个月前 · 阅读原文

从零学习大模型（5）——位置编码：让 AI 读懂 “语序” 的关键技术

红岸小兵 · 4个月前 · 阅读原文

搜索结果太乱？5种重排序模型让你的搜索系统准确率提升40%

· 4个月前 · 阅读原文

Transformer架构已经过时？Jamba、Mamba、RWKV…才是下一代的AI架构？

小张说 · 4个月前 · 阅读原文

从零学习大模型（1）——Transformer架构：原理、演进与AI领域的颠覆性影响

红岸小兵 · 4个月前 · 阅读原文

Transformer升级之路：从计算瓶颈出发，MLA如何实现理论上的“双优”？

苏剑林 · 4个月前 · 阅读原文

传统Transformer危！谷歌最新改进版内存减半推理速度还翻倍

· 4个月前 · 阅读原文

吴恩达免费课程！走进大语言模型的“大脑”：Transformer 工作机制详解

一起学习 · 4个月前 · 阅读原文

大模型知识全景图（一）

· 4个月前 · 阅读原文

ICML 2025 | Transformer还有救？魔改残差连接，MUDDFormer硬刚超深网络

让你更懂AI的 · 4个月前 · 阅读原文

阿里又出手！FantasyPortrait打造全新面部驱动引擎

弹贝斯的鱼 · 4个月前 · 阅读原文

聚类+Transformer完美结合！热点方向+创新机制=快速发表，快来抄作业

· 4个月前 · 阅读原文

获ICCV21最佳论文！一文解析让Transformer在一系列视觉任务上获得强大表现的Swin Transformer！！！

团队：DeepFinder · 4个月前 · 阅读原文

几乎解决所有大模型问题！外网已传疯！

小梦 · 4个月前 · 阅读原文

Transformer危！谷歌MoR架构发布：内存减半推理速度还翻倍

关注前沿科技 · 4个月前 · 阅读原文

「有望成为Transformer杀手」，谷歌DeepMind新架构MoR实现两倍推理速度

机器之心 · 4个月前 · 阅读原文

「有望成为Transformer杀手」，谷歌DeepMind新架构MoR实现两倍推理速度

· 4个月前 · 阅读原文

Transformer终结者！谷歌DeepMind全新MoR架构问世，新一代魔王来了

新智元 · 4个月前 · 阅读原文

揭秘大模型的魔法：从Transformer架构开始，一步步揭开它的神秘面纱

写代码的中年人 · 4个月前 · 阅读原文

Transformer+时间序列，强强联合！

小梦 · 4个月前 · 阅读原文

彻底改写Transformer！「能量驱动架构」横空出世，通用推理时代要来了？

新智元 · 4个月前 · 阅读原文

Transformer过时了！MIT液态神经网络LNN才是新趋势！

· 4个月前 · 阅读原文

Tokenization谢幕？H-Net登场：Mamba作者新作正面硬刚Transformer

· 4个月前 · 阅读原文

无Tokenizer时代真要来了？Mamba作者再发颠覆性论文，挑战Transformer

机器之心 · 4个月前 · 阅读原文

面试被要求手撕ROPE和Transformer，麻了~

宇宙哇 · 4个月前 · 阅读原文

无Tokenizer时代真要来了？Mamba作者再发颠覆性论文，挑战Transformer

· 4个月前 · 阅读原文

Transformer+特征融合：发论文的创新捷径，助你冲击顶会顶刊！

AI前沿速递 · 4个月前 · 阅读原文

ICML 2025 | Transformer 性能大提升：CCA-Attention 替代自注意力模块，LLM长文本建模突破

AI前沿速递 · 4个月前 · 阅读原文

ViTAR：模糊位置编码让视觉Transformer适配任意分辨率图像

P**nHub兄弟网站 · 4个月前 · 阅读原文

Transformer模型原理概述 - 归去_来兮

归去_来兮 · 4个月前 · 阅读原文

Meta新注意力机制给 Transformer 升了级！底层架构的革命！

AI前沿速递 · 4个月前 · 阅读原文

简单分高的发文策略：LSTM+Transformer+时间序列预测

· 4个月前 · 阅读原文

「Tokens是胡扯」，Mamba作者抛出颠覆性观点，揭露Transformer深层缺陷

· 4个月前 · 阅读原文

Mamba一作预告新架构！长文论述Transformer≠最终解法

关注前沿科技 · 4个月前 · 阅读原文

基于能量的Transformer横空出世！全面超越主流模型35%

关注前沿科技 · 4个月前 · 阅读原文

Transformer死角，只需500步后训练，循环模型突破256k长度泛化极限

机器之心 · 4个月前 · 阅读原文

Transformer死角，只需500步后训练，循环模型突破256k长度泛化极限

· 4个月前 · 阅读原文

新范式来了！新能量模型打破Transformer++扩展上限，训练扩展率快35%

机器之心 · 4个月前 · 阅读原文

新范式来了！新能量模型打破Transformer++扩展上限，训练扩展率快35%

· 4个月前 · 阅读原文

线性注意力简史：从模仿、创新到反哺

苏剑林 · 4个月前 · 阅读原文

盘一盘，2017年Transformer之后，LLM领域的重要论文

· 4个月前 · 阅读原文

Nature子刊揭秘：Transformer+知识蒸馏引爆图像识别革命！优化模型！

AI前沿速递 · 4个月前 · 阅读原文

大模型基本概念介绍 - Naylor

Naylor · 4个月前 · 阅读原文

Nature+CVPR双杀！Transformer热度狂飙，何恺明、李飞飞都参与了

· 5个月前 · 阅读原文

ICML 2025 | 打破何恺明“残差连接”瓶颈，MUDDFormer架构让Transformer又一次演进！

AI前沿速递 · 5个月前 · 阅读原文

Flutter 里的 Asset Transformer 和 Hooks ，这个实验性功能有什么用

恋猫de小郭 · 5个月前 · 阅读原文

Transformer时序预测哪些模块有效，哪些模块无效？模型内部运行原理深入分析

圆圆的算法笔记 · 5个月前 · 阅读原文

盘一盘，2017年Transformer之后，LLM领域的重要论文

· 5个月前 · 阅读原文

吃透Transformer，5大高频考点解析！

maggie · 5个月前 · 阅读原文

2025年，CNN 与 Transformer “联姻”，医学图像迎来了大动作！

· 5个月前 · 阅读原文

ICML 2025 | 打破残差连接瓶颈，彩云科技&北邮提出MUDDFormer架构让Transformer再进化！

机器之心 · 5个月前 · 阅读原文

比Transformer还快？新型递归模型Comba横空出世，CV与NLP双双刷新SOTA！

AI前沿速递 · 5个月前 · 阅读原文

Transformer是啥（说人话版），看完这篇你就悟了！

智泊AI · 5个月前 · 阅读原文

Transformer-1. 功能概述(可视化通俗理解)

金朝老师来上课 · 5个月前 · 阅读原文

Transformer-2. 它如何工作(可视化通俗理解)

金朝老师来上课 · 5个月前 · 阅读原文

Transformer-4. 何汝秀(可视化通俗理解)

金朝老师来上课 · 5个月前 · 阅读原文

Transformer-3. 多头注意力 (可视化通俗解释)

金朝老师来上课 · 5个月前 · 阅读原文

为什么我不理解 transformer-2. 它如何工作

金朝老师来上课 · 5个月前 · 阅读原文

为什么我不理解 transformer-1. 功能概述

金朝老师来上课 · 5个月前 · 阅读原文

讲透一个强大算法模型，Transformer ！！

cos大壮 · 5个月前 · 阅读原文

工业级Transformer优化手册：混合精度训练+量化部署实战解析

AI大模型技术社 · 5个月前 · 阅读原文

「答」LLMs 知识检查50题

OddFan · 5个月前 · 阅读原文

准确率70.14%，多模态数据Transformer模型预测药物相互作用，使多药同服更安全

ScienceAI · 5个月前 · 阅读原文

Transformer联手Diffusion！Soul开源AI生图新范式！

热爱AI的 · 5个月前 · 阅读原文

Transformer 在具身智能“水土不服”，大模型强≠机器人强 | 万有引力

万有引力 · 5个月前 · 阅读原文

Labubu换装记！让视频换装变得如此简单！基于扩散Transformer的视频虚拟试衣新突破

小G · 5个月前 · 阅读原文

上岸双一区TOP！Transformer+时间序列

· 5个月前 · 阅读原文

Transformer八子初创：AI横扫NP难题竞赛，Top 2%选手竟是智能体！

新智元 · 5个月前 · 阅读原文

通透！从 RNN 到 Transformer ！！

cos大壮 · 5个月前 · 阅读原文

零基础解码Transformer与大模型核心原理

直播技术团队 · 5个月前 · 阅读原文

零基础解码Transformer与大模型核心原理

· 5个月前 · 阅读原文

Transformer和扩散模型这对AI组合，凭什么横扫多模态霸榜顶会？

AI前沿速递 · 5个月前 · 阅读原文

挑战 Transformer 架构的谷歌最新扩散模型 Gemini Diffusion 系统提示词

云中江树 · 5个月前 · 阅读原文

全球首次，Transformer「混血」速度狂飙65倍！英伟达已下注

新智元 · 5个月前 · 阅读原文

Transformer架构介绍+从零搭建预训练模型项目

tokepson · 5个月前 · 阅读原文

你应该懂的AI大模型（六）之 transformers - BricheersZ

BricheersZ · 5个月前 · 阅读原文

字节Seed新作DeltaFormer: 下一代模型架构的尝试

· 5个月前 · 阅读原文

手把手教你实现PyTorch版ViT：图像分类任务中的Transformer实战 - SkyXZ

SkyXZ · 5个月前 · 阅读原文

Transformer八周年！Attention Is All You Need被引破18万封神

新智元 · 5个月前 · 阅读原文

全面讲透，Transformer的5大核心优势！！

cos大壮 · 5个月前 · 阅读原文

突破Transformer！协同XGBoost时序预测！！

cos大壮 · 5个月前 · 阅读原文

LSTM+Transformer炸场！时空建模从「局部瞎子」到「全局透视」的革命！

AI前沿速递 · 5个月前 · 阅读原文

文生图新架构！清华提出MADFormer！混合自回归与扩散的Transformer模型！

妙妙房 · 5个月前 · 阅读原文

探秘Transformer系列之（36）--- 大模型量化方案 - 罗西的思考

罗西的思考 · 5个月前 · 阅读原文

论文解读：Knowledge Neurons in Pretrained Transformers - 颀周

颀周 · 5个月前 · 阅读原文

让AI有“内心戏”！英国副教授改进Transformer模拟人脑TPNs机制

北茗 · 5个月前 · 阅读原文

Reading List: 那些成就 LLMs 的关键论文

OddFan · 5个月前 · 阅读原文

谷歌Transformer过时了？清华姚班校友等三连击，爆改注意力！

新智元 · 5个月前 · 阅读原文

SAR图像目标检测新高峰：R-Sparse R-CNN借BAPs、DCP与Transformer登顶 !

AI 引擎 · 5个月前 · 阅读原文

讲透一个强大算法模型，Transformer ！！

cos大壮 · 5个月前 · 阅读原文

为什么我还是无法理解 Transformer？

吴师兄 · 5个月前 · 阅读原文

搞不懂Transformer？那是你还不了解输入嵌入与位置编码！

学AI必备的 · 5个月前 · 阅读原文

华人科学家发明「AI诊断笔」，手写识别帕金森病，准确率超95%

学术头条 · 5个月前 · 阅读原文

微软等提出「模型链」新范式，与Transformer性能相当，扩展性灵活性更好

机器之心 · 5个月前 · 阅读原文

微软等提出「模型链」新范式，与Transformer性能相当，扩展性灵活性更好

· 5个月前 · 阅读原文

探秘Transformer系列之（35）--- 大模型量化基础 - 罗西的思考

罗西的思考 · 5个月前 · 阅读原文

2025年，Mamba 与 Transformer “联姻”，视觉领域迎来了大动作！

AI前沿速递 · 5个月前 · 阅读原文

登上Nature子刊！Transformer可解释性成为一区首选，创新思路竟如此easy！

· 5个月前 · 阅读原文

Transformer不止自注意力！被低估的FFN才是架构的另一半真相！

智能体AI · 6个月前 · 阅读原文

Transformer入门必读！从文本分词到输出概率的全解析

基咯咯 · 6个月前 · 阅读原文

手都敲麻了，一文解析Transformer模型的基本原理与Pytorch代码实现。

算法工程师Future · 6个月前 · 阅读原文

Andrej Karpathy为何选择了Transformer？

糯盐 · 6个月前 · 阅读原文

快速理解热门LLM大语言模型

鹅厂程序员 · 6个月前 · 阅读原文

告别「烧显卡」训练！上交大团队发布AutoGnothi：黑盒Transformer实现自我解释

张林峰 · 6个月前 · 阅读原文

改进Transformer就能入选 CVPR！这份人人都能用的魔改Transformer创新点，学到就是赚到！

AI前沿速递 · 6个月前 · 阅读原文

ICML 2025 | 又快又强的狮虎兽！仅20M词元微调，Transformer秒切线性RNN

让你更懂AI的 · 6个月前 · 阅读原文

讲透一个强大算法模型，Transformer ！！

cos大壮 · 6个月前 · 阅读原文

KAN+Transformer，简单又很顶的联合思路，早上车早发高分！

· 6个月前 · 阅读原文

Transformer，一个神奇算法模型！！

cos大壮 · 6个月前 · 阅读原文

基于改进Transformer模型的高效残差网络复杂图像风格迁移技术研究及其实现！

AI 引擎 · 6个月前 · 阅读原文

探秘Transformer系列之（34）--- 量化基础 - 罗西的思考

罗西的思考 · 6个月前 · 阅读原文

一文搞懂大模型的架构（Transformer）

AllenTang · 6个月前 · 阅读原文

自注意力中簇的涌现

· 6个月前 · 阅读原文

基于改进Transformer模型的高效残差网络复杂图像风格迁移技术研究及其实现！

AI 引擎 · 6个月前 · 阅读原文

arXiv:2410｜注意力层中秩崩溃与信号传播的谱分析

· 6个月前 · 阅读原文

下一代Transformer到底长啥样?

THU Markov · 6个月前 · 阅读原文

GitHub星标3k+的AI实战宝典：从理论到竞赛一站式通关

知行合一日拱一卒 · 6个月前 · 阅读原文

讲透一个强大算法模型，Transformer ！！

cos大壮 · 6个月前 · 阅读原文

BEV感知两大范式：LSS vs Transformer，到底谁更适合量产？

· 6个月前 · 阅读原文

高置信度故障诊断论文学习 | 基于Transformer注意力不确定性的旋转机械故障诊断可信性研究

Jin · 6个月前 · 阅读原文

5分钟解释Transformer，一个神奇的算法模型！！

cos大壮 · 6个月前 · 阅读原文

探秘Transformer系列之（33）--- DeepSeek MTP - 罗西的思考

罗西的思考 · 6个月前 · 阅读原文

用生活例子解密DeepSeek/GPT的“大脑养成记”：AI婴儿到全能大师的底层原理

弋十三 · 6个月前 · 阅读原文

视觉Transformer（ViT ）：它凭什么超越CNN，看懂这篇文章你就什么都不缺了！

AI前沿速递 · 6个月前 · 阅读原文

Transformer | 一文带你了解Embedding（从传统嵌入方法到大模型Embedding）

ShuYini · 6个月前 · 阅读原文

ChatGPT+DeepSeek+Transformer：解锁Nature级论文的“写作密码

用户008 · 6个月前 · 阅读原文

Transformer在高频交易中的应用：融合速度与智能

QuantML · 6个月前 · 阅读原文

彻底搞懂！Transformer ！！

cos大壮 · 6个月前 · 阅读原文

连续思维机器来了！Transformer八子之一创企推出，让AI不再「一步到位」拍脑袋做决定

· 6个月前 · 阅读原文

刚刚，“Transformer八子”之一创业团队提出“连续思维机器”：如人类推理般可解释，还能涌现新能力

· 6个月前 · 阅读原文

杀疯了！融合LSTM与Transformer时间序列预测！！

cos大壮 · 6个月前 · 阅读原文

哈佛新论文揭示 Transformer 模型与人脑“同步纠结”全过程！AI也会犹豫、反悔？

文摘菌 · 6个月前 · 阅读原文

GNN与Transformer创新结合！全局与局部的完美融合，模型性能起飞！

AI前沿速递 · 6个月前 · 阅读原文

那些连Transformer都搞不懂的AI工程师和传统程序员没什么区别！

智能体AI · 6个月前 · 阅读原文

突破Transformer！结合卡尔曼滤波轻松“水”SCI二区！

· 6个月前 · 阅读原文

BEV感知两大范式：LSS vs Transformer，到底谁更适合量产？

Azure-MhLi · 6个月前 · 阅读原文

斯坦福大学官方AI课程：NLP+深度神经网络+Transformer

· 6个月前 · 阅读原文

CNN+Transformer+Mamba，多热点联合=不撞车+高分保证√

· 6个月前 · 阅读原文

闲聊transformer

admin · 6个月前 · 阅读原文

【機器學習2021】Transformer-李宏毅

artificiali · 6个月前 · 阅读原文

精通DeepSeek？先搞定Transformer架构(四)——解析Transformer编码器的自注意力机制

智能体AI · 6个月前 · 阅读原文

精通DeepSeek？先搞定Transformer架构(三)——编码器部分掩码张量（Masking）实现详解

智能体AI · 6个月前 · 阅读原文

精通DeepSeek？先搞定Transformer架构(二)——输入部分如何让模型理解文本，带你全面掌握！

智能体AI · 6个月前 · 阅读原文

精通DeepSeek？先搞定Transformer架构(一)——深入解析Transformer全流程！

智能体AI · 6个月前 · 阅读原文

被Transformer光芒掩盖的论文，Meta科学家回顾十年前创新之作

· 6个月前 · 阅读原文

不懂Transformer的AI产品经理，自己组织的会只能当观众！

智能体AI · 6个月前 · 阅读原文

告别单一模型！2025年CNN与Transformer融合的创新思路！

AI前沿速递 · 7个月前 · 阅读原文

基于混合 Transformer + GRU 的加密货币价格预测，多指标全面提升

灵度智能 · 7个月前 · 阅读原文

AI产品经理的基础知识：一篇文章搞懂Transformer以及扩散模型

· 7个月前 · 阅读原文

打破Transformer霸权！全新液态神经网络刷爆SOTA！

· 7个月前 · 阅读原文

ICLR 2025 Oral｜差分注意力机制引领变革，DIFF Transformer攻克长序列建模难题

机器之心 · 7个月前 · 阅读原文

ICLR 2025 Oral｜差分注意力机制引领变革，DIFF Transformer攻克长序列建模难题

· 7个月前 · 阅读原文

字节Seed团队PHD-Transformer突破预训练长度扩展！破解KV缓存膨胀难题

机器之心 · 7个月前 · 阅读原文

探秘Transformer系列之（31）--- Medusa - 罗西的思考

罗西的思考 · 7个月前 · 阅读原文

字节Seed团队PHD-Transformer突破预训练长度扩展！破解KV缓存膨胀难题

· 7个月前 · 阅读原文

从机器翻译开始了解Transformer架构

liz · 7个月前 · 阅读原文

讲透一个强大算法模型，Transformer！！

cos大壮 · 7个月前 · 阅读原文

面试题：Transformer为什么要有注意力机制？

杨沐白 · 7个月前 · 阅读原文

从0构建大模型知识体系（4）：大模型的爸爸Transformer

夜雨思晗 · 7个月前 · 阅读原文

斯坦福发了个新的 Transformer 课程

· 7个月前 · 阅读原文

探秘Transformer系列之（30）--- 投机解码 - 罗西的思考

罗西的思考 · 7个月前 · 阅读原文

QKV讲不清，还敢在简历写"精通Transformer"？（优化版）

智能体AI · 7个月前 · 阅读原文

Transformer原作打脸DeepSeek观点？一句Wait就能引发反思，RL都不用

新智元 · 7个月前 · 阅读原文

「全球首个自回归视频生成大模型」，刚刚，Swin Transformer作者创业团队重磅开源！

机器之心 · 7个月前 · 阅读原文

彻底搞懂！Transformer ！！

cos大壮 · 7个月前 · 阅读原文

高分利器：Transformer+图像处理！创新性绝了，3位 IEEE Fellow推荐的含金量！

· 7个月前 · 阅读原文

突破Transformer，结合随机森林时序预测！！

cos大壮 · 7个月前 · 阅读原文

Transformer论文作者、Cohere创始人Aidan：没想到这架构这么多年没过时，当Agent能访问人类所有资源才更有用

JOJO白金之星 · 7个月前 · 阅读原文

Transformer+Mamba黄金组合！长文推理性能飙升3倍，性能还更强

新智元 · 7个月前 · 阅读原文

一跃成为大模型核心框架的Transformer，到底解决什么问题？

凉羽、青熙、纹路 · 7个月前 · 阅读原文

探秘Transformer系列之（29）--- DeepSeek MoE - 罗西的思考

罗西的思考 · 7个月前 · 阅读原文

Nature子刊，EPFL与上海交大用多模态Transformer精准预测全局最低吸附能，助力催化剂设计

ScienceAI · 7个月前 · 阅读原文

比较全！回顾LLM发展史 | Transformer、蒸馏、MoE、思维链（CoT）

ShuCP · 7个月前 · 阅读原文

QKV都讲不清，还敢在简历写“精通Transformer”？

智能体AI · 7个月前 · 阅读原文

顶刊神思路！融合Transformer与CNN做医学图像！！

· 7个月前 · 阅读原文

Jeff Dean演讲回顾LLM发展史，Transformer、蒸馏、MoE、思维链等技术都来自谷歌

机器之心 · 7个月前 · 阅读原文

Jeff Dean演讲回顾LLM发展史，Transformer、蒸馏、MoE、思维链等技术都来自谷歌

· 7个月前 · 阅读原文

突破Transformer，融合贝叶斯优化时序预测！！

cos大壮 · 7个月前 · 阅读原文

探秘Transformer系列之（28）--- DeepSeek MLA - 罗西的思考

罗西的思考 · 7个月前 · 阅读原文

CVPR 2025 | 何恺明联手Yann LeCun，仅用9行代码就实现无需归一化的Transformer!

AI前沿速递 · 7个月前 · 阅读原文

谷歌提出Transformer架构中，表示崩塌、过度压缩的5个解决方法

AIGC开放社区 · 7个月前 · 阅读原文

从模型原理到代码实践，深入浅出上手Transformer，叩开大模型世界的大门

腾讯程序员 · 7个月前 · 阅读原文

Transformer Pytorch实现（详细注释）

杨沐白 · 7个月前 · 阅读原文

讲透一个强大算法模型，Transformer ！！

cos大壮 · 7个月前 · 阅读原文

图解 Transformer，一文吃透工作原理

Jay Alammar · 7个月前 · 阅读原文

万字长文！一文了解归一化：从Transformer归一化到主流大模型归一化的演变！

ShuYini · 7个月前 · 阅读原文

基于素描监督学习的医学图像分割多轴视觉 Transformer 边缘增强 !

AI 引擎 · 7个月前 · 阅读原文

探秘Transformer系列之（27）--- MQA & GQA - 罗西的思考

罗西的思考 · 7个月前 · 阅读原文

100 行代码，轻松构建 Transformer 模型

Stephen Diehl · 7个月前 · 阅读原文

注意力机制-Transformer：深度学习的革命性架构

ALLINAI · 7个月前 · 阅读原文

CVPR'25 | 多任务场景下的Transformer高效Finetune方法

· 7个月前 · 阅读原文

基于素描监督学习的医学图像分割多轴视觉 Transformer 边缘增强 !

AI 引擎 · 7个月前 · 阅读原文

探秘Transformer系列之（26）--- KV Cache优化---分离or合并 - 罗西的思考

罗西的思考 · 7个月前 · 阅读原文

探秘Transformer系列之（25）--- KV Cache优化之处理长文本序列 - 罗西的思考

罗西的思考 · 7个月前 · 阅读原文

探秘Transformer系列之（24）--- KV Cache优化 - 罗西的思考

罗西的思考 · 7个月前 · 阅读原文

时间序列Transformer模型中灵活引入不同类型外部特征的方法

· 7个月前 · 阅读原文

AmazingQuant ：从0到1打造基于Transformer多模型融合的智能量化交易系统

AI炼金师 · 7个月前 · 阅读原文

探秘Transformer系列之（23）--- 长度外推 - 罗西的思考

罗西的思考 · 7个月前 · 阅读原文

Multi-Token突破注意力机制瓶颈，Meta发明了一种很新的Transformer

机器之心 · 7个月前 · 阅读原文

探秘Transformer系列之（22）--- LoRA - 罗西的思考

罗西的思考 · 7个月前 · 阅读原文

预测精度达93%，个人电脑可部署，科学家开发Transformer新方法预测结合蛋白

ScienceAI · 7个月前 · 阅读原文

Transformer 通关秘籍7：词向量的通俗理解

董董灿是个攻城狮 · 7个月前 · 阅读原文

探秘Transformer系列之（21）--- MoE

罗西的思考 · 8个月前 · 阅读原文

探秘Transformer系列之（21）--- MoE - 罗西的思考

罗西的思考 · 8个月前 · 阅读原文

探秘Transformer系列之（20）--- KV Cache - 罗西的思考

罗西的思考 · 8个月前 · 阅读原文

探秘Transformer系列之（19）----FlashAttention V2 及升级版本

罗西的思考 · 8个月前 · 阅读原文

探秘Transformer系列之（19）----FlashAttention V2 及升级版本 - 罗西的思考

罗西的思考 · 8个月前 · 阅读原文

基于PyTorch 实现一个基于 Transformer 架构的字符级语言模型

不惑_ · 8个月前 · 阅读原文

探秘Transformer系列之（18）--- FlashAttention

罗西的思考 · 8个月前 · 阅读原文

探秘Transformer系列之（18）--- FlashAttention - 罗西的思考

罗西的思考 · 8个月前 · 阅读原文

腾讯混元、英伟达都发混合架构模型，Mamba-Transformer要崛起吗？

机器之心 · 8个月前 · 阅读原文

无需Attention的未来，RWKV-7能成为替代Transformer的那只黑天鹅吗？

周一笑 · 8个月前 · 阅读原文

关于Transformer中Decoder模块是如何预测下一个字符的算法 - 一只会铲史的猫

一只会铲史的猫 · 8个月前 · 阅读原文

「注意力实际上是对数的」？七年前的Transformer还有新发现，Karpathy点赞

机器之心 · 8个月前 · 阅读原文

探秘Transformer系列之（17）--- RoPE

罗西的思考 · 8个月前 · 阅读原文

探秘Transformer系列之（17）--- RoPE - 罗西的思考

罗西的思考 · 8个月前 · 阅读原文

探秘Transformer系列之（16）--- 资源占用 - 罗西的思考

罗西的思考 · 8个月前 · 阅读原文

探秘Transformer系列之（15）--- 采样和输出 - 罗西的思考

罗西的思考 · 8个月前 · 阅读原文

探秘Transformer系列之（14）--- 残差网络和归一化 - 罗西的思考

罗西的思考 · 8个月前 · 阅读原文

没有归一化层的Transformer！刘壮带队，何恺明、Yann LeCun都参与了

机器之心 · 8个月前 · 阅读原文

探秘Transformer系列之（13）--- Feed-Forward Networks

· 8个月前 · 阅读原文

探秘Transformer系列之（13）--- FFN - 罗西的思考

罗西的思考 · 8个月前 · 阅读原文

探秘Transformer系列之（12）--- 多头自注意力 - 罗西的思考

罗西的思考 · 8个月前 · 阅读原文

实战-基于Transformer生成文章标题

python算法笔记 · 8个月前 · 阅读原文

探秘Transformer系列之（11）--- 掩码 - 罗西的思考

罗西的思考 · 8个月前 · 阅读原文

Transformer原理详解

python算法笔记 · 8个月前 · 阅读原文

探秘Transformer系列之（10）--- 自注意力 - 罗西的思考

罗西的思考 · 8个月前 · 阅读原文

AI 学习之路（一）- 重新认识 AI

windyrain · 8个月前 · 阅读原文

探秘Transformer系列之（9）--- 位置编码分类 - 罗西的思考

罗西的思考 · 8个月前 · 阅读原文

探秘Transformer之（8）--- 位置编码 - 罗西的思考

罗西的思考 · 8个月前 · 阅读原文

MIT三人团队：用Transformer解决经验贝叶斯问题，比经典方法快100倍

机器之心 · 9个月前 · 阅读原文

Transformer架构+分子网络，MIT模型解码癌症系统生物学

ScienceAI · 9个月前 · 阅读原文

探秘Transformer系列之（7）--- embedding - 罗西的思考

罗西的思考 · 9个月前 · 阅读原文

Transformer革新药物研发：TRACER框架实现反应感知的分子设计与合成优化

ScienceAI · 9个月前 · 阅读原文

探秘Transformer系列之（6）--- token - 罗西的思考

罗西的思考 · 9个月前 · 阅读原文

探秘Transformer系列之（5）--- 训练&推理 - 罗西的思考

罗西的思考 · 9个月前 · 阅读原文

探秘Transformer系列之（4）--- 编码器 & 解码器

罗西的思考 · 9个月前 · 阅读原文

探秘Transformer系列之（4）--- 编码器 & 解码器 - 罗西的思考

罗西的思考 · 9个月前 · 阅读原文

探秘Transformer系列之（3）---数据处理 - 罗西的思考

罗西的思考 · 9个月前 · 阅读原文

比知识蒸馏好用，田渊栋等提出连续概念混合，再度革新Transformer预训练框架

机器之心 · 9个月前 · 阅读原文

炒菜、雕刻、绘画、汽车人变形！MakeAnything用扩散Transformer解锁多任务过程生成

机器之心 · 9个月前 · 阅读原文

Transformer 模型在征程 6 平台上的高效支持

地平线开发者 · 9个月前 · 阅读原文

探秘Transformer系列之（2）---总体架构 - 罗西的思考

罗西的思考 · 9个月前 · 阅读原文

复旦团队提出Transformer生成的原子嵌入策略，可通过ML提高晶体特性的预测准确性

ScienceAI · 9个月前 · 阅读原文

Transformer-Squared：停止微调 LLMs - 果冻人工智能

果冻人工智能 · 9个月前 · 阅读原文

港大字节最新视频生成模型刷屏！网友直接RIP市场营销，Sora也不香了

西风 · 9个月前 · 阅读原文

探秘Transformer系列之（1）：注意力机制

罗西的思考 · 9个月前 · 阅读原文

为什么大语言模型难以处理长上下文？从 Transformer 到 Mamba

· 9个月前 · 阅读原文

Huggingface使用 - chaplinthink

chaplinthink · 9个月前 · 阅读原文