最新
AI
创业
产品
工具
应用
论文
笔记
markdown
DeepSeek
Qwen3
Github
开源项目
前端
RAG
知识图谱
OpenAI
MCP
Agent
Manus
视频
即梦
可灵
短剧
数字人
AI工具
Python
Coze
扣子空间
Dify
智能体
Cursor
多模态
效率
提示词
搜索
Transformer
产品经理
刘强东
京东
外卖
面试
巴菲特
游戏
强化学习
量化
关税
语音
redis
Mistral
豆包
数据可视化
SaaS
Deep Research
DeepWiki
Claude
Ollama
2025
API
NeurIPS | MIT 出品:Transformer 秩崩溃,被注意力掩码和 LayerNorm 拿捏!
· 3天前 ·
阅读原文
TTS-1技术报告:基于Transformer的文本转语音模型 - CodeShare
CodeShare · 3天前 ·
阅读原文
大模型技术人求生指南:你的Transformer和RAG知识正在过期
· 4天前 ·
阅读原文
从零学习大模型(5)——位置编码:让 AI 读懂 “语序” 的关键技术
红岸小兵 · 4天前 ·
阅读原文
搜索结果太乱?5种重排序模型让你的搜索系统准确率提升40%
· 5天前 ·
阅读原文
Transformer架构已经过时?Jamba、Mamba、RWKV…才是下一代的AI架构?
小张说 · 5天前 ·
阅读原文
从零学习大模型(1)——Transformer架构:原理、演进与AI领域的颠覆性影响
红岸小兵 · 6天前 ·
阅读原文
Transformer升级之路:从计算瓶颈出发,MLA如何实现理论上的“双优”?
苏剑林 · 1周前 ·
阅读原文
传统Transformer危!谷歌最新改进版内存减半推理速度还翻倍
· 1周前 ·
阅读原文
吴恩达免费课程!走进大语言模型的“大脑”:Transformer 工作机制详解
一起学习 · 1周前 ·
阅读原文
大模型知识全景图(一)
· 1周前 ·
阅读原文
ICML 2025 | Transformer还有救?魔改残差连接,MUDDFormer硬刚超深网络
让你更懂AI的 · 1周前 ·
阅读原文
阿里又出手!FantasyPortrait打造全新面部驱动引擎
弹贝斯的鱼 · 1周前 ·
阅读原文
聚类+Transformer完美结合!热点方向+创新机制=快速发表,快来抄作业
· 2周前 ·
阅读原文
获ICCV21最佳论文!一文解析让Transformer在一系列视觉任务上获得强大表现的Swin Transformer!!!
团队:DeepFinder · 2周前 ·
阅读原文
几乎解决所有大模型问题!外网已传疯!
小梦 · 2周前 ·
阅读原文
Transformer危!谷歌MoR架构发布:内存减半推理速度还翻倍
关注前沿科技 · 2周前 ·
阅读原文
「有望成为Transformer杀手」,谷歌DeepMind新架构MoR实现两倍推理速度
机器之心 · 2周前 ·
阅读原文
「有望成为Transformer杀手」,谷歌DeepMind新架构MoR实现两倍推理速度
· 2周前 ·
阅读原文
Transformer终结者!谷歌DeepMind全新MoR架构问世,新一代魔王来了
新智元 · 2周前 ·
阅读原文
揭秘大模型的魔法:从Transformer架构开始,一步步揭开它的神秘面纱
写代码的中年人 · 2周前 ·
阅读原文
Transformer+时间序列,强强联合!
小梦 · 2周前 ·
阅读原文
彻底改写Transformer!「能量驱动架构」横空出世,通用推理时代要来了?
新智元 · 2周前 ·
阅读原文
Transformer过时了!MIT液态神经网络LNN才是新趋势!
· 2周前 ·
阅读原文
Tokenization谢幕?H-Net登场:Mamba作者新作正面硬刚Transformer
· 2周前 ·
阅读原文
无Tokenizer时代真要来了?Mamba作者再发颠覆性论文,挑战Transformer
机器之心 · 2周前 ·
阅读原文
面试被要求手撕ROPE和Transformer,麻了~
宇宙哇 · 3周前 ·
阅读原文
无Tokenizer时代真要来了?Mamba作者再发颠覆性论文,挑战Transformer
· 3周前 ·
阅读原文
Transformer+特征融合:发论文的创新捷径,助你冲击顶会顶刊!
AI前沿速递 · 3周前 ·
阅读原文
ICML 2025 | Transformer 性能大提升:CCA-Attention 替代自注意力模块,LLM长文本建模突破
AI前沿速递 · 3周前 ·
阅读原文
ViTAR:模糊位置编码让视觉Transformer适配任意分辨率图像
P**nHub兄弟网站 · 3周前 ·
阅读原文
Transformer模型原理概述 - 归去_来兮
归去_来兮 · 3周前 ·
阅读原文
Meta新注意力机制给 Transformer 升了级!底层架构的革命!
AI前沿速递 · 3周前 ·
阅读原文
简单分高的发文策略:LSTM+Transformer+时间序列预测
· 3周前 ·
阅读原文
「Tokens是胡扯」,Mamba作者抛出颠覆性观点,揭露Transformer深层缺陷
· 3周前 ·
阅读原文
Mamba一作预告新架构!长文论述Transformer≠最终解法
关注前沿科技 · 3周前 ·
阅读原文
基于能量的Transformer横空出世!全面超越主流模型35%
关注前沿科技 · 3周前 ·
阅读原文
Transformer死角,只需500步后训练,循环模型突破256k长度泛化极限
机器之心 · 3周前 ·
阅读原文
Transformer死角,只需500步后训练,循环模型突破256k长度泛化极限
· 3周前 ·
阅读原文
新范式来了!新能量模型打破Transformer++扩展上限,训练扩展率快35%
机器之心 · 3周前 ·
阅读原文
新范式来了!新能量模型打破Transformer++扩展上限,训练扩展率快35%
· 3周前 ·
阅读原文
线性注意力简史:从模仿、创新到反哺
苏剑林 · 4周前 ·
阅读原文
盘一盘,2017年Transformer之后,LLM领域的重要论文
· 1个月前 ·
阅读原文
Nature子刊揭秘:Transformer+知识蒸馏引爆图像识别革命!优化模型!
AI前沿速递 · 1个月前 ·
阅读原文
大模型基本概念介绍 - Naylor
Naylor · 1个月前 ·
阅读原文
Nature+CVPR双杀!Transformer热度狂飙,何恺明、李飞飞都参与了
· 1个月前 ·
阅读原文
ICML 2025 | 打破何恺明“残差连接”瓶颈,MUDDFormer架构让Transformer又一次演进!
AI前沿速递 · 1个月前 ·
阅读原文
Flutter 里的 Asset Transformer 和 Hooks ,这个实验性功能有什么用
恋猫de小郭 · 1个月前 ·
阅读原文
Transformer时序预测哪些模块有效,哪些模块无效?模型内部运行原理深入分析
圆圆的算法笔记 · 1个月前 ·
阅读原文
盘一盘,2017年Transformer之后,LLM领域的重要论文
· 1个月前 ·
阅读原文
吃透Transformer,5大高频考点解析!
maggie · 1个月前 ·
阅读原文
2025年,CNN 与 Transformer “联姻”,医学图像迎来了大动作!
· 1个月前 ·
阅读原文
ICML 2025 | 打破残差连接瓶颈,彩云科技&北邮提出MUDDFormer架构让Transformer再进化!
机器之心 · 1个月前 ·
阅读原文
比Transformer还快?新型递归模型Comba横空出世,CV与NLP双双刷新SOTA!
AI前沿速递 · 1个月前 ·
阅读原文
Transformer是啥(说人话版),看完这篇你就悟了!
智泊AI · 1个月前 ·
阅读原文
Transformer-1. 功能概述(可视化通俗理解)
金朝老师来上课 · 1个月前 ·
阅读原文
Transformer-2. 它如何工作(可视化通俗理解)
金朝老师来上课 · 1个月前 ·
阅读原文
Transformer-4. 何汝秀(可视化通俗理解)
金朝老师来上课 · 1个月前 ·
阅读原文
Transformer-3. 多头注意力 (可视化通俗解释)
金朝老师来上课 · 1个月前 ·
阅读原文
为什么我不理解 transformer-2. 它如何工作
金朝老师来上课 · 1个月前 ·
阅读原文
为什么我不理解 transformer-1. 功能概述
金朝老师来上课 · 1个月前 ·
阅读原文
讲透一个强大算法模型,Transformer !!
cos大壮 · 1个月前 ·
阅读原文
工业级Transformer优化手册:混合精度训练+量化部署实战解析
AI大模型技术社 · 1个月前 ·
阅读原文
「答」LLMs 知识检查50题
OddFan · 1个月前 ·
阅读原文
准确率70.14%,多模态数据Transformer模型预测药物相互作用,使多药同服更安全
ScienceAI · 1个月前 ·
阅读原文
Transformer联手Diffusion!Soul开源AI生图新范式!
热爱AI的 · 1个月前 ·
阅读原文
Transformer 在具身智能“水土不服”,大模型强≠机器人强 | 万有引力
万有引力 · 1个月前 ·
阅读原文
Labubu换装记!让视频换装变得如此简单!基于扩散Transformer的视频虚拟试衣新突破
小G · 1个月前 ·
阅读原文
上岸双一区TOP!Transformer+时间序列
· 1个月前 ·
阅读原文
Transformer八子初创:AI横扫NP难题竞赛,Top 2%选手竟是智能体!
新智元 · 1个月前 ·
阅读原文
通透!从 RNN 到 Transformer !!
cos大壮 · 1个月前 ·
阅读原文
零基础解码Transformer与大模型核心原理
直播技术团队 · 1个月前 ·
阅读原文
零基础解码Transformer与大模型核心原理
· 1个月前 ·
阅读原文
Transformer和扩散模型这对AI组合,凭什么横扫多模态霸榜顶会?
AI前沿速递 · 1个月前 ·
阅读原文
挑战 Transformer 架构的谷歌最新扩散模型 Gemini Diffusion 系统提示词
云中江树 · 1个月前 ·
阅读原文
全球首次,Transformer「混血」速度狂飙65倍!英伟达已下注
新智元 · 1个月前 ·
阅读原文
Transformer架构介绍+从零搭建预训练模型项目
tokepson · 1个月前 ·
阅读原文
你应该懂的AI大模型(六)之 transformers - BricheersZ
BricheersZ · 1个月前 ·
阅读原文
字节Seed新作DeltaFormer: 下一代模型架构的尝试
· 1个月前 ·
阅读原文
手把手教你实现PyTorch版ViT:图像分类任务中的Transformer实战 - SkyXZ
SkyXZ · 1个月前 ·
阅读原文
Transformer八周年!Attention Is All You Need被引破18万封神
新智元 · 1个月前 ·
阅读原文
全面讲透,Transformer的5大核心优势 !!
cos大壮 · 1个月前 ·
阅读原文
突破Transformer!协同XGBoost时序预测 !!
cos大壮 · 1个月前 ·
阅读原文
LSTM+Transformer炸场!时空建模从「局部瞎子」到「全局透视」的革命!
AI前沿速递 · 1个月前 ·
阅读原文
文生图新架构!清华提出MADFormer!混合自回归与扩散的Transformer模型!
妙妙房 · 1个月前 ·
阅读原文
探秘Transformer系列之(36)--- 大模型量化方案 - 罗西的思考
罗西的思考 · 1个月前 ·
阅读原文
论文解读:Knowledge Neurons in Pretrained Transformers - 颀周
颀周 · 1个月前 ·
阅读原文
让AI有“内心戏”!英国副教授改进Transformer模拟人脑TPNs机制
北茗 · 1个月前 ·
阅读原文
Reading List: 那些成就 LLMs 的关键论文
OddFan · 1个月前 ·
阅读原文
谷歌Transformer过时了?清华姚班校友等三连击,爆改注意力!
新智元 · 1个月前 ·
阅读原文
SAR图像目标检测新高峰:R-Sparse R-CNN借BAPs、DCP与Transformer登顶 !
AI 引擎 · 1个月前 ·
阅读原文
讲透一个强大算法模型,Transformer !!
cos大壮 · 1个月前 ·
阅读原文
为什么我还是无法理解 Transformer?
吴师兄 · 1个月前 ·
阅读原文
搞不懂Transformer?那是你还不了解输入嵌入与位置编码!
学AI必备的 · 1个月前 ·
阅读原文
华人科学家发明「AI诊断笔」,手写识别帕金森病,准确率超95%
学术头条 · 1个月前 ·
阅读原文
微软等提出「模型链」新范式,与Transformer性能相当,扩展性灵活性更好
机器之心 · 1个月前 ·
阅读原文
微软等提出「模型链」新范式,与Transformer性能相当,扩展性灵活性更好
· 2个月前 ·
阅读原文
探秘Transformer系列之(35)--- 大模型量化基础 - 罗西的思考
罗西的思考 · 2个月前 ·
阅读原文
2025年,Mamba 与 Transformer “联姻”,视觉领域迎来了大动作!
AI前沿速递 · 2个月前 ·
阅读原文
登上Nature子刊!Transformer可解释性成为一区首选,创新思路竟如此easy!
· 2个月前 ·
阅读原文
Transformer不止自注意力!被低估的FFN才是架构的另一半真相!
智能体AI · 3个月前 ·
阅读原文
Transformer入门必读!从文本分词到输出概率的全解析
基咯咯 · 3个月前 ·
阅读原文
手都敲麻了,一文解析Transformer模型的基本原理与Pytorch代码实现。
算法工程师Future · 3个月前 ·
阅读原文
Andrej Karpathy为何选择了Transformer?
糯盐 · 3个月前 ·
阅读原文
快速理解热门LLM大语言模型
鹅厂程序员 · 3个月前 ·
阅读原文
告别「烧显卡」训练!上交大团队发布AutoGnothi:黑盒Transformer实现自我解释
张林峰 · 3个月前 ·
阅读原文
改进Transformer就能入选 CVPR!这份人人都能用的魔改Transformer创新点,学到就是赚到!
AI前沿速递 · 3个月前 ·
阅读原文
ICML 2025 | 又快又强的狮虎兽!仅20M词元微调,Transformer秒切线性RNN
让你更懂AI的 · 3个月前 ·
阅读原文
讲透一个强大算法模型,Transformer !!
cos大壮 · 3个月前 ·
阅读原文
KAN+Transformer,简单又很顶的联合思路,早上车早发高分!
· 3个月前 ·
阅读原文
Transformer,一个神奇算法模型!!
cos大壮 · 3个月前 ·
阅读原文
基于改进Transformer模型的高效残差网络复杂图像风格迁移技术研究及其实现 !
AI 引擎 · 3个月前 ·
阅读原文
探秘Transformer系列之(34)--- 量化基础 - 罗西的思考
罗西的思考 · 3个月前 ·
阅读原文
一文搞懂大模型的架构(Transformer)
AllenTang · 3个月前 ·
阅读原文
自注意力中簇的涌现
· 3个月前 ·
阅读原文
基于改进Transformer模型的高效残差网络复杂图像风格迁移技术研究及其实现 !
AI 引擎 · 3个月前 ·
阅读原文
arXiv:2410|注意力层中秩崩溃与信号传播的谱分析
· 3个月前 ·
阅读原文
下一代Transformer到底长啥样?
THU Markov · 3个月前 ·
阅读原文
GitHub星标3k+的AI实战宝典:从理论到竞赛一站式通关
知行合一日拱一卒 · 3个月前 ·
阅读原文
讲透一个强大算法模型,Transformer !!
cos大壮 · 3个月前 ·
阅读原文
BEV感知两大范式:LSS vs Transformer,到底谁更适合量产?
· 3个月前 ·
阅读原文
高置信度故障诊断论文学习 | 基于Transformer注意力不确定性的旋转机械故障诊断可信性研究
Jin · 3个月前 ·
阅读原文
5分钟解释Transformer,一个神奇的算法模型 !!
cos大壮 · 3个月前 ·
阅读原文
探秘Transformer系列之(33)--- DeepSeek MTP - 罗西的思考
罗西的思考 · 3个月前 ·
阅读原文
用生活例子解密DeepSeek/GPT的“大脑养成记”:AI婴儿到全能大师的底层原理
弋十三 · 3个月前 ·
阅读原文
视觉Transformer(ViT ):它凭什么超越CNN,看懂这篇文章你就什么都不缺了!
AI前沿速递 · 3个月前 ·
阅读原文
Transformer | 一文带你了解Embedding(从传统嵌入方法到大模型Embedding)
ShuYini · 3个月前 ·
阅读原文
ChatGPT+DeepSeek+Transformer:解锁Nature级论文的“写作密码
用户008 · 3个月前 ·
阅读原文
Transformer在高频交易中的应用:融合速度与智能
QuantML · 3个月前 ·
阅读原文
彻底搞懂!Transformer !!
cos大壮 · 3个月前 ·
阅读原文
连续思维机器来了!Transformer八子之一创企推出,让AI不再「一步到位」拍脑袋做决定
· 3个月前 ·
阅读原文
刚刚,“Transformer八子”之一创业团队提出“连续思维机器”:如人类推理般可解释,还能涌现新能力
· 3个月前 ·
阅读原文
杀疯了!融合LSTM与Transformer时间序列预测 !!
cos大壮 · 3个月前 ·
阅读原文
哈佛新论文揭示 Transformer 模型与人脑“同步纠结”全过程!AI也会犹豫、反悔?
文摘菌 · 3个月前 ·
阅读原文
GNN与Transformer创新结合!全局与局部的完美融合,模型性能起飞!
AI前沿速递 · 3个月前 ·
阅读原文
那些连Transformer都搞不懂的AI工程师和传统程序员没什么区别!
智能体AI · 3个月前 ·
阅读原文
突破Transformer!结合卡尔曼滤波轻松“水”SCI二区!
· 3个月前 ·
阅读原文
BEV感知两大范式:LSS vs Transformer,到底谁更适合量产?
Azure-MhLi · 3个月前 ·
阅读原文
斯坦福大学官方AI课程:NLP+深度神经网络+Transformer
· 3个月前 ·
阅读原文
CNN+Transformer+Mamba,多热点联合=不撞车+高分保证√
· 3个月前 ·
阅读原文
闲聊transformer
admin · 3个月前 ·
阅读原文
【機器學習2021】Transformer-李宏毅
artificiali · 3个月前 ·
阅读原文
精通DeepSeek?先搞定Transformer架构(四)——解析Transformer编码器的自注意力机制
智能体AI · 3个月前 ·
阅读原文
精通DeepSeek?先搞定Transformer架构(三)——编码器部分掩码张量(Masking)实现详解
智能体AI · 3个月前 ·
阅读原文
精通DeepSeek?先搞定Transformer架构(二)——输入部分如何让模型理解文本,带你全面掌握!
智能体AI · 3个月前 ·
阅读原文
精通DeepSeek?先搞定Transformer架构(一)——深入解析Transformer全流程!
智能体AI · 3个月前 ·
阅读原文
被Transformer光芒掩盖的论文,Meta科学家回顾十年前创新之作
· 3个月前 ·
阅读原文
不懂Transformer的AI产品经理,自己组织的会只能当观众!
智能体AI · 3个月前 ·
阅读原文
告别单一模型!2025年CNN与Transformer融合的创新思路!
AI前沿速递 · 4个月前 ·
阅读原文
基于混合 Transformer + GRU 的加密货币价格预测,多指标全面提升
灵度智能 · 4个月前 ·
阅读原文
AI产品经理的基础知识:一篇文章搞懂Transformer以及扩散模型
· 4个月前 ·
阅读原文
打破Transformer霸权!全新液态神经网络刷爆SOTA!
· 4个月前 ·
阅读原文
ICLR 2025 Oral|差分注意力机制引领变革,DIFF Transformer攻克长序列建模难题
机器之心 · 4个月前 ·
阅读原文
ICLR 2025 Oral|差分注意力机制引领变革,DIFF Transformer攻克长序列建模难题
· 4个月前 ·
阅读原文
字节Seed团队PHD-Transformer突破预训练长度扩展!破解KV缓存膨胀难题
机器之心 · 4个月前 ·
阅读原文
探秘Transformer系列之(31)--- Medusa - 罗西的思考
罗西的思考 · 4个月前 ·
阅读原文
字节Seed团队PHD-Transformer突破预训练长度扩展!破解KV缓存膨胀难题
· 4个月前 ·
阅读原文
从机器翻译开始了解Transformer架构
liz · 4个月前 ·
阅读原文
讲透一个强大算法模型,Transformer!!
cos大壮 · 4个月前 ·
阅读原文
面试题:Transformer为什么要有注意力机制?
杨沐白 · 4个月前 ·
阅读原文
从0构建大模型知识体系(4):大模型的爸爸Transformer
夜雨思晗 · 4个月前 ·
阅读原文
斯坦福发了个新的 Transformer 课程
· 4个月前 ·
阅读原文
探秘Transformer系列之(30)--- 投机解码 - 罗西的思考
罗西的思考 · 4个月前 ·
阅读原文
QKV讲不清,还敢在简历写"精通Transformer"?(优化版)
智能体AI · 4个月前 ·
阅读原文
Transformer原作打脸DeepSeek观点?一句Wait就能引发反思,RL都不用
新智元 · 4个月前 ·
阅读原文
「全球首个自回归视频生成大模型」,刚刚,Swin Transformer作者创业团队重磅开源!
机器之心 · 4个月前 ·
阅读原文
彻底搞懂!Transformer !!
cos大壮 · 4个月前 ·
阅读原文
高分利器:Transformer+图像处理!创新性绝了,3位 IEEE Fellow推荐的含金量!
· 4个月前 ·
阅读原文
突破Transformer,结合随机森林时序预测 !!
cos大壮 · 4个月前 ·
阅读原文
Transformer论文作者、Cohere创始人Aidan:没想到这架构这么多年没过时,当Agent能访问人类所有资源才更有用
JOJO白金之星 · 4个月前 ·
阅读原文
Transformer+Mamba黄金组合!长文推理性能飙升3倍,性能还更强
新智元 · 4个月前 ·
阅读原文
一跃成为大模型核心框架的Transformer,到底解决什么问题?
凉羽、青熙、纹路 · 4个月前 ·
阅读原文
探秘Transformer系列之(29)--- DeepSeek MoE - 罗西的思考
罗西的思考 · 4个月前 ·
阅读原文
Nature子刊,EPFL与上海交大用多模态Transformer精准预测全局最低吸附能,助力催化剂设计
ScienceAI · 4个月前 ·
阅读原文
比较全!回顾LLM发展史 | Transformer、蒸馏、MoE、思维链(CoT)
ShuCP · 4个月前 ·
阅读原文
QKV都讲不清,还敢在简历写“精通Transformer”?
智能体AI · 4个月前 ·
阅读原文
顶刊神思路!融合Transformer与CNN做医学图像!!
· 4个月前 ·
阅读原文
Jeff Dean演讲回顾LLM发展史,Transformer、蒸馏、MoE、思维链等技术都来自谷歌
机器之心 · 4个月前 ·
阅读原文
Jeff Dean演讲回顾LLM发展史,Transformer、蒸馏、MoE、思维链等技术都来自谷歌
· 4个月前 ·
阅读原文
突破Transformer,融合贝叶斯优化时序预测 !!
cos大壮 · 4个月前 ·
阅读原文
探秘Transformer系列之(28)--- DeepSeek MLA - 罗西的思考
罗西的思考 · 4个月前 ·
阅读原文
CVPR 2025 | 何恺明联手Yann LeCun,仅用9行代码就实现无需归一化的Transformer!
AI前沿速递 · 4个月前 ·
阅读原文
谷歌提出Transformer架构中,表示崩塌、过度压缩的5个解决方法
AIGC开放社区 · 4个月前 ·
阅读原文
从模型原理到代码实践,深入浅出上手Transformer,叩开大模型世界的大门
腾讯程序员 · 4个月前 ·
阅读原文
Transformer Pytorch实现(详细注释)
杨沐白 · 4个月前 ·
阅读原文
讲透一个强大算法模型,Transformer !!
cos大壮 · 4个月前 ·
阅读原文
图解 Transformer,一文吃透工作原理
Jay Alammar · 4个月前 ·
阅读原文
万字长文!一文了解归一化:从Transformer归一化到主流大模型归一化的演变!
ShuYini · 4个月前 ·
阅读原文
基于素描监督学习的医学图像分割多轴视觉 Transformer 边缘增强 !
AI 引擎 · 4个月前 ·
阅读原文
探秘Transformer系列之(27)--- MQA & GQA - 罗西的思考
罗西的思考 · 4个月前 ·
阅读原文
100 行代码,轻松构建 Transformer 模型
Stephen Diehl · 4个月前 ·
阅读原文
注意力机制-Transformer:深度学习的革命性架构
ALLINAI · 4个月前 ·
阅读原文
CVPR'25 | 多任务场景下的Transformer高效Finetune方法
· 4个月前 ·
阅读原文
基于素描监督学习的医学图像分割多轴视觉 Transformer 边缘增强 !
AI 引擎 · 4个月前 ·
阅读原文
探秘Transformer系列之(26)--- KV Cache优化---分离or合并 - 罗西的思考
罗西的思考 · 4个月前 ·
阅读原文
探秘Transformer系列之(25)--- KV Cache优化之处理长文本序列 - 罗西的思考
罗西的思考 · 4个月前 ·
阅读原文
探秘Transformer系列之(24)--- KV Cache优化 - 罗西的思考
罗西的思考 · 4个月前 ·
阅读原文
时间序列Transformer模型中灵活引入不同类型外部特征的方法
· 4个月前 ·
阅读原文
AmazingQuant :从0到1打造基于Transformer多模型融合的智能量化交易系统
AI炼金师 · 4个月前 ·
阅读原文
探秘Transformer系列之(23)--- 长度外推 - 罗西的思考
罗西的思考 · 4个月前 ·
阅读原文
Multi-Token突破注意力机制瓶颈,Meta发明了一种很新的Transformer
机器之心 · 4个月前 ·
阅读原文
探秘Transformer系列之(22)--- LoRA - 罗西的思考
罗西的思考 · 4个月前 ·
阅读原文
预测精度达93%,个人电脑可部署,科学家开发Transformer新方法预测结合蛋白
ScienceAI · 4个月前 ·
阅读原文
Transformer 通关秘籍7:词向量的通俗理解
董董灿是个攻城狮 · 4个月前 ·
阅读原文
探秘Transformer系列之(21)--- MoE
罗西的思考 · 5个月前 ·
阅读原文
探秘Transformer系列之(21)--- MoE - 罗西的思考
罗西的思考 · 5个月前 ·
阅读原文
探秘Transformer系列之(20)--- KV Cache - 罗西的思考
罗西的思考 · 5个月前 ·
阅读原文
探秘Transformer系列之(19)----FlashAttention V2 及升级版本
罗西的思考 · 5个月前 ·
阅读原文
探秘Transformer系列之(19)----FlashAttention V2 及升级版本 - 罗西的思考
罗西的思考 · 5个月前 ·
阅读原文
基于PyTorch 实现一个基于 Transformer 架构的字符级语言模型
不惑_ · 5个月前 ·
阅读原文
探秘Transformer系列之(18)--- FlashAttention
罗西的思考 · 5个月前 ·
阅读原文
探秘Transformer系列之(18)--- FlashAttention - 罗西的思考
罗西的思考 · 5个月前 ·
阅读原文
腾讯混元、英伟达都发混合架构模型,Mamba-Transformer要崛起吗?
机器之心 · 5个月前 ·
阅读原文
无需Attention的未来,RWKV-7能成为替代Transformer的那只黑天鹅吗?
周一笑 · 5个月前 ·
阅读原文
关于Transformer中Decoder模块是如何预测下一个字符的算法 - 一只会铲史的猫
一只会铲史的猫 · 5个月前 ·
阅读原文
「注意力实际上是对数的」?七年前的Transformer还有新发现,Karpathy点赞
机器之心 · 5个月前 ·
阅读原文
探秘Transformer系列之(17)--- RoPE
罗西的思考 · 5个月前 ·
阅读原文
探秘Transformer系列之(17)--- RoPE - 罗西的思考
罗西的思考 · 5个月前 ·
阅读原文
探秘Transformer系列之(16)--- 资源占用 - 罗西的思考
罗西的思考 · 5个月前 ·
阅读原文
探秘Transformer系列之(15)--- 采样和输出 - 罗西的思考
罗西的思考 · 5个月前 ·
阅读原文
探秘Transformer系列之(14)--- 残差网络和归一化 - 罗西的思考
罗西的思考 · 5个月前 ·
阅读原文
没有归一化层的Transformer!刘壮带队,何恺明、Yann LeCun都参与了
机器之心 · 5个月前 ·
阅读原文
探秘Transformer系列之(13)--- Feed-Forward Networks
· 5个月前 ·
阅读原文
探秘Transformer系列之(13)--- FFN - 罗西的思考
罗西的思考 · 5个月前 ·
阅读原文
探秘Transformer系列之(12)--- 多头自注意力 - 罗西的思考
罗西的思考 · 5个月前 ·
阅读原文
实战-基于Transformer生成文章标题
python算法笔记 · 5个月前 ·
阅读原文
探秘Transformer系列之(11)--- 掩码 - 罗西的思考
罗西的思考 · 5个月前 ·
阅读原文
Transformer原理详解
python算法笔记 · 5个月前 ·
阅读原文
探秘Transformer系列之(10)--- 自注意力 - 罗西的思考
罗西的思考 · 5个月前 ·
阅读原文
AI 学习之路(一)- 重新认识 AI
windyrain · 5个月前 ·
阅读原文
探秘Transformer系列之(9)--- 位置编码分类 - 罗西的思考
罗西的思考 · 5个月前 ·
阅读原文
探秘Transformer之(8)--- 位置编码 - 罗西的思考
罗西的思考 · 5个月前 ·
阅读原文
MIT三人团队:用Transformer解决经验贝叶斯问题,比经典方法快100倍
机器之心 · 6个月前 ·
阅读原文
Transformer架构+分子网络,MIT模型解码癌症系统生物学
ScienceAI · 6个月前 ·
阅读原文
探秘Transformer系列之(7)--- embedding - 罗西的思考
罗西的思考 · 6个月前 ·
阅读原文
Transformer革新药物研发:TRACER框架实现反应感知的分子设计与合成优化
ScienceAI · 6个月前 ·
阅读原文
探秘Transformer系列之(6)--- token - 罗西的思考
罗西的思考 · 6个月前 ·
阅读原文
探秘Transformer系列之(5)--- 训练&推理 - 罗西的思考
罗西的思考 · 6个月前 ·
阅读原文
探秘Transformer系列之(4)--- 编码器 & 解码器
罗西的思考 · 6个月前 ·
阅读原文
探秘Transformer系列之(4)--- 编码器 & 解码器 - 罗西的思考
罗西的思考 · 6个月前 ·
阅读原文
探秘Transformer系列之(3)---数据处理 - 罗西的思考
罗西的思考 · 6个月前 ·
阅读原文
比知识蒸馏好用,田渊栋等提出连续概念混合,再度革新Transformer预训练框架
机器之心 · 6个月前 ·
阅读原文
炒菜、雕刻、绘画、汽车人变形!MakeAnything用扩散Transformer解锁多任务过程生成
机器之心 · 6个月前 ·
阅读原文
Transformer 模型在 征程 6 平台上的高效支持
地平线开发者 · 6个月前 ·
阅读原文
探秘Transformer系列之(2)---总体架构 - 罗西的思考
罗西的思考 · 6个月前 ·
阅读原文
复旦团队提出Transformer生成的原子嵌入策略,可通过ML提高晶体特性的预测准确性
ScienceAI · 6个月前 ·
阅读原文
Transformer-Squared:停止微调 LLMs - 果冻人工智能
果冻人工智能 · 6个月前 ·
阅读原文
港大字节最新视频生成模型刷屏!网友直接RIP市场营销,Sora也不香了
西风 · 6个月前 ·
阅读原文
探秘Transformer系列之(1):注意力机制
罗西的思考 · 6个月前 ·
阅读原文
为什么大语言模型难以处理长上下文?从 Transformer 到 Mamba
· 6个月前 ·
阅读原文
Huggingface使用 - chaplinthink
chaplinthink · 6个月前 ·
阅读原文
×
加载中...