首页编程正文内容

DL之Transformer：《The Illustrated Transformer—图解Transformer》翻译与解读

编程

更新时间：2026-05-08 17:10:27 89

admin 管理员组

文章数量: 1184232

DL之Transformer：《The Illustrated Transformer—图解Transformer》翻译与解读

Paper：《The Illustrated Transformer》翻译与解读

1、The Illustrated Transformer

2、A High-Level Look

3、Bringing The Tensors Into The Picture 将张量引入图像

4、Now We’re Encoding!

4.1、Self-Attention at a High Level

可视化Attention注意力机制机制原理

NLP之Attention：基于Tensor2Tensor库实现英语-德语的翻译并可视化翻译过程中的Attention注意力机制机制原理(包括输入、输出和各层的注意力权重)来帮助理解模型在翻译过程中的注意力分布/关注点

4.2、Self-Attention in Detail

第1步，生成3个向量

What are the “query”, “key”, and “value” vectors?

第2步，计算分数

第3步，将分数除以8

第4步，进行softmax操作

第5步、值向量乘以softmax分数

第6步、对加权值向量求和得出self-attention的输出

4.3、Matrix Calculation of Self-Attention

第1步，计算Query矩阵、Key矩阵、Value矩阵

第2~6步，合成一个公式

4.4、The Beast With Many Heads 理解"多头兽"

一个图像理解self-attention

通过案例再次理解attention head

4.5、Representing The Order of The Sequence Using Positional Encoding—Transformer利用位置编码表征序列的顺序信息—来解决文本时序的问题

4.6、What might this pattern look like?

4.7、The Residual

5、The Decoder Side

6、The Final Linear and Softmax Layer 最后一个线性层+softmax层将输出浮点向量转为一个词

7、Recap Of Training

7.1、The Loss Function

法文翻译成英文—单词案例理解

如何比较两种概率分布?

法文翻译成英文—句子案例理解

如何选择最终输出？两种方法：greedy方法、beam search方法

8、Go Forth And Transform

9、Follow-up works:

Acknowledgements

Paper：《The Illustrated Transformer》翻译与解读

作者

本文标签： dl Transformer Illustrated

版权声明：本文标题：DL之Transformer：《The Illustrated Transformer—图解Transformer》翻译与解读内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://roclinux.cn/b/1758294493a3084063.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

dl

编程

2023-6-12

chatGTP的全称Chat Generative Pre-trained Transformer

编程

2024-8-23

[db:摘要]

chatGPT 背后的技术之 Transformer 详解

编程

2024-12-23

chatGPT 来自于 GPT3.5, GPT3.5 是在GPT3 的基础上做微调，而GPT3基于GPT2, GPT2基于GPT1, GPT1 最终是基于 Transformer。 Transformer 其实不仅

如何在photoshop中应用3DLUT预设？ps怎么安装.3dl、.look、.cube预设？

编程

2025-2-1

ps预设包含很多格式，今天小编具体介绍3dl、.look、.cube这三种格式的安装！大家用户在网上下载的预设包里很多都含着多种文件格式，那么预设文件怎么安装呢&#x

SAMformer的浅层轻量级Transformer模型

编程

9月前

论文《Unlocking the Potential of Transformers in Time Series Forecasting》提出了一种名为SAMformer的浅层轻量级Transformer模型，旨在解

Windows10装mmcv-full（用于Swin Transformer）

编程

9月前

1 为防止其他问题，先装C 生成工具按照这个文章，先装Microsoft C Build Tools中的C 生成工具。 2 根据你的cuda版本和pytorch版本下载whl文件我的是c

大模型微调实战之 Transformer 强化学习（TRL Reinforcement Learning）（三）Proximal Policy Optimization

编程

9月前

大模型微调实战之 Transformer 强化学习（TRL Reinforcement Learning）（三）Proximal Policy Optimization Proximal Policy Optimization 这是一个

【剑指offer】高频MLDL面试题

编程

9月前

学习心得 （1）机器学习、深度学习、强化学习blabla很多内容都是面试的重点，本文结合菜鸡自身学习过程持续更新。 （2）如有不

Structure-Aware Transformer for Graph Representation Learning 简单笔记

编程

8月前

SAT 2022Motivations1、Transformer with positional encoding do not necessarily capture structural similarity between the

博文The Illustrated Transformer 的PDF格式

编程

7月前

广受好评的The Illustrated Transformer一文以图解的形式清晰讲解了Transformer的各个细节，但原博是外网的，我在网上搜了下并没有发现该篇文章的PDF格式&#

transformer的理解思路

编程

7月前

整理transformer容易理解(可能质量不会太好，但肯定容易理解)的一些文章1.embedinghttps:chriszou20190629embedding-explained通俗的方式解释了

图文并茂解释Transformer--The Illustrated Transformer翻译精简

编程

7月前

原文链接https:jalammar.github.ioillustrated-transformer 所需知识储备: RNN, Seq2Seq序列模型，Residual残差计算... 自从Attention is All yo

CV之DL之YoloV4：《YOLOv4: Optimal Speed and Accuracy of Object Detection》的翻译与解读

编程

7月前

CV之DL之YoloV4：《YOLOv4: Optimal Speed and Accuracy of Object Detection》的翻译与解读目录 YOLOv4的评价 1、四个改进和一个创新相关论文

CV之DL之YoloV3：《YOLOv3: An Incremental Improvement》的翻译与解读

编程

7月前

CV之DL之YoloV3：《YOLOv3: An Incremental Improvement》的翻译与解读目录相关论文《YOLOv3: An Incremental Improvement》翻译与解读

A Comprehensive Guide to Transformer-based Natural Language Processing with Examples

编程

7月前

文章目录 A Comprehensive Guide to Transformer-based Natural Language Processing with Examples 结论与展望 A Comprehensive Guide to

[综述笔记]Comprehensive review of Transformer-based models in neuroscience, neurology, and psychiatry

编程

7月前

论文网址：Comprehensive review of Transformer‐based models in neuroscience, neurology, and psychiatry - Cong - 202

dl的环境好难配啊！miniconda+pycharm+python+pytorchjupyter+cuda在windows环境下的安装

编程

5月前

理解这一堆东西都是什么版本之间有什么制约 ┌───────────────────────────────┐│MinicondaConda││- 管理虚拟环境│

【即插即用模块】Transformer篇 | ArXiv 2025 | Iwin-Transformer，Swin-Transformer的进一步改进，可替代任意Trans块实现涨点改进创新

编程

4月前

VX: shixiaodayyds，备注【即插即用】，添加即插即用模块交流群。文章目录模块出处模块介绍模块提出的动机（Motivation）：适用范围模块代码及使用方式模块出处 Paper：Iwin Transformer:

Transformer实战（5）——Hugging Face环境配置与应用详解

编程

4月前

Transformer实战（5）——Hugging Face环境配置与应用详解 0. 前言 1. 安装 transformers 1.1 安装 Anaconda 1.2 安装 TensorFlow、PyTorch 和 Transformer

如何训练一个简单的Transformer模型（附源码）李宏毅2025大模型-作业4

编程

4月前

摘要： 一、作业目标：使用只有2层transformer的GPT-2，生成完整宝可梦图像。二、源码&解析：使用提供的Transformer

发表评论

全部评论 0

暂无评论

Linux大棚 – 不忘初心的技术博客，浮躁时代的安静角落

DL之Transformer：《The Illustrated Transformer—图解Transformer》翻译与解读

Paper：《The Illustrated Transformer》翻译与解读

更多相关文章

dl

chatGTP的全称Chat Generative Pre-trained Transformer

chatGPT 背后的技术 之 Transformer 详解

如何在photoshop中应用3DLUT预设？ps怎么安装.3dl、.look、.cube预设？

SAMformer的浅层轻量级Transformer模型

Windows10装mmcv-full（用于Swin Transformer）

大模型微调实战之 Transformer 强化学习（TRL Reinforcement Learning）（三）Proximal Policy Optimization

【剑指offer】高频MLDL面试题

Structure-Aware Transformer for Graph Representation Learning 简单笔记

博文The Illustrated Transformer 的PDF格式

transformer的理解思路

图文并茂解释Transformer--The Illustrated Transformer翻译精简

CV之DL之YoloV4：《YOLOv4: Optimal Speed and Accuracy of Object Detection》的翻译与解读

CV之DL之YoloV3：《YOLOv3: An Incremental Improvement》的翻译与解读

A Comprehensive Guide to Transformer-based Natural Language Processing with Examples

[综述笔记]Comprehensive review of Transformer-based models in neuroscience, neurology, and psychiatry

dl的环境好难配啊！miniconda+pycharm+python+pytorchjupyter+cuda在windows环境下的安装

【即插即用模块】Transformer篇 | ArXiv 2025 | Iwin-Transformer，Swin-Transformer的进一步改进，可替代任意Trans块实现涨点改进创新

Transformer实战（5）——Hugging Face环境配置与应用详解

如何训练一个简单的Transformer模型（附源码）李宏毅2025大模型-作业4

发表评论

推荐文章

如何实现U盘低格？这样操作快速搞定！_u盘可以低格吗

Microsoft Toolkit - Official KMS Solution for Microsoft Products_microsoft toolkit2.6.4

IP与MAC地址解析

博客资源与图片替换指南

CentOS新手必备：RTL8192EU无线USB网卡驱动安装方法分享

热门文章

Vob与MPEG PS：视频世界的两面镜像

掌握快速关机技巧，优化Adobe Flash Player体验

initialization failure0x0000000c问题_initialization failure:0脳0000000c

cpu使用率,CPU使用率指的是什么_电脑性能利用率什么意思

如何在WPS打开的word、excel文件中，使用AI？_officeai.exe

怎么解决在打开Visual Studio时的报错“无法找到一个或多个组件”_visual studio找不到一个或多个组件

CPU温度过高导致性能下降如何解决？_编程语言-问答

提升电脑运行速度的四大方法

.net framework 3.5win10无法安装，一招解决win10无法安装.NET Framework 3.5_win10netframework35安装失败完美解决

苹果电脑mac桌面上出现关不掉的黑框白框 解决办法_mac 桌面黑边变大

最新文章

一文教会你AIX系统备份：mksysb实用指南

SWF文件备份失败？这些步骤让你轻松搞定

Win10系统备份轻松搞定：掌握captureimage命令的关键技巧

Linux系统安全小贴士：掌握备份与恢复，安心每一天

省时省心！三步完成电脑系统高效备份！

Ubuntu系统维护秘籍：备份步骤详解，保护你的劳动成果！

Linux系统不哭：高效备份与快速恢复方案

Ubuntu系统安全大计，备份技巧大公开

GHOST教程：系统备份和还原，小白也能变成高手！

Linux备份与恢复必修课：SWF文件安全策略从入门到精通

Exploring the Finest Accommodations: A Comprehensive Guide to Ruston LA Hotels

The Enchanting Experience of ScaliniTella NYC: A Culinary Gem in the Heart of Manhattan

Exploring the Exquisite Aloft Chicago O'Hare: A Blend of Modern Luxury and Convenience

A Culinary Journey: Discovering the Finest Dining Experiences in Waco, TX

A Culinary Journey: Discovering the Finest Dining Experiences in Athens, GA

电脑设备管理器在哪里？一次让我抓狂又兴奋的寻找经历

与GWX的持久战：一段关于Windows10升级弹窗的私人记忆

以管理员身份运行：那些年我们追过的权限与踩过的坑

chatGPT 背后的技术之 Transformer 详解

苹果电脑mac桌面上出现关不掉的黑框白框解决办法_mac 桌面黑边变大