admin 管理员组

文章数量: 1184232

DL之Transformer:《The Illustrated Transformer—图解Transformer》翻译与解读

目录

Paper:《The Illustrated Transformer》翻译与解读

1、The Illustrated Transformer

2、A High-Level Look

3、Bringing The Tensors Into The Picture 将张量引入图像

4、Now We’re Encoding!

4.1、Self-Attention at a High Level

可视化Attention注意力机制机制原理

NLP之Attention:基于Tensor2Tensor库实现英语-德语的翻译并可视化翻译过程中的Attention注意力机制机制原理(包括输入、输出和各层的注意力权重)来帮助理解模型在翻译过程中的注意力分布/关注点

4.2、Self-Attention in Detail

第1步,生成3个向量

What are the “query”, “key”, and “value” vectors?

第2步,计算分数

第3步,将分数除以8

第4步,进行softmax操作

第5步 、值向量乘以softmax分数

第6步、对加权值向量求和得出self-attention的输出

4.3、Matrix Calculation of Self-Attention

第1步,计算Query矩阵、Key矩阵、Value矩阵

第2~6步,合成一个公式

4.4、The Beast With Many Heads 理解"多头兽"

一个图像理解self-attention

通过案例再次理解attention head

4.5、Representing The Order of The Sequence Using Positional Encoding—Transformer利用位置编码表征序列的顺序信息—来解决文本时序的问题

4.6、What might this pattern look like?

4.7、The Residual

5、The Decoder Side

6、The Final Linear and Softmax Layer 最后一个线性层+softmax层将输出浮点向量转为一个词

7、Recap Of Training

7.1、The Loss Function

法文翻译成英文—单词案例理解

如何比较两种概率分布?

法文翻译成英文—句子案例理解

如何选择最终输出?两种方法:greedy方法、beam search方法

8、Go Forth And Transform

9、Follow-up works:

Acknowledgements


Paper:《The Illustrated Transformer》翻译与解读

作者

本文标签: dl Transformer Illustrated