admin 管理员组文章数量: 1184232
DL之Transformer:《The Illustrated Transformer—图解Transformer》翻译与解读
目录
Paper:《The Illustrated Transformer》翻译与解读
1、The Illustrated Transformer
2、A High-Level Look
3、Bringing The Tensors Into The Picture 将张量引入图像
4、Now We’re Encoding!
4.1、Self-Attention at a High Level
可视化Attention注意力机制机制原理
NLP之Attention:基于Tensor2Tensor库实现英语-德语的翻译并可视化翻译过程中的Attention注意力机制机制原理(包括输入、输出和各层的注意力权重)来帮助理解模型在翻译过程中的注意力分布/关注点
4.2、Self-Attention in Detail
第1步,生成3个向量
What are the “query”, “key”, and “value” vectors?
第2步,计算分数
第3步,将分数除以8
第4步,进行softmax操作
第5步 、值向量乘以softmax分数
第6步、对加权值向量求和得出self-attention的输出
4.3、Matrix Calculation of Self-Attention
第1步,计算Query矩阵、Key矩阵、Value矩阵
第2~6步,合成一个公式
4.4、The Beast With Many Heads 理解"多头兽"
一个图像理解self-attention
通过案例再次理解attention head
4.5、Representing The Order of The Sequence Using Positional Encoding—Transformer利用位置编码表征序列的顺序信息—来解决文本时序的问题
4.6、What might this pattern look like?
4.7、The Residual
5、The Decoder Side
6、The Final Linear and Softmax Layer 最后一个线性层+softmax层将输出浮点向量转为一个词
7、Recap Of Training
7.1、The Loss Function
法文翻译成英文—单词案例理解
如何比较两种概率分布?
法文翻译成英文—句子案例理解
如何选择最终输出?两种方法:greedy方法、beam search方法
8、Go Forth And Transform
9、Follow-up works:
Acknowledgements
Paper:《The Illustrated Transformer》翻译与解读
| 作者 |
本文标签: dl Transformer Illustrated
版权声明:本文标题:DL之Transformer:《The Illustrated Transformer—图解Transformer》翻译与解读 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://roclinux.cn/b/1758294493a3084063.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论