很多小伙伴第一次接触Transformer时，肯定也有跟小编-CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

人工智能研究所

3 年前

trueweixin_44782294

很多小伙伴第一次接触Transformer时，肯定也有跟小编一样的问题。什么是注意力机制？什么是QKV矩阵？为何需要QKV矩阵？QKV矩阵又是如何来的？为什么Q乘以K的转置就是注意力了？那为啥还要乘以V矩阵？
正为注意力机制头疼的时候，论文锋笔一转，来了个多头注意力机制，让本来就没有搞明白注意力机制的小伙伴更是一头雾水。
那到底该如何来理解以上的问题呢？整理了一些论文，也看了很多学习视频，终于打通了任督二脉，彻底了解了注意力机制的原理与多头注意力机制。
其实很多时候，并不是transformer模型有多高深的学问，而是我们对基础研究太少了，其中最重要的注意力机制，其实就是矩阵的乘法。我们对矩阵了解的太少了，对矩阵的乘法了解的也太少了，我们只知道如何来计算2个矩阵相乘，而对矩阵的应用却不了解。
当然你若对注意力机制感兴趣，或者一头雾水，可以参考动图详解transformer模型，来用动画的方式解析transformer注意力机制的原理#动图详解Transformer

CSDN App 扫码分享

分享

3

2

打赏

复制链接
举报

下一条：

越是见过世面的人,就越不会轻易对别人恶言相向。