很多小伙伴第一次接触Transformer时,肯定也有跟小编一样的问题。什么是注意力机制?什么是QKV矩阵?为何需要QKV矩阵?QKV矩阵又是如何来的?为什么Q乘以K的转置就是注意力了?那为啥还要乘以V矩阵?
正为注意力机制头疼的时候,论文锋笔一转,来了个多头注意力机制,让本来就没有搞明白注意力机制的小伙伴更是一头雾水。
那到底该如何来理解以上的问题呢?整理了一些论文,也看了很多学习视频,终于打通了任督二脉,彻底了解了注意力机制的原理与多头注意力机制。
其实很多时候,并不是transformer模型有多高深的学问,而是我们对基础研究太少了,其中最重要的注意力机制,其实就是矩阵的乘法。我们对矩阵了解的太少了,对矩阵的乘法了解的也太少了,我们只知道如何来计算2个矩阵相乘,而对矩阵的应用却不了解。
当然你若对注意力机制感兴趣,或者一头雾水,可以参考动图详解transformer模型 ,来用动画的方式解析transformer注意力机制的原理#动图详解Transformer