Attention实际上干的两件事:(1)根据q、k将token排序;(2)根据排序的结果,对v的内容进行更新,即强调或者抑制。第一步如果是用加法呢;或者第一步用类似additive attention的additive ranking。第二步里用MLP处理两个token组成的pair,产生两个输出,一个数新表示,一个是value