Attention实际上干的两件事：（1）根据q、k将tok-CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

「已注销」

4 年前

trueqq18380185835

Attention实际上干的两件事：（1）根据q、k将token排序；（2）根据排序的结果，对v的内容进行更新，即强调或者抑制。第一步如果是用加法呢；或者第一步用类似additive attention的additive ranking。第二步里用MLP处理两个token组成的pair，产生两个输出，一个数新表示，一个是value

CSDN App 扫码分享

分享

评论

点赞

打赏

复制链接
举报

下一条动态