热门

最新

红包

立Flag

投票

同城

我的

发布
qq18380185835
「已注销」
4 年前
trueqq18380185835

Attention实际上干的两件事:(1)根据q、k将token排序;(2)根据排序的结果,对v的内容进行更新,即强调或者抑制。第一步如果是用加法呢;或者第一步用类似additive attention的additive ranking。第二步里用MLP处理两个token组成的pair,产生两个输出,一个数新表示,一个是value

CSDN App 扫码分享
分享
评论
点赞
打赏
  • 复制链接
  • 举报
下一条动态
立即登录