热门
最新
红包
立Flag
投票
同城
我的
发布
weixin_46088139
4 年前
trueweixin_46088139
新换了个账户,等那个清了,转过来再加油冲。美滋滋了。恩捷,大连起飞。六国,加油!👊
下一条:
Attention实际上干的两件事:(1)根据q、k将token排序;(2)根据排序的结果,对v的内容进行更新,即强调或者抑制。第一步如果是用加法呢;或者第一步用类似additive attention的additive ranking。第二步里用MLP处理两个token组成的pair,产生两个输出,一个数新表示,一个是value
立即登录