热门
最新
红包
立Flag
投票
同城
我的
发布
xxaxtt
4 年前
truewxgaws
纯MLP模型,如何加入多头注意力?不同头学习不同的模式,有些关注局部,有些关注整体。将transformer中两层全部换成MSA,效果如何?
下一条:
转发
立即登录