《【NLP自然语言处理】深入探索Self-Attention-CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

小言从不摸鱼

2 年前

true2301_76820214

《【NLP自然语言处理】深入探索Self-Attention：自注意力机制详解》
训练上的意义: 随着词嵌入维度d_k的增大, q * k 点积后的结果也会增大, 在训练时会将softmax函数推入梯度非常小的区域, 可能出现梯度消失的现象, 造成模型收敛困难.数学上的意义: 假设q和k的统计变量是满足标准正态分布的独立随机变量, 意味着q和k满足均值为0, 方差为1. 那么q和k的点积结果就是均值为0, 方差为d_k, 为了抵消这种方差被放大d_k倍的影响, 在计算中主动将点积缩放1/sqrt(d_k), 这样点积后的结果依然满足均值为0, 方差为1.
——来自博客 https://blog.csdn.net/2301_76820214/article/details/143605549

您认为本文质量如何？(单选)

5 人已经参与已结束

优秀

5人

一般

0人

还需改进

0人

CSDN App 扫码分享

分享

评论

点赞

复制链接
举报

下一条：