热门

最新

红包

立Flag

投票

同城

我的

发布
2301_76820214
小言从不摸鱼
2 年前
true2301_76820214

《【NLP自然语言处理】深入探索Self-Attention:自注意力机制详解》
训练上的意义: 随着词嵌入维度d_k的增大, q * k 点积后的结果也会增大, 在训练时会将softmax函数推入梯度非常小的区域, 可能出现梯度消失的现象, 造成模型收敛困难.数学上的意义: 假设q和k的统计变量是满足标准正态分布的独立随机变量, 意味着q和k满足均值为0, 方差为1. 那么q和k的点积结果就是均值为0, 方差为d_k, 为了抵消这种方差被放大d_k倍的影响, 在计算中主动将点积缩放1/sqrt(d_k), 这样点积后的结果依然满足均值为0, 方差为1.
——来自博客
https://blog.csdn.net/2301_76820214/article/details/143605549

您认为本文质量如何?(单选)
5 人已经参与 已结束
优秀
5人
一般
0人
还需改进
0人
CSDN App 扫码分享
分享
评论
点赞
  • 复制链接
  • 举报
下一条:
立即登录