热门
最新
红包
立Flag
投票
同城
我的
发布
《【NLP自然语言处理】深入探索Self-Attention:自注意力机制详解》
训练上的意义: 随着词嵌入维度d_k的增大, q * k 点积后的结果也会增大, 在训练时会将softmax函数推入梯度非常小的区域, 可能出现梯度消失的现象, 造成模型收敛困难.数学上的意义: 假设q和k的统计变量是满足标准正态分布的独立随机变量, 意味着q和k满足均值为0, 方差为1. 那么q和k的点积结果就是均值为0, 方差为d_k, 为了抵消这种方差被放大d_k倍的影响, 在计算中主动将点积缩放1/sqrt(d_k), 这样点积后的结果依然满足均值为0, 方差为1.
——来自博客 https://blog.csdn.net/2301_76820214/article/details/143605549
您认为本文质量如何?(单选)
5 人已经参与 已结束
优秀
5人
一般
0人
还需改进
0人
CSDN App 扫码分享
评论
点赞
- 复制链接
- 举报
