热门

最新

红包

立Flag

投票

同城

我的

发布
weixin_37991483
NguyenPhuTrong
3 年前
trueweixin_37991483

2. 通过更低层的初始化,普通的知识蒸馏甚至可以胜过所有其他中间层的蒸馏目标!
3. 在不同初始化设置下,注意力传递在特定任务和通用任务设置下表现一致良好。

CSDN App 扫码分享
分享
评论
9
  • 复制链接
  • 举报
下一条:
1. 使用教师模型的较低层进行初始化,对于任务特定蒸馏的预测层和隐藏状态传输比较高层有明显改进,在QNLI上甚至获得了17.8个分数的提升。
立即登录