热门
最新
红包
立Flag
投票
同城
我的
发布
NguyenPhuTrong
3 年前
trueweixin_37991483
2. 通过更低层的初始化,普通的知识蒸馏甚至可以胜过所有其他中间层的蒸馏目标!
3. 在不同初始化设置下,注意力传递在特定任务和通用任务设置下表现一致良好。
下一条:
1. 使用教师模型的较低层进行初始化,对于任务特定蒸馏的预测层和隐藏状态传输比较高层有明显改进,在QNLI上甚至获得了17.8个分数的提升。
立即登录