热门

最新

红包

立Flag

投票

同城

我的

发布
weixin_37991483
NguyenPhuTrong
3 年前
trueweixin_37991483

1. 使用教师模型的较低层进行初始化,对于任务特定蒸馏的预测层和隐藏状态传输比较高层有明显改进,在QNLI上甚至获得了17.8个分数的提升。

CSDN App 扫码分享
分享
评论
10
  • 复制链接
  • 举报
下一条:
有人对微调Pythia模型的良好超参数范围有直觉吗? @极速交通 @Herizack
立即登录