热门
最新
红包
立Flag
投票
同城
我的
发布
NguyenPhuTrong
3 年前
trueweixin_37991483
1. 使用教师模型的较低层进行初始化,对于任务特定蒸馏的预测层和隐藏状态传输比较高层有明显改进,在QNLI上甚至获得了17.8个分数的提升。
下一条:
有人对微调Pythia模型的良好超参数范围有直觉吗? @极速交通 @Herizack
立即登录