fp16 大了小了都不行,我们跑李宏毅组的MMA,把scale去掉就不会nan了。之前我们把dropout的inplace=True改成False才可以跑fp32。前面配置环境的情况,主要就是fairseq要按照对应的git check