刚帮群里的一个老哥解决一个Bart模型生成的损失为0的问题。给他找到了原因。发现是他对Bart训练的方式不理解,把target放到input中了,最后导致损失为0.简单总结一下:损失为0 => 可能标签泄漏