ELECTRA更关注识别,而不是生成;像BERT这种其实是生成,从mask的输入预测原始输入。https://blog.csdn.net/zephyr_wang/article/details/115415410