再补充一下:不同的evaluation metrics对比1. Accuracy: 容易遇到accuracy paradox:当数据不均衡时,例如负样本是大多数,则没有参考意义。2. F1-score: 兼顾了recall和precision,做了调和平均,但当对两者有偏好时也不好用3. ROC AUC:主要的好处在于这个指标与数据正负样本的分布无关(是样本分布的条件分布)。所以适用于样本不均衡时。recall分母只与正样本有关。FPR分母只与负样本有关。所以二者不受样本分布的影响4. Precision-Recall Curve:样本分布变化时,curve也会受之影响。