偏差与方差
这两个对立因素之间的权衡可能会给机器学习带来很多麻烦。
现在我们将直观地探索它们是如何工作的。 🔽
让我们首先澄清它们:
1 ️⃣偏差
偏差是通过使用简化模型来近似现实世界问题而引入的误差。
它是正确值和预测值之间的差异。
具有高偏差的模型过度简化了数据中的关系。这个问题也称为欠拟合。预测将与目标相去甚远。
低偏差模型可以灵活地捕获数据中的复杂模式和关系。
2 ️⃣方差
方差是指模型对训练数据波动的敏感性。
具有高方差的模型过于复杂,并且会捕获训练集中的噪声和随机变化。这是典型的过度拟合。
过度拟合的模型可能可以很好地拟合训练数据,但无法推广到新数据。预测很少是正确的。
方差低的模型对波动和噪声不太敏感。
偏差与方差的权衡
存在这种权衡是因为偏差和方差呈反相关。
这意味着随着偏差的减小,其方差往往会增加,反之亦然。
为了减少偏差,模型需要更复杂的数据来拟合。但另一方面这又增加了方差。
另一方面,为了避免过度拟合,我们需要简化模型,这可能会导致偏差。
结论:
在偏差和方差之间找到适当的平衡对于开发一个能够很好地概括未知数据的模型至关重要。