#机器学习#样本的选择,在以前的机器学习流行以模型为中心,但现在又有新的观点,就是以数据为中心。 西瓜书提到过样本偏差的问题,有点像幸存者偏差。举个例子,大家都说郊外有个别墅区有个老奶奶特别好,去到她家又是好吃的又是好喝的,各种热情招待,于是你去看她了,结果敲门来了个老爷爷,他拿着个斧头对你一轮咔嚓把你干掉。 原来别墅有两个人,一个老奶奶一个老爷爷,有一半人如果不幸碰到老爷爷是没法活着出来的,而另一半人碰到老奶奶而且活着出来的都会告诉你老奶奶人特别好,这就形成了幸存者偏差。 如果数据都来自于被老奶奶接待过的那批人,那最后的模型大抵是有问题的。 又比如我以前上某电商网站购物通常会看好评和差评的数据,如果差评和好评的比例恰当我还是会买的,一个好的产品不可能一点差评都没有。但事实上到了用户手上如果真不及格,用户可以申请七天无理由退款退货,这部分用户大抵不会给出什么差评。那能给出差评的是看到产品不合格又不退货,但又不会给出好评的那部分样本。你没达看到全面的数据。这对好产品还是坏产品的模型带来了破坏。