谢谢-CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

4 年前

truem0_47235200

谢谢

CSDN App 扫码分享

分享

评论

点赞

打赏

复制链接
举报

下一条：

#机器学习#样本的选择，在以前的机器学习流行以模型为中心，但现在又有新的观点，就是以数据为中心。西瓜书提到过样本偏差的问题，有点像幸存者偏差。举个例子，大家都说郊外有个别墅区有个老奶奶特别好，去到她家又是好吃的又是好喝的，各种热情招待，于是你去看她了，结果敲门来了个老爷爷，他拿着个斧头对你一轮咔嚓把你干掉。原来别墅有两个人，一个老奶奶一个老爷爷，有一半人如果不幸碰到老爷爷是没法活着出来的，而另一半人碰到老奶奶而且活着出来的都会告诉你老奶奶人特别好，这就形成了幸存者偏差。如果数据都来自于被老奶奶接待过的那批人，那最后的模型大抵是有问题的。又比如我以前上某电商网站购物通常会看好评和差评的数据，如果差评和好评的比例恰当我还是会买的，一个好的产品不可能一点差评都没有。但事实上到了用户手上如果真不及格，用户可以申请七天无理由退款退货，这部分用户大抵不会给出什么差评。那能给出差评的是看到产品不合格又不退货，但又不会给出好评的那部分样本。你没达看到全面的数据。这对好产品还是坏产品的模型带来了破坏。