很多人拿GPT来说事,比如1750亿参数量的GPT-3,训练数据才区区570GB!570GB啥概念?几百块钱的U盘都能装下。570GB不假,但人家没告诉你的是:这个570GB是经过层层提纯得到的,这些数据在未经清洗之前,是45TB。而这个45TB,要攒起来可相当不容易,那是从PB级的原始数据、各种五花八门的源头采集过来的。