热门
最新
红包
立Flag
投票
同城
我的
发布
CSDN App 扫码分享
评论
8
- 复制链接
- 举报
下一条:
这篇来自Databricks和MIT的AI论文提出了一种基于困惑度的数据修剪方法:提升3B参数模型性能并增强语言模型来自Databricks、MIT和DatologyAI的研究人员引入了一种创新的数据修剪方法,使用小型参考模型来计算文本样本的困惑度。这个方法首先在数据的随机子集上训练一个小型模型,然后评估每个样本的困惑度。在这个背景下,困惑度衡量的是一个概率模型对样本的预测能力。较低的困惑度分数表明数据质量较高。通过关注困惑度最低的样本,研究人员可以修剪数据集,仅保留最相关的数据,从而提高在这些修剪后的数据上训练的大型模型的性能。该方法涉及将数据集分割为训练集和验证集,用于小型参考模型。这个模型通过标准的下一个标记预测目标进行训练,为数据集中的每个样本计算困惑度分数。然后基于这些分数修剪数据集,选择处于特定困惑度范围内的样本。例如,使用一个低选择标准来选择困惑度最低的样本。随后,这个修剪后的数据集被用来训练最终的较大模型,该模型从高质量数据中受益。这种方法的有效性在不同的数据集组成中得到了证明,包括由多样化策划领域组成的Pile和主要来源于网页爬取的数据集Dolma。文章:https://www.marktechpost.com/2024/06/04/this-ai-paper-from-databricks-and-mit-propose-perplexity-based-data-pruning-improving-3b-parameter-model-performance-and-enhancing-language-models/论文:https://arxiv.org/abs/2405.20541@Hvyntivka Mosina