跨越模态：利用视觉提示突破大语言模型的创新人工智能方法快速阅-CSDN blink-领先的开发者技术社区

这篇来自Databricks和MIT的AI论文提出了一种基于困惑度的数据修剪方法：提升3B参数模型性能并增强语言模型来自Databricks、MIT和DatologyAI的研究人员引入了一种创新的数据修剪方法，使用小型参考模型来计算文本样本的困惑度。这个方法首先在数据的随机子集上训练一个小型模型，然后评估每个样本的困惑度。在这个背景下，困惑度衡量的是一个概率模型对样本的预测能力。较低的困惑度分数表明数据质量较高。通过关注困惑度最低的样本，研究人员可以修剪数据集，仅保留最相关的数据，从而提高在这些修剪后的数据上训练的大型模型的性能。该方法涉及将数据集分割为训练集和验证集，用于小型参考模型。这个模型通过标准的下一个标记预测目标进行训练，为数据集中的每个样本计算困惑度分数。然后基于这些分数修剪数据集，选择处于特定困惑度范围内的样本。例如，使用一个低选择标准来选择困惑度最低的样本。随后，这个修剪后的数据集被用来训练最终的较大模型，该模型从高质量数据中受益。这种方法的有效性在不同的数据集组成中得到了证明，包括由多样化策划领域组成的Pile和主要来源于网页爬取的数据集Dolma。文章：

https://www.marktechpost.com/2024/06/04/this-ai-paper-from-databricks-and-mit-propose-perplexity-based-data-pruning-improving-3b-parameter-model-performance-and-enhancing-language-models/

https://arxiv.org/abs/2405.20541@Hvyntivka