🔗https://redd.it/1cqr629这篇Red-CSDN blink-领先的开发者技术社区

这篇来自Cohere的人工智能论文通过自动检测LLM中未经训练的标记来增强语言模型的稳定性来自Cohere的研究人员介绍了一种新颖的方法，利用模型的嵌入权重来自动化和扩展检测未受训练标记。研究人员开发了一种方法来分析这些权重，以发现表明训练不足的异常。通过评估模型的嵌入矩阵，研究确定了其嵌入权重与那些良好代表标记的权重明显偏离的标记。该方法通过计算嵌入权重的方差和分布，并将其与充分训练标记的规范模型进行比较，提供了一种系统化的方法来定位故障标记。该研究通过将其应用于几个著名模型，包括谷歌的BERT和OpenAI的GPT系列的变体，展示了这种新方法的有效性。分析确定了标记器词汇的相当比例，在某些情况下高达10%，为未经训练。这些标记通常是专业化或不经常使用的词，展现了嵌入权重模式中最重要的差异。快速阅读:

https://www.marktechpost.com/2024/05/13/this-ai-paper-from-cohere-enhances-language-model-stability-with-automated-detection-of-under-trained-tokens-in-llms/

https://arxiv.org/abs/2405.05417@Cocohere1998