热门
最新
红包
立Flag
投票
同城
我的
发布
这篇来自Cohere的人工智能论文通过自动检测LLM中未经训练的标记来增强语言模型的稳定性
来自Cohere的研究人员介绍了一种新颖的方法,利用模型的嵌入权重来自动化和扩展检测未受训练标记。研究人员开发了一种方法来分析这些权重,以发现表明训练不足的异常。通过评估模型的嵌入矩阵,研究确定了其嵌入权重与那些良好代表标记的权重明显偏离的标记。该方法通过计算嵌入权重的方差和分布,并将其与充分训练标记的规范模型进行比较,提供了一种系统化的方法来定位故障标记。
该研究通过将其应用于几个著名模型,包括谷歌的BERT和OpenAI的GPT系列的变体,展示了这种新方法的有效性。分析确定了标记器词汇的相当比例,在某些情况下高达10%,为未经训练。这些标记通常是专业化或不经常使用的词,展现了嵌入权重模式中最重要的差异。
快速阅读: https://www.marktechpost.com/2024/05/13/this-ai-paper-from-cohere-enhances-language-model-stability-with-automated-detection-of-under-trained-tokens-in-llms/
论文: https://arxiv.org/abs/2405.05417
@Cocohere1998
CSDN App 扫码分享
评论
10
- 复制链接
- 举报
下一条:
OpenAI发布了GPT-4o,用于增强互动性,并为ChatGPT免费用户提供多种免费工具OpenAI的研究团队开发了GPT-4o,这是一种集文本、音频和视觉数据处理能力于一体的最新模型。因其全面功能而被称为“omni”,GPT-4o经过设计,可将响应延迟大幅缩短至平均320毫秒,与人类在对话中的反应时间非常接近。这种集成允许人工智能有效地解释和生成多种格式的信息,使其能够处理以往对分段模型具有挑战性的复杂互动场景。GPT-4o尤其值得注意的是其集成功能,极大地增强了用户互动。例如:✅ 它允许用户拍摄一张外语文本的照片,并即时获得翻译和关于文本的上下文信息。✅ 该模型支持更自然的语音交互,并很快将支持实时视频对话,使用户能够在比赛期间接收关于运动规则的现场解释。快速浏览: https://www.marktechpost.com/2024/05/13/openai-released-gpt-4o-for-enhanced-interactivity-and-many-free-tools-for-chatgpt-free-users/详情: https://openai.com/index/hello-gpt-4o/@懒得和狗讲道理