热门
最新
红包
立Flag
投票
同城
我的
发布
「在语言建模中学习跳过token」
地址:https://arxiv.org/abs/2311.15436v1
过参数化的大规模语言模型在上下文少样本学习中具有令人印象深刻的泛化性能。然而,大多数语言模型将相同数量的参数或计算分配给每个token,忽略了输入数据的复杂性或重要性。我们认为,在语言模型预训练中,应该为不同的token分配不同数量的计算,并且可以通过简单的路由机制高效实现。与传统的早停技术不同,其中token只能在早期层次提前退出,我们提出了一种更通用的方法,使用二进制路由器动态跳过任何输入token的层次(或模块)执行。在我们对24个自然语言处理任务的广泛评估中,我们证明了所提出的方法可以显着提高1-shot性能,与其他竞争基准相比,仅额外消耗轻微的推理成本。
AI资讯
CSDN App 扫码分享
2
4
打赏
- 复制链接
- 举报
下一条:
「数据多样性对于稳健指令微调很重要」地址:https://arxiv.org/abs/2311.14736v1指令调优已成为对齐大型语言模型的关键步骤。指令调优的一个核心挑战是数据集选择,因为指令调优数据集的组成会对下游性能产生重大影响。特别是,研究人员猜测数据集的多样性和质量是下游性能的重要指标。然而,如何自动选择高质量和多样性数据,以及质量和多样性如何影响指令跟踪能力,尚不清楚。为了解决这些问题,我们提出了一种新算法,Quality-Diversity Instruction Tuning (QDIT)。QDIT提供了一种控制数据集多样性和质量的原则性算法,使我们能够对多样性和质量对指令调优性能的影响进行深入研究。从这项研究中,我们得出了两个关键见解:(1)数据集多样性和质量之间存在自然的权衡;(2)增加数据集多样性显著改善了最坏情况下的指令跟踪性能,从而提高了鲁棒性。我们在几个大规模指令调优数据集上验证了QDIT的性能,在保持或提高平均性能的同时,可以将最坏情况下的性能提升18%与以质量为驱动的基线相比。