热门
最新
红包
立Flag
投票
同城
我的
发布
CSDN App 扫码分享
15
155
- 复制链接
- 举报
下一条:
长文本生成器释放长上下文大语言模型生成超过10,000字的潜力讨论:https://huggingface.co/papers/2408.07055目前的长上下文大语言模型(LLM)可以处理多达100,000个标记的输入,但在生成超过2,000字的输出时依然存在困难。通过受控实验,我们发现模型的有效生成长度本质上受到其在监督微调(SFT)期间看到的示例的限制。换句话说,它们的输出限制是由于现有SFT数据集中缺乏长输出示例。为了解决这个问题,我们引入了AgentWrite,这是一个基于代理的流水线,可以将超长生成任务分解成子任务,使现成的LLM能够生成超过20,000字的连贯输出。利用AgentWrite,我们构建了LongWriter-6k,这是一个包含6,000个SFT数据集的长输出数据集,输出长度从2k到32k不等。通过将该数据集纳入模型训练,我们成功地将现有模型的输出长度扩大到超过10,000字,同时保持输出质量。我们还开发了LongBench-Write,这是一个全面评估超长生成能力的基准测试。我们的9B参数模型,通过DPO进一步改进,在该基准测试中实现了最先进的性能,甚至超越了更大规模的专有模型。总体而言,我们的工作表明,现有的长上下文LLM已经具备了更大输出窗口的潜力——你所需要的只是具有延长输出的数据在模型对齐期间解锁这种能力。