社交化成本，私有化收益。AI行业的非官方格言？-CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

1 年前

trueweixin_42221297

社交化成本，私有化收益。AI行业的非官方格言？

CSDN App 扫码分享

分享

15

155

复制链接
举报

下一条：

长文本生成器释放长上下文大语言模型生成超过10,000字的潜力讨论：https://huggingface.co/papers/2408.07055目前的长上下文大语言模型（LLM）可以处理多达100,000个标记的输入，但在生成超过2,000字的输出时依然存在困难。通过受控实验，我们发现模型的有效生成长度本质上受到其在监督微调（SFT）期间看到的示例的限制。换句话说，它们的输出限制是由于现有SFT数据集中缺乏长输出示例。为了解决这个问题，我们引入了AgentWrite，这是一个基于代理的流水线，可以将超长生成任务分解成子任务，使现成的LLM能够生成超过20,000字的连贯输出。利用AgentWrite，我们构建了LongWriter-6k，这是一个包含6,000个SFT数据集的长输出数据集，输出长度从2k到32k不等。通过将该数据集纳入模型训练，我们成功地将现有模型的输出长度扩大到超过10,000字，同时保持输出质量。我们还开发了LongBench-Write，这是一个全面评估超长生成能力的基准测试。我们的9B参数模型，通过DPO进一步改进，在该基准测试中实现了最先进的性能，甚至超越了更大规模的专有模型。总体而言，我们的工作表明，现有的长上下文LLM已经具备了更大输出窗口的潜力——你所需要的只是具有延长输出的数据在模型对齐期间解锁这种能力。