将Llama-3 的上下文长度从8K扩展到超过100万上下文窗口
Gradient AI最近将Llama-3 8B和7B模型通过渐进式训练方法不断将其上下文长度从8k一路扩展到262k、524k
今天他们宣布成功地将Llama-3 系列模型的上下文长度扩展到超过1M...
Llama 3模型最初被训练用于处理8000个令牌的默认上下文长度,约相当于6,000字或10页文档。
Gradient为了解锁更长上下文的使用场景,扩展了Llama 3模型的上下文窗口到超过100万。这种扩展使得模型可以处理相当于《哈利·波特》系列前五本书的内容量。