为了将的Llama-3模型的上下文窗口增加到400万，我们所-CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

windy天意晚晴

2 年前

trueweixin_36841870

为了将 @云端~的Llama-3模型的上下文窗口增加到400万，我们所做的一些事情包括增加RoPE theta并加入完整上下文长度的监督式微调。跟随我们一起深入了解一些学习成果：

🔗 https://gradient.ai/blog/scaling-rotational-embeddings-for-long-context-language-models
✅ 位置编码的局限性
✅ 适应更长上下文长度的RoPE的方法
✅ 随着上下文长度增加的RoPE Theta的扩展规律

CSDN App 扫码分享

分享

评论

9

复制链接
举报

下一条：

【线下活动预告】6.12-6.14 上海国际嵌入式展北汇信息在832展位期待您的光临