热门
最新
红包
立Flag
投票
同城
我的
发布
CSDN App 扫码分享
评论
点赞
打赏
- 复制链接
- 举报
下一条:
「LongLLaMA:模如其名,主打一个loooooong... 专门设计用来处理长上下文」支持高达256k 的上下文长度,该模型基于LLaMA 并使用 Focused Transformer (FoT) 方法进行微调。这种方法使模型能够更加集中地处理长文本,而不是平均分配注意力。HuggingFace:https://huggingface.co/syzymon/long_llama_code_7b…Colab:https://colab.research.google.com/github/CStanKonrad/long_llama/blob/main/long_llama_colab.ipynb…GitHub:https://github.com/CStanKonrad/long_llama… FoT方法:Focused Transformer (FoT) 是一种特殊的训练方法,设计用于处理长上下文。传统的 Transformer 模型,如 BERT 或 GPT,在处理长文本时可能会遇到困难,因为它们的注意力机制通常有一个固定的最大长度限制。FoT 方法通过对比训练和特殊的注意力机制来解决这个问题,使模型能够处理可能包含数百万个令牌的上下文。 内存注意力层:在深度学习模型中,注意力机制用于帮助模型关注输入数据的重要部分。FoT 方法引入了一个特殊的内存注意力层,它允许模型的一部分(即注意力层的子集)访问一个内存缓存,其中存储了(键、值)对。这种机制使模型能够扩展其上下文长度,从而处理更长的文本。 细粒度控制:这描述了模型如何对不同的信息进行细致的处理。通过区分与语义上不同的值相关的键,模型可以更精确地关注和处理特定的信息。这增强了模型的结构,使其能够更好地理解和生成文本。LongLLaMA有三个型号LongLLaMA-3B / LongLLaMA-3Bv1.1 / LongLLaMA-Code 7B与 CodeLlama 相比,LongLLaMA-Code 提高了推理能力,特别是在继续预训练、无需分布内微调后,我们将 GSM8K 数学推理从 13% 提高到 17.4%。文章转载自互联网的那些事 https://weibo.com/u/1627825392
