线性注意力序列并行性在1亿参数模型上,使用128个A100 80G GPUs将序列长度扩展到4096K,这比现有的SP方法的序列长度长8倍,同时速度显著更快。代码仓库:https://github.com/OpenNLPLab/LASP论文摘要:https://arxiv.org/abs/2404.02882