线性注意力序列并行性在1亿参数模型上，使用128个A1008-CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

2 年前

truetechsavvyarankomatsuzaki

线性注意力序列并行性

在1亿参数模型上，使用128个A100 80G GPUs将序列长度扩展到4096K，这比现有的SP方法的序列长度长8倍，同时速度显著更快。

代码仓库：https://github.com/OpenNLPLab/LASP
论文摘要：https://arxiv.org/abs/2404.02882

CSDN App 扫码分享

分享

3

190

复制链接
举报

下一条：

字节跳动推出了可视化自回归建模：通过下一尺度预测实现可扩展图像生成VAR在Imagenet 256x256的AR基线上取得了显著提升，将FID改善至1.80，并且推理速度提高了20倍项目：https://var.vision/摘要：https://arxiv.org/abs/2404.02905