热门

最新

红包

立Flag

投票

同城

我的

发布
techsavvyarankomatsuzaki
KKyujin_
2 年前
truetechsavvyarankomatsuzaki

线性注意力序列并行性

在1亿参数模型上,使用128个A100 80G GPUs将序列长度扩展到4096K,这比现有的SP方法的序列长度长8倍,同时速度显著更快。

代码仓库:
https://github.com/OpenNLPLab/LASP
论文摘要:https://arxiv.org/abs/2404.02882

CSDN App 扫码分享
分享
3
190
  • 复制链接
  • 举报
下一条:
字节跳动推出了可视化自回归建模:通过下一尺度预测实现可扩展图像生成VAR在Imagenet 256x256的AR基线上取得了显著提升,将FID改善至1.80,并且推理速度提高了20倍项目:https://var.vision/摘要:https://arxiv.org/abs/2404.02905
立即登录