微软展示了“你只缓存一次:用于语言模型的解码器-解码器架构”大幅减少了GPU内存需求,同时保留了全局注意力能力代码仓库: https://github.com/microsoft/unilm/tree/master/YOCO摘要: https://arxiv.org/abs/2405.05254