这项工作提供了一个高度优化的开源实现,它包括RingAttention、掩码序列打包、模型生成的问答以及其他针对百万长度视觉-语言训练的关键特性。即使在非常大的上下文尺寸下,我们也有很好的MFUs(内存访问单位)。