很高兴分享一下,刚刚读了两遍:超越因果语言模型,缩小高效递归模型和基于注意力模型之间的质量差距!!最近在递归架构上有很多进展,这些架构在内存效率上显著提高,并且在渐进速度上比注意力模型更快💨 但天下没有免费的午餐🥪 这些模型无法将长上下文中的所有信息都装进有限的内存,导致上下文学习质量下降。一切都完了吗?