LoCoCo 提供与现有 LLM 架构的通用兼容性,实现无缝集成。通过注入卷积头,我们将长达 3482 个标记的序列压缩到 128 大小的 KV 缓存中,同时保持了相当的性能——这一切只需 104M 标记的微调! 🚀2/3