可扩展的无矩阵乘法语言模型- 证明了在亿参数规模下,LLMs可以完全消除矩阵乘法操作,同时保持强大的性能- 提供了一个GPU高效实现的模型,在训练期间相比未优化的基线减少了高达61%的内存使用代码库: https://github.com/ridgerchu/matmulfreellm摘要: https://arxiv.org/abs/2406.02528