TTT：一种新型的语言模型架构能处理更长文本性能优于Tran-CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

程序员的店小二

2 年前

truem0_46163918

TTT：一种新型的语言模型架构

能处理更长文本性能优于Transformer模型

TTT是由斯坦福大学、加州大学和Meta AI共同研究的一种新型的语言模型（LLM）架构

TTT的关键思想是将隐藏状态设计为一个机器学习模型，并使更新规则成为自监督学习的一步。

传统模型只在训练阶段进行学习，而 TTT 允许模型在处理新数据时也能进行学习和调整，从而在处理长文本时表现更好。

举个简单的例子

假设我们有一个AI系统，它需要阅读并理解一本书。这本书很长，传统的RNN模型在阅读了前半部分后，可能会“记不住”太多信息，导致在后半部分表现不佳。而Transformer虽然能“记住”很多内容，但每次阅读内容越多，需要的计算资源就成倍增长，非常耗时。

而 TTT 就像是你在读书的过程中不断地做新的笔记，不断地进行“自我学习”，根据每一章的内容实时调整你的笔记，从而更好地理解整本书。每读到一页内容，系统都会对自己进行调整和优化，这样它在读到后面的内容时，能更好地理解和记住前面的内容。而且这种自我调整的过程非常高效，不会像Transformer那样需要太多计算资源。

评估结果显示：在125M到1.3B参数规模，8K、32k上下文长度下，TTT明显优于Mamba，并且在计算效率上超过Transformer。

TTT方法通过在测试时进行自我调整和训练，显著提高了序列建模层在处理长文本时的性能，同时保持较低的计算复杂度。

TTT层不仅在语言建模方面表现出色，还可以应用于视频处理，通过密集采样帧提高效果。这种新机制可以取代Transformer中的自注意力层，提升模型效率并加快运行速度。

论文：https://arxiv.org/pdf/2407.04620

AI资讯

CSDN App 扫码分享

分享

评论

点赞

打赏

复制链接
举报

下一条：

推特原文：用2010年在Reddit上发布的提示就能制作出一张形状像羊驼的饭团的手机照片。