热门
最新
红包
立Flag
投票
同城
我的
发布
TTT:一种新型的语言模型架构
能处理更长文本 性能优于Transformer模型
TTT是由斯坦福大学、加州大学和Meta AI共同研究的一种新型的语言模型(LLM)架构
TTT的关键思想是将隐藏状态设计为一个机器学习模型,并使更新规则成为自监督学习的一步。
传统模型只在训练阶段进行学习,而 TTT 允许模型在处理新数据时也能进行学习和调整,从而在处理长文本时表现更好。
举个简单的例子
假设我们有一个AI系统,它需要阅读并理解一本书。这本书很长,传统的RNN模型在阅读了前半部分后,可能会“记不住”太多信息,导致在后半部分表现不佳。而Transformer虽然能“记住”很多内容,但每次阅读内容越多,需要的计算资源就成倍增长,非常耗时。
而 TTT 就像是你在读书的过程中不断地做新的笔记,不断地进行“自我学习”,根据每一章的内容实时调整你的笔记,从而更好地理解整本书。每读到一页内容,系统都会对自己进行调整和优化,这样它在读到后面的内容时,能更好地理解和记住前面的内容。而且这种自我调整的过程非常高效,不会像Transformer那样需要太多计算资源。
评估结果显示:在125M到1.3B参数规模,8K、32k上下文长度下,TTT明显优于Mamba,并且在计算效率上超过Transformer。
TTT方法通过在测试时进行自我调整和训练,显著提高了序列建模层在处理长文本时的性能,同时保持较低的计算复杂度。
TTT层不仅在语言建模方面表现出色,还可以应用于视频处理,通过密集采样帧提高效果。这种新机制可以取代Transformer中的自注意力层,提升模型效率并加快运行速度。
论文:https://arxiv.org/pdf/2407.04620
AI资讯
CSDN App 扫码分享
评论
点赞
打赏
- 复制链接
- 举报