视频曼巴面向高效视频理解的状态空间模型本项工作针对视频理解中的局部冗余与全局依赖双重挑战,创新性地将曼巴算法应用于视频领域。提出的视频曼巴克服了现有3D卷积神经网络和视频变换器的限制。其线性复杂度操作符使得高效的长期建模成为可能,这对于高分辨率长视频理解至关重要。广泛的评估揭示了视频曼巴的四大核心能力:(1)在视觉领域的可扩展性,得益于一种新颖的自我蒸馏技术,无需大量数据集预训练;(2)对识别短期动作的敏感性,即使是细微的动作差异也能识别;(3)在长期视频理解方面的优越性,展示了相对传统特征模型的显著进步;以及(4)与其他模态的兼容性,证明了在多模态情境中的鲁棒性。通过这些独特的优势,视频曼巴为视频理解树立了新的标杆,提供了一个可扩展且高效的综合视频理解解决方案。