Swin Transformer 是一种视觉 Transformer 模型,它是一种用于图像分类、对象检测和语义分割等计算机视觉任务的强大模型。由于VIT模型使用的全局注意力机制,无法把此模型应用到分辨率比较大的图片尺寸上,由于全局注意力机制在使用大尺寸图片时,其计算复杂度将会称指数增加,而Swin transformer 模型采用窗口注意力机制的方式,大大降低了模型的计算复杂度。
Swin transformer 主要特点:
移位窗口注意力机制:Swin Transformer 采用移位窗口注意力机制,将图像划分为不同的窗口,并在每个窗口内计算注意力。这允许模型捕获局部和全局信息,同时减少计算成本。
CNN卷积结构:Swin Transformer 采用类似卷积神经网络的结构,将图像尺寸维度不断压缩,通道维度不断提高,有助于模型捕获更加细节的图形特征。
轻量级设计:与其他 Transformer 模型相比,Swin Transformer 由于采用窗口注意力机制,大大降低了计算复杂度,使其在资源受限的设备上也能高效运行。
由于窗口注意力机制的特性,可以把输入图片扩展到更大尺寸的图片,让模型能够处理更大的输入数据