SwinTransformer是一种视觉Transforme-CSDN blink-领先的开发者技术社区

最新

红包

立Flag

投票

同城

我的

发布

人工智能研究所

2 年前

trueweixin_44782294

Swin Transformer 是一种视觉 Transformer 模型，它是一种用于图像分类、对象检测和语义分割等计算机视觉任务的强大模型。由于VIT模型使用的全局注意力机制，无法把此模型应用到分辨率比较大的图片尺寸上，由于全局注意力机制在使用大尺寸图片时，其计算复杂度将会称指数增加，而Swin transformer 模型采用窗口注意力机制的方式，大大降低了模型的计算复杂度。
Swin transformer 主要特点：
移位窗口注意力机制：Swin Transformer 采用移位窗口注意力机制，将图像划分为不同的窗口，并在每个窗口内计算注意力。这允许模型捕获局部和全局信息，同时减少计算成本。
CNN卷积结构：Swin Transformer 采用类似卷积神经网络的结构，将图像尺寸维度不断压缩，通道维度不断提高，有助于模型捕获更加细节的图形特征。
轻量级设计：与其他 Transformer 模型相比，Swin Transformer 由于采用窗口注意力机制，大大降低了计算复杂度，使其在资源受限的设备上也能高效运行。
由于窗口注意力机制的特性，可以把输入图片扩展到更大尺寸的图片，让模型能够处理更大的输入数据

CSDN App 扫码分享

2

打赏

复制链接
举报

下一条：

MATLAB环境下使用条件生成对抗网络CGAN生成泵流量信号生成对抗网络 (GAN) 可用于生成近似真实数据的数据。当模拟计算成本较高或实验成本较高时，GAN 非常有用。条件 GAN（CGAN）可以在训练过程中使用数据标签来生成属于特定类别的数据。注意：本例将泵Simulink模型获得的模拟信号视为“真实”数据，当作CGAN 的训练数据集。 CGAN 使用一维卷积网络，此外本例使用主成分分析 (PCA) 直观地比较生成信号和真实信号的特征。代码运行环境为MATLAB R2021B。完整代码可通过知乎学术咨询获得。

立即登录