风景愿在清晨后-CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

苏州大视通机器视觉

3 年前

trueweixin_44301520

风景愿在清晨后

保持热爱共赴山海

CSDN App 扫码分享

分享

1

点赞

打赏

复制链接
举报

下一条：

我们了解到vision Transformer的patch embedding 与标准Transformer的word embedding操作类似，都是初始化处理输入数据的，不同的是，标准的Transformer模型处理的是句子，单词，或者语音信息，而vision Transformer处理的是图片信息。因此vision Transformer模型采用了统一的224*224尺寸的图片来进行所有输入图片尺寸的调整，这里也是为什么我们假设输入图片的尺寸为224*224，因此在代码层面，我们输入的图片，需要统一调整到224*224的尺寸图片是一个像素一个像素排列而成的，而224*224个像素是一个很大的像素量，若我们直接用像素的这个维度来进行Transformer的注意力机制的计算，那么矩阵维度是相当的大。因此为了减轻注意力机制的计算压力，vision Transformer提出了patch的概念一个patch就是16*16尺寸大小的图片转换。#动图详解Transformer