热门

最新

红包

立Flag

投票

同城

我的

发布
weixin_44301520
苏州大视通机器视觉
3 年前
trueweixin_44301520

风景愿在清晨后

保持热爱共赴山海
CSDN App 扫码分享
分享
1
点赞
打赏
  • 复制链接
  • 举报
下一条:
我们了解到vision Transformer的patch embedding 与标准Transformer的word embedding操作类似,都是初始化处理输入数据的,不同的是,标准的Transformer模型处理的是句子,单词,或者语音信息,而vision Transformer处理的是图片信息。因此vision Transformer模型采用了统一的224*224尺寸的图片来进行所有输入图片尺寸的调整,这里也是为什么我们假设输入图片的尺寸为224*224,因此在代码层面,我们输入的图片,需要统一调整到224*224的尺寸图片是一个像素一个像素排列而成的,而224*224个像素是一个很大的像素量,若我们直接用像素的这个维度来进行Transformer的注意力机制的计算,那么矩阵维度是相当的大。因此为了减轻注意力机制的计算压力,vision Transformer提出了patch的概念一个patch就是16*16尺寸大小的图片转换。#动图详解Transformer
立即登录