Vision Transformer论文解读

发布网友 发布时间:2025-01-31 07:06

我来回答

1个回答

热心网友 时间:2025-01-31 10:22

近期,Transformer模型在计算机视觉领域引起了广泛关注,由于毕业论文完成,我有机会深入了解这一领域的相关论文。

本文介绍的是一篇名为《AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE》的论文,其论文地址为:arxiv.org/pdf/2010.1192...

一、主要思想

该论文将Transformer模型应用于图像分类,通过将图像分割成不同的patch,并将其作为序列输入,实现图像分类。

二、方法详解

论文中展示了ViT的网络结构图,整个网络可分为三个部分。

2.1 线性投影的平坦块

这一部分的主要功能是实现图像分块和向量序列的生成。例如,对于224x224的图像,将其分为16x16的小块(patch),总共196个patch。每个patch经过平坦化后,转换为长度为768的向量,形成196x768的二维矩阵,作为Transformer的输入序列格式。

此外,还有一个class embedding(文中称为class token)向量,其维度为1x768。将此class token与生成的向量concat,得到197x768的矩阵。

还有一个位置编码向量,维度为197x768。将位置编码与生成的矩阵进行element-wise sum操作,得到最终的Transformer编码器输入矩阵为197x768。

2.2 Transformer编码器

图中所示的Norm采用transformer中常用的Layer Normalization。multi-attention模块是Transformer的基本结构,具体可参考相关文章。

2.3 MLP头

这是一个分类层。经过Transformer编码器的输入与输出向量的维度保持一致,即197x768。分类时,仅提取class token的内容,得到一个1x768的向量,经过MLP分类层得到最终结果。

这里的MLP分类层直接采用普通的全连接层实现。

三、算法结果

声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com