Vision Transformer (ViT)
论文地址:https://arxiv.org/abs/2010.11929
输入到MLP类别分类器中的特征只有类别token
经过N层transformer编码器处理后的特征的维度与输入前相同,均为[197,768],我们只使用列表切片的方式提取出类别token,维度为[1,768].进行下一步的类别分类。有小伙伴可能不理解,那不是其它的特征没有用到吗?浪费了是不是。其实不是,多头注意力机制可以让不同位置的特征进行全面交互,这里输出的类别token和之前输入的类别token早已发生了巨变,这种变化是由其它特征影响的。
博客:
详解VIT(Vision Transformer)模型原理, 代码级讲解_vit模型-CSDN博客