Vision Transformer(ViT)一、背景:从卷积到Transformer在计算机视觉领域,卷积神经网络长期占据主导地位。 从LeNet到ResNet,CNN通过卷积层在图像上滑动窗口,捕捉局部特征(如边缘、纹理、形状)。然而,
2024-10-12