Multi-Head Self-Attention（多头自注意力机制）

一、什么是注意力机制（Attention）？

当你看一张图片时，你不会一次性注意所有像素。比如看一只猫，你可能先注意它的头，再注意尾巴、背景等。

注意力机制就是让模型学会在不同部分之间分配关注度。

自注意力的意思是：一个元素（比如一个图像块 patch）要根据序列中其他所有元素的信息，来决定自己应该关注哪些部分。

在ViT中，每个Patch都可以“看”到其他所有Patch，从而学会它们之间的全局关系。

假设图像被切成了多个Patch：$[ P_1, P_2, P_3, …, P_n ]$

每个Patch经过线性变换后会生成三个向量：

我们先用当前Patch的Q去和所有其他Patch的K做点积：$ \text{score}_{ij} = Q_i \cdot K_j$

它表示第i个Patch对第j个Patch的关注程度。比如猫头（Patch₁）对猫尾巴（Patch₇）的score可能高，对背景（Patch₉₉）的score可能低。

将所有score通过 Softmax 转成概率（注意力权重）：$ \alpha_{ij} = \text{softmax}(score_{ij})$

这样每个Patch的注意力分布都加起来等于1。

用这些权重对所有V加权求和：$ \text{output}i = \sum_j \alpha{ij} \cdot V_j $

这一步相当于：我（Patch_i）从其他Patch那里借信息的加权平均。结果是每个Patch都融合了来自其他位置的信息。

上面描述的过程只是一种“注意力”，但现实中的图像关系是多层次的：

所以ViT引入了多头机制：

将输入向量分成多个子空间，让模型并行学习多个不同类型的注意力模式。

如果有 8 个头，每个头就会计算独立的一组 (Q, K, V)，得到 8 种不同的注意力结果：$\text{head}_1, \text{head}_2, …, \text{head}_8$

然后把它们拼接（Concatenate）在一起，再通过一个线性层整合成最终输出。

假设你在看一张“猫坐在椅子上的图片”：