目标检测

输入：一张 640×640 的“无结构”像素图。
特征提取：CNN 将其压缩为 20×20 的特征图（假设 Stride=32）。此时数据变成了 20×20×C的结构化张量。
定义位置：我们将这 20×20 个点视为“预测中心”。
1. 计算公式：
  - $x_{center} = (j + 0.5) \times S$
  - $y_{center} = (i + 0.5) \times S$
2. 点 (0,0) 对应原图中心约 (16,16) 。
3. 点 (19,19)对应原图中心约 (624,624) 。
4. 注意：原图四个角最边缘的像素（0-15, 625-639 区域）没有直接对应的独立中心点，它们的特征被融合进了最近的中心点中。
生成锚框：在每个中心点上，放置 9 个预设好的框（k = 尺度数 × 宽高比数，3 种大小 × 3 种比例）。全图共 20×20×9=3600 个锚框。
1. 尺度：锚框的大小。例如，[32, 64, 128] 像素（对应原始图像尺寸）。
2. 宽高比：锚框的宽度和高度的比例。例如，[1:1, 2:1, 1:2] 通常写作 [1.0, 2.0, 0.5]。
3. 锚框的宽 w 和高 h 的计算通常为（以某个尺度 s 和宽高比 r 为例）：
  1. w = s * sqrt(r)
  2. h = s / sqrt(r)
  3. 例如，尺度 s=64，宽高比 r=2，则 w = 64 * 1.414 ≈ 90.5， h = 64 / 1.414 ≈ 45.2。
网络预测：
- 网络不再预测“框在哪里”，而是针对这 3600 个已知的框，预测两个值：
  1. 分类分数：这个框里是猫、狗还是背景？
  2. 回归偏移量： (Δx,Δy,Δw,Δh)，即“为了让这个锚框完美包住物体，我需要把它向左移多少、放大多少？”
输出：将偏移量应用到锚框上，得到最终的边界框。

锚框如何工作

训练阶段

训练的核心是 “匹配策略” 和 “监督信号的构建”。

正负样本分配：
- 正样本：通常，一个锚框如果与任意真实框的 IoU（交并比） 大于一个高阈值（如 0.7），则标记为正样本。
  - 或者，对于每个真实框，与其 IoU 最大的锚框也标记为正样本（确保每个物体至少有一个锚框负责）。
- 负样本：与所有真实框的 IoU 都小于一个低阈值（如 0.3）的锚框，标记为负样本（背景）。
- 忽略样本：IoU 介于高低阈值之间的锚框通常不参与训练，以避免模糊样本。
监督信号的构建：
- 分类任务：
  - 对于正样本，其类别标签是与之匹配的真实框的类别；
  - 对于负样本，其类别标签是背景（通常记为 0）。
- 回归任务：仅对正样本进行边界框回归。网络不是直接预测框的绝对坐标，而是预测 “从锚框变换到匹配的真实框所需的微调偏移量”。这通常包括四个值：
  - tx = (gx - ax) / aw （中心点 x 坐标的平移，归一化）
  - ty = (gy - ay) / ah （中心点 y 坐标的平移，归一化）
  - tw = log(gw / aw) （宽度缩放的对数变换）
  - th = log(gh / ah) （高度缩放的对数变换）
  - 其中 (ax, ay, aw, ah) 是锚框的中心坐标和宽高，(gx, gy, gw, gh) 是匹配的真实框的中心坐标和宽高。

预测阶段

生成预测：网络为每个锚框输出两个部分：
- 分类得分：一个 (C+1) 维向量（C 个物体类 + 背景），表示属于每个类别的概率。
- 边界框回归偏移量：一个 4 维向量 (tx, ty, tw, th)。
解码：使用与训练时相同的公式的逆运算，将预测的偏移量应用于对应的锚框，得到预测框在原始图像中的坐标：
- px = aw * tx + ax
- py = ah * ty + ay
- pw = aw * exp(tw)
- ph = ah * exp(th)
后处理：
- 非极大值抑制（NMS）：由于成千上万个锚框会产生大量重叠的预测框，NMS 会过滤掉那些与得分最高的预测框重叠度高（IoU 大）且得分较低的框，只保留最简洁、最准确的预测结果。

总结

Anchor Boxes 是一种将先验知识注入目标检测网络的强大技术。

它通过提供一组预设的参考框，将复杂的检测问题分解为对每个参考框的“分类（是哪种物体/背景）”和“微调（如何调整得更准）”两个相对简单的子问题，奠定了两阶段和许多单阶段检测器的基础。