Dropout

问题背景：为什么需要 Dropout？

在深度学习模型中，过拟合（Overfitting）是一个常见问题，即模型在训练集上表现很好，但在测试集上泛化能力差。传统解决方法包括：

但深度神经网络（DNN）由于参数众多，仍然容易过拟合。2012年，Hinton 团队提出 Dropout，通过随机“关闭”神经元来增强模型鲁棒性。

Dropout 的核心思想是：在训练时，随机丢弃一部分神经元的输出，迫使网络不依赖任何单个神经元，从而提高泛化能力。

对于每一层（或指定层）的每一个神经元，在每一次前向传播（Forward Pass）时：

生成掩码：以概率 $p$ （丢弃率，例如 0.5）将该神经元的输出置为 0。
缩放（Scaling）：为了保持输出的期望值不变，通常将剩余神经元的输出除以 $(1-p)$ $(1 - p)$ 。
- 注：有些框架（如 PyTorch 的 nn.Dropout）在训练时直接进行缩放（Inverted Dropout），这样测试时就不需要再操作了。
反向传播：被丢弃的神经元不参与本次的反向传播（梯度为 0），权重不更新。

不使用 Dropout：所有神经元都参与计算。
无需调整权重：如果在训练时使用了“反向 Dropout”（Inverted Dropout，即训练时已经放大了激活值），测试时直接使用原始网络即可，不需要做任何修改。这保证了推理速度不受影响。

通常将 Dropout 作用在隐藏全连接层的输出上