基础优化方法
基础优化方法是机器学习和深度学习中用于最小化(或最大化)目标函数(通常称为损失函数或代价函数)的核心技术。
其中最经典、最基础的方法是梯度下降法(Gradient Descent),以及其若干变种。以下将对这些基础优化方法进行系统性展开描述:
梯度下降法(Gradient Descent, GD)
1. 基本思想
梯度下降是一种一阶优化算法,利用目标函数关于参数的**梯度(一阶导数)**来迭代更新参数,朝着使目标函数值减小的方向移动。
- 对于可微函数 ,其在点 处的梯度 指向函数增长最快的方向。
- 因此,负梯度方向是函数下降最快的方向。
2. 更新公式
其中:
- :第 次迭代的参数;
- :学习率(learning rate),控制步长大小;
- :损失函数在当前参数处的梯度。
3. 类型
根据每次更新所用数据量的不同,梯度下降可分为三类:
| 类型 | 数据使用 | 优点 | 缺点 |
|---|---|---|---|
| 批量梯度下降(BGD) | 全部训练样本 | 收敛稳定,方向准确 | 计算开销大,速度慢 |
| 随机梯度下降(SGD) | 单个样本 | 更新快,可跳出局部极小 | 噪声大,收敛震荡 |
| 小批量梯度下降(Mini-batch GD) | 小批量(如32、64) | 平衡效率与稳定性 | 需调参(batch size) |
实际应用中最常用的是 Mini-batch GD,也是深度学习框架(如 PyTorch、TensorFlow)默认采用的方式。
