AI知识分享AI知识分享
✿导航
  • 人工智能
  • 神经网络
  • 机器学习
  • 深度学习
  • 强化学习
  • 自然语言处理
  • 计算机视觉
  • 大模型基础
  • 动手学深度学习
  • 理论理解
  • 工程实践
  • 应用开发
  • AI For Everyone
  • AIGC_2024大会
  • AIGC_2025大会
  • Transformer
  • Pytorch
  • HuggingFace
  • 蒸馏
  • RAG
  • 目标检测
  • MCP
  • 概念
  • 意图识别
  • 工具
✿导航
  • 人工智能
  • 神经网络
  • 机器学习
  • 深度学习
  • 强化学习
  • 自然语言处理
  • 计算机视觉
  • 大模型基础
  • 动手学深度学习
  • 理论理解
  • 工程实践
  • 应用开发
  • AI For Everyone
  • AIGC_2024大会
  • AIGC_2025大会
  • Transformer
  • Pytorch
  • HuggingFace
  • 蒸馏
  • RAG
  • 目标检测
  • MCP
  • 概念
  • 意图识别
  • 工具
  • 大模型基础

    • 语言模型基础

      • 概述
      • 基于统计方法的语言模型
      • 基于神经网络的语言模型
      • 语言模型的采样方法
      • 语言模型的评测
    • 大语言模型架构

      • 概述
      • 主流模型架构
      • Encoder-only
      • Encoder-Decoder
      • Decoder-only
      • 非Transformer 架构
    • Prompt工程

      • 工程简介
      • 上下文学习
      • 思维链
      • 技巧
    • 参数高效微调

      • 概述
      • 参数附加方法
      • 参数选择方法
      • 低秩适配方法
      • 实践与应用
    • 模型编辑

      • 简介
      • 方法
      • 附加参数法
      • 定位编辑法
    • RAG

      • 基础
      • 架构
      • 知识检索
      • 生成增强
  • 动手学深度学习

    • 深度学习基础

      • 引言
      • 数据操作
      • 数据预处理
      • 数学知识(线代、矩阵计算、求导)
      • 线性回归
      • 基础优化方法
      • Softmax回归
      • 感知机
      • 模型选择
      • 过拟合和欠拟合
      • 环境和分布偏移
      • 权重衰减
      • Dropout
      • 数值稳定性
    • 卷积神经网络

      • 模型基本操作
      • 从全连接层到卷积
      • 填充和步长
      • 多个输入和输出通道
      • 池化层
      • LeNet
      • AlexNet
      • VGG
      • NiN网络
      • GoogleNet
      • 批量归一化
      • ResNet
    • 计算机视觉

      • 图像增广
      • 微调
      • 目标检测
      • 锚框
      • 区域卷积神经网络
      • 单发多框检测
      • 一次看完
      • 语义分割
      • 转置卷积
      • 全连接卷积神经网络
      • 样式迁移
    • 循环神经网络

      • 序列模型
      • 语言模型
      • 循环神经网络
      • 序列到序列学习
      • 搜索策略
    • 注意力机制

      • 优化算法

基础优化方法

基础优化方法是机器学习和深度学习中用于最小化(或最大化)目标函数(通常称为损失函数或代价函数)的核心技术。

其中最经典、最基础的方法是梯度下降法(Gradient Descent),以及其若干变种。以下将对这些基础优化方法进行系统性展开描述:

梯度下降法(Gradient Descent, GD)

1. 基本思想

梯度下降是一种一阶优化算法,利用目标函数关于参数的**梯度(一阶导数)**来迭代更新参数,朝着使目标函数值减小的方向移动。

  • 对于可微函数 J(θ) J(\theta) J(θ),其在点 θ \theta θ 处的梯度 ∇J(θ) \nabla J(\theta) ∇J(θ) 指向函数增长最快的方向。
  • 因此,负梯度方向是函数下降最快的方向。

2. 更新公式

θt+1=θt−η∇J(θt)\theta_{t+1} = \theta_t - \eta \nabla J(\theta_t) θt+1​=θt​−η∇J(θt​)

其中:

  • θt \theta_t θt​:第 t t t 次迭代的参数;
  • η \eta η:学习率(learning rate),控制步长大小;
  • ∇J(θt) \nabla J(\theta_t) ∇J(θt​):损失函数在当前参数处的梯度。

3. 类型

根据每次更新所用数据量的不同,梯度下降可分为三类:

类型数据使用优点缺点
批量梯度下降(BGD)全部训练样本收敛稳定,方向准确计算开销大,速度慢
随机梯度下降(SGD)单个样本更新快,可跳出局部极小噪声大,收敛震荡
小批量梯度下降(Mini-batch GD)小批量(如32、64)平衡效率与稳定性需调参(batch size)

实际应用中最常用的是 Mini-batch GD,也是深度学习框架(如 PyTorch、TensorFlow)默认采用的方式。

最近更新: 2026/2/24 21:13
Contributors: klc407073648
Prev
线性回归
Next
Softmax回归