AI知识分享AI知识分享
✿导航
  • 人工智能
  • 神经网络
  • 机器学习
  • 深度学习
  • 强化学习
  • 自然语言处理
  • 计算机视觉
  • 大模型基础
  • 动手学深度学习
  • 理论理解
  • 工程实践
  • 应用开发
  • AI For Everyone
  • AIGC_2024大会
  • AIGC_2025大会
  • Transformer
  • Pytorch
  • HuggingFace
  • 蒸馏
  • RAG
  • 目标检测
  • MCP
  • 概念
  • 意图识别
  • 工具
✿导航
  • 人工智能
  • 神经网络
  • 机器学习
  • 深度学习
  • 强化学习
  • 自然语言处理
  • 计算机视觉
  • 大模型基础
  • 动手学深度学习
  • 理论理解
  • 工程实践
  • 应用开发
  • AI For Everyone
  • AIGC_2024大会
  • AIGC_2025大会
  • Transformer
  • Pytorch
  • HuggingFace
  • 蒸馏
  • RAG
  • 目标检测
  • MCP
  • 概念
  • 意图识别
  • 工具
  • 大模型基础

    • 语言模型基础

      • 概述
      • 基于统计方法的语言模型
      • 基于神经网络的语言模型
      • 语言模型的采样方法
      • 语言模型的评测
    • 大语言模型架构

      • 概述
      • 主流模型架构
      • Encoder-only
      • Encoder-Decoder
      • Decoder-only
      • 非Transformer 架构
    • Prompt工程

      • 工程简介
      • 上下文学习
      • 思维链
      • 技巧
    • 参数高效微调

      • 概述
      • 参数附加方法
      • 参数选择方法
      • 低秩适配方法
      • 实践与应用
    • 模型编辑

      • 简介
      • 方法
      • 附加参数法
      • 定位编辑法
    • RAG

      • 基础
      • 架构
      • 知识检索
      • 生成增强
  • 动手学深度学习

    • 深度学习基础

      • 引言
      • 数据操作
      • 数据预处理
      • 数学知识(线代、矩阵计算、求导)
      • 线性回归
      • 基础优化方法
      • Softmax回归
      • 感知机
      • 模型选择
      • 过拟合和欠拟合
      • 环境和分布偏移
      • 权重衰减
      • Dropout
      • 数值稳定性
    • 卷积神经网络

      • 模型基本操作
      • 从全连接层到卷积
      • 填充和步长
      • 多个输入和输出通道
      • 池化层
      • LeNet
      • AlexNet
      • VGG
      • NiN网络
      • GoogleNet
      • 批量归一化
      • ResNet
    • 计算机视觉

      • 图像增广
      • 微调
      • 目标检测
      • 锚框
      • 区域卷积神经网络
      • 单发多框检测
      • 一次看完
      • 语义分割
      • 转置卷积
      • 全连接卷积神经网络
      • 样式迁移
    • 循环神经网络

      • 序列模型
      • 语言模型
      • 循环神经网络
      • 序列到序列学习
      • 搜索策略
    • 注意力机制

      • 优化算法

过拟合和欠拟合

过拟合和欠拟合图形表示

  • 欠拟合 (Underfitting):学得太少

    • 模型过于简单,无法捕捉数据中的基本规律和特征。它在训练集上表现就很差,在测试集上自然也很差。
    • 症状:
      • 训练误差(Training Loss)高。
      • 验证误差(Validation Loss)高。
      • 训练误差 ≈ 验证误差。
  • 过拟合 (Overfitting):学得太“死”

    • 模型过于复杂,不仅学到了数据中的普遍规律,还把训练数据中的噪声、异常值甚至随机波动都当成了规律背了下来。它在训练集上表现完美,但在测试集上表现很差(泛化能力弱)。
    • 症状:
      • 训练误差(Training Loss)非常低(接近 0)。
      • 验证误差(Validation Loss)很高,且随着训练进行反而上升。
      • 训练误差 ≪ 验证误差(差距巨大)。
  • 训练误差(training error)是指模型在训练数据集上计算得到的误差。

  • 泛化误差(generalization error)是指模型应用在同样从原始样本的分布中抽取的无限多数据样本时,模型误差的期望。

模型容量和数据关系:

模型容量

  • 拟合各种函数的能力
  • 低容量的模型难以拟合训练数
  • 高容量的模型可以记住所有的训练数据

下图,左图为欠拟合,右图为过拟合:

模型容量的影响

深度学习:先保证模型足够大,再去控制模型容量,最后得到泛化误差下降。

估计模型容量

  • 难以在不同的种类算法之间上比较
    • 例如数模型和神经网络
  • 给定一个模型种类,将有两个主要因素
    • 参数的个数
    • 参数值的选择范围

数据复杂度

  • 多个重要因素
    • 样本个数
    • 每个样本的元素个数
    • 时间、空间结构
    • 多样性

总结

  • 模型容量需要匹配数据复杂度,否则可能导致欠拟合和过拟合
  • 统计机器学习提供数学工具来衡量模型复杂度
  • 实际中一般靠观察训练误差和验证误差
最近更新: 2026/3/30 21:56
Contributors: klc407073648
Prev
模型选择
Next
环境和分布偏移