AI知识分享AI知识分享
✿导航
  • 人工智能
  • 神经网络
  • 机器学习
  • 深度学习
  • 强化学习
  • 自然语言处理
  • 计算机视觉
  • 大模型基础
  • 动手学深度学习
  • 理论理解
  • 工程实践
  • 应用开发
  • AI For Everyone
  • AIGC_2024大会
  • AIGC_2025大会
  • Transformer
  • Pytorch
  • HuggingFace
  • 蒸馏
  • RAG
  • 目标检测
  • MCP
  • 概念
  • 意图识别
  • 工具
✿导航
  • 人工智能
  • 神经网络
  • 机器学习
  • 深度学习
  • 强化学习
  • 自然语言处理
  • 计算机视觉
  • 大模型基础
  • 动手学深度学习
  • 理论理解
  • 工程实践
  • 应用开发
  • AI For Everyone
  • AIGC_2024大会
  • AIGC_2025大会
  • Transformer
  • Pytorch
  • HuggingFace
  • 蒸馏
  • RAG
  • 目标检测
  • MCP
  • 概念
  • 意图识别
  • 工具
  • 大模型基础

    • 语言模型基础

      • 概述
      • 基于统计方法的语言模型
      • 基于神经网络的语言模型
      • 语言模型的采样方法
      • 语言模型的评测
    • 大语言模型架构

      • 概述
      • 主流模型架构
      • Encoder-only
      • Encoder-Decoder
      • Decoder-only
      • 非Transformer 架构
    • Prompt工程

      • 工程简介
      • 上下文学习
      • 思维链
      • 技巧
    • 参数高效微调

      • 概述
      • 参数附加方法
      • 参数选择方法
      • 低秩适配方法
      • 实践与应用
    • 模型编辑

      • 简介
      • 方法
      • 附加参数法
      • 定位编辑法
    • RAG

      • 基础
      • 架构
      • 知识检索
      • 生成增强
  • 动手学深度学习

    • 深度学习基础

      • 引言
      • 数据操作
      • 数据预处理
      • 数学知识(线代、矩阵计算、求导)
      • 线性回归
      • 基础优化方法
      • Softmax回归
      • 感知机
      • 模型选择
      • 过拟合和欠拟合
      • 环境和分布偏移
      • 权重衰减
      • Dropout
      • 数值稳定性
    • 卷积神经网络

      • 模型基本操作
      • 从全连接层到卷积
      • 填充和步长
      • 多个输入和输出通道
      • 池化层
      • LeNet
      • AlexNet
      • VGG
      • NiN网络
      • GoogleNet
      • 批量归一化
      • ResNet
    • 计算机视觉

      • 图像增广
      • 微调
      • 目标检测
      • 锚框
      • 区域卷积神经网络
      • 单发多框检测
      • 一次看完
      • 语义分割
      • 转置卷积
      • 全连接卷积神经网络
      • 样式迁移
    • 循环神经网络

      • 序列模型
      • 语言模型
      • 循环神经网络
      • 序列到序列学习
      • 搜索策略
    • 注意力机制

      • 优化算法

使用块的网络(VGG)

参考文章

  • 一文读懂现代卷积神经网络—使用块的网络(VGG)

核心思想:用“块”构建深度网络

VGG的最大创新在于提出了模块化设计理念:将多个小卷积核(3x3)和ReLU激活堆叠成块(Block,通过块的重复组合构建深层网络)。这种设计使网络结构清晰,易于理解和复现。

对比传统设计:

  • 传统CNN(如AlexNet)的卷积核尺寸多样(11×11、5x5、3x3),结构零散。
  • VGG则统一使用3x3卷积核,仅通过调整块内卷积层数和通道数来扩展网络。

主要设计理念

  1. 使用多个 3×3 卷积代替大卷积核(如 5×5 或 7×7)

    • 两个 3×3 卷积的感受野 ≈ 一个 5×5 卷积;
    • 三个 3×3 卷积的感受野 ≈ 一个 7×7 卷积;
    • 但参数更少、非线性更强(每层都有 ReLU)。
  2. 网络由多个“卷积块”组成,每个块包含若干卷积层 + 池化层

    • 每个块内卷积层使用相同通道数;
    • 块之间通过最大池化(MaxPooling)下采样;
    • 随着网络加深,通道数翻倍(64 → 128 → 256 → 512),逐步提取更抽象的特征。
  3. 最后接全连接层进行分类

    • 通常是 2~3 个全连接层 + Dropout + Softmax。

VGG 的典型结构(以 VGG16 为例)

层类型配置
Block 1Conv3×3×64, Conv3×3×64, MaxPool
Block 2Conv3×3×128, Conv3×3×128, MaxPool
Block 3Conv3×3×256 ×3, MaxPool
Block 4Conv3×3×512 ×3, MaxPool
Block 5Conv3×3×512 ×3, MaxPool
ClassifierFC-4096, ReLU, Dropout → FC-4096, ReLU, Dropout → FC-1000 (Softmax)

📌 VGG16 共有 16 个带权重的层(13 个卷积 + 3 个全连接),故名 VGG16;
还有 VGG19(19 层,Block 3~5 各多一个卷积)。

为什么“块”的设计重要?

  1. 模块化:便于理解和复用,为后续网络(如 ResNet 的残差块)提供范式。
  2. 深度可控:通过增减块的数量或每块中卷积层数,可灵活调整网络深度。
  3. 性能稳定:尽管参数量大,但训练相对稳定,在迁移学习中表现优异。
  4. 推动小卷积核普及:证明了堆叠小卷积核比单一大卷积核更有效。

四、VGG 的优缺点

✅ 优点

  • 结构简单、规律性强,易于实现和教学;
  • 特征提取能力强,广泛用于特征提取器(如 Faster R-CNN 中用 VGG16 作 backbone);
  • 在 ImageNet 上 Top-5 错误率仅 7.3%(2014 年 SOTA)。

❌ 缺点

  • 参数量巨大(VGG16 约 1.38 亿参数),计算开销大;
  • 内存占用高,不适合移动端或实时应用;
  • 后续被更高效的网络(如 GoogLeNet、ResNet)超越。
最近更新: 2026/3/11 20:33
Contributors: klc407073648
Prev
AlexNet
Next
NiN网络