AI知识分享AI知识分享
✿导航
  • 人工智能
  • 神经网络
  • 机器学习
  • 深度学习
  • 强化学习
  • 自然语言处理
  • 计算机视觉
  • 大模型基础
  • 动手学深度学习
  • 理论理解
  • 工程实践
  • 应用开发
  • AI For Everyone
  • AIGC_2024大会
  • AIGC_2025大会
  • Transformer
  • Pytorch
  • HuggingFace
  • 蒸馏
  • RAG
  • 目标检测
  • MCP
  • 概念
  • 意图识别
  • 工具
✿导航
  • 人工智能
  • 神经网络
  • 机器学习
  • 深度学习
  • 强化学习
  • 自然语言处理
  • 计算机视觉
  • 大模型基础
  • 动手学深度学习
  • 理论理解
  • 工程实践
  • 应用开发
  • AI For Everyone
  • AIGC_2024大会
  • AIGC_2025大会
  • Transformer
  • Pytorch
  • HuggingFace
  • 蒸馏
  • RAG
  • 目标检测
  • MCP
  • 概念
  • 意图识别
  • 工具
  • 大模型基础

    • 语言模型基础

      • 概述
      • 基于统计方法的语言模型
      • 基于神经网络的语言模型
      • 语言模型的采样方法
      • 语言模型的评测
    • 大语言模型架构

      • 概述
      • 主流模型架构
      • Encoder-only
      • Encoder-Decoder
      • Decoder-only
      • 非Transformer 架构
    • Prompt工程

      • 工程简介
      • 上下文学习
      • 思维链
      • 技巧
    • 参数高效微调

      • 概述
      • 参数附加方法
      • 参数选择方法
      • 低秩适配方法
      • 实践与应用
    • 模型编辑

      • 简介
      • 方法
      • 附加参数法
      • 定位编辑法
    • RAG

      • 基础
      • 架构
      • 知识检索
      • 生成增强
  • 动手学深度学习

    • 深度学习基础

      • 引言
      • 数据操作
      • 数据预处理
      • 数学知识(线代、矩阵计算、求导)
      • 线性回归
      • 基础优化方法
      • Softmax回归
      • 感知机
      • 模型选择
      • 过拟合和欠拟合
      • 环境和分布偏移
      • 权重衰减
      • Dropout
      • 数值稳定性
    • 卷积神经网络

      • 模型基本操作
      • 从全连接层到卷积
      • 填充和步长
      • 多个输入和输出通道
      • 池化层
      • LeNet
      • AlexNet
      • VGG
      • NiN网络
      • GoogleNet
      • 批量归一化
      • ResNet
    • 计算机视觉

      • 图像增广
      • 微调
      • 目标检测
      • 锚框
      • 区域卷积神经网络
      • 单发多框检测
      • 一次看完
      • 语义分割
      • 转置卷积
      • 全连接卷积神经网络
      • 样式迁移
    • 循环神经网络

      • 序列模型
      • 语言模型
      • 循环神经网络
      • 序列到序列学习
      • 搜索策略
    • 注意力机制

      • 优化算法

大语言模型架构 - 主流模型架构

主流模型架构

Encoder-Decoder 架构

Encoder-only 架构包含三个部分,分别是输入编码部分,特征编码部分以及任务处理部分。

具体的模型结构如图所示。

  • 输入编码
    • 原始输入文本会被分词器(Tokenizer)拆解为Token 序列
    • 随后通过词表和词嵌入(Embedding)矩阵映射为向量序列,确保文本信息得以数字化表达。
  • 特征编码
    • 由多个相同的编码模块(Encoder Block)堆叠而成
    • 得到的向量序列会依次通过一系列编码模块,这些模块通过自注意力机制和前馈网络进一步提取和深化文本特征。
  • 任务处理
    • 针对任务需求专门设计的模块,其可以由用户针对任务需求自行设计。
    • 在预训练阶段,模型通常使用全连接层作为输出头,用于完成掩码预测等任务。
    • 在下游任务适配阶段,输出头会根据具体任务需求进行定制。例如,对于情感分析或主题分类等判别任务,只需要添加一个分类器便可直接输出判别结果。

Encoder-Decoder 架构

Encoder-Decoder 架构在Encoder基础上引入了一个解码器(Decoder),并采用交叉注意力机制来实现编码器与解码器之间的有效交互。

解码器包含了输出编码、特征解码以及输出生成三个部分。

  • 输出编码
    • 与编码器中的输入编码结构相同,包含分词、向量化以及添加位置编码三个过程,将原始输入文本转换化为带有位置信息的向量序列。
  • 特征解码
    • 部分与特征编码部分在网络结构上也高度相似,包括掩码自注意力(Masked Self-Attention)模块,交叉注意力模块和全连接前馈模块。
  • 输出生成
    • 由一个线性层以及一个Softmax 层组成,负责将特征解码后的向量转换为词表上的概率分布,并从这个分布中采样得到最合适的Token 作为输出。

Encoder-Decoder 架构的具体工作流程区分训练阶段和推理阶段。

Decoder-only 架构

模型仅使用解码器来构建语言模型。这种架构利用“自回归”机制,在给定上文的情况下,生成流畅且连贯的下文。

模型架构的功能对比

注意力矩阵

  • Encoder-only 架构
    • 完全”的注意力,即对于每个Token 的理解都依赖于整个输入序列中的所有Token。
  • Encoder-Decoder 架构
    • 编码器的自注意力矩阵用于生成输入序列的全面上下文表示,呈现“完全”的注意力。
    • 解码器的掩码自注意力矩阵则呈现出“下三角”的注意力,确保在生成当前Token 时,模型只关注之前生成的Token。
  • Decoder-only 架构
    • 注意力矩阵来自于掩码自注意力模块,其特点是呈现出“下三角”的注意力模式。

适用任务

  • Encoder-only 架构
    • 特别适合于自然语言理解
  • Encoder-Decoder 架构
    • 非常适合于处理各种复杂的有条件生成任务
  • Decoder-only 架构
    • 不依赖于特定的输入文本的无条件文本生成任务中表现出色。
最近更新: 2026/1/24 10:44
Contributors: klc407073648
Prev
概述
Next
Encoder-only