AI知识分享AI知识分享
✿导航
  • 人工智能
  • 神经网络
  • 机器学习
  • 深度学习
  • 强化学习
  • 自然语言处理
  • 计算机视觉
  • 大模型基础
  • 动手学深度学习
  • 理论理解
  • 工程实践
  • 应用开发
  • AI For Everyone
  • AIGC_2024大会
  • AIGC_2025大会
  • Transformer
  • Pytorch
  • HuggingFace
  • 蒸馏
  • RAG
  • 目标检测
  • MCP
  • 概念
  • 意图识别
  • 工具
✿导航
  • 人工智能
  • 神经网络
  • 机器学习
  • 深度学习
  • 强化学习
  • 自然语言处理
  • 计算机视觉
  • 大模型基础
  • 动手学深度学习
  • 理论理解
  • 工程实践
  • 应用开发
  • AI For Everyone
  • AIGC_2024大会
  • AIGC_2025大会
  • Transformer
  • Pytorch
  • HuggingFace
  • 蒸馏
  • RAG
  • 目标检测
  • MCP
  • 概念
  • 意图识别
  • 工具
  • 大模型基础

    • 语言模型基础

      • 概述
      • 基于统计方法的语言模型
      • 基于神经网络的语言模型
      • 语言模型的采样方法
      • 语言模型的评测
    • 大语言模型架构

      • 概述
      • 主流模型架构
      • Encoder-only
      • Encoder-Decoder
      • Decoder-only
      • 非Transformer 架构
    • Prompt工程

      • 工程简介
      • 上下文学习
      • 思维链
      • 技巧
    • 参数高效微调

      • 概述
      • 参数附加方法
      • 参数选择方法
      • 低秩适配方法
      • 实践与应用
    • 模型编辑

      • 简介
      • 方法
      • 附加参数法
      • 定位编辑法
    • RAG

      • 基础
      • 架构
      • 知识检索
      • 生成增强
  • 动手学深度学习

    • 深度学习基础

      • 引言
      • 数据操作
      • 数据预处理
      • 数学知识(线代、矩阵计算、求导)
      • 线性回归
      • 基础优化方法
      • Softmax回归
      • 感知机
      • 模型选择
      • 过拟合和欠拟合
      • 环境和分布偏移
      • 权重衰减
      • Dropout
      • 数值稳定性
    • 卷积神经网络

      • 模型基本操作
      • 从全连接层到卷积
      • 填充和步长
      • 多个输入和输出通道
      • 池化层
      • LeNet
      • AlexNet
      • VGG
      • NiN网络
      • GoogleNet
      • 批量归一化
      • ResNet
    • 计算机视觉

      • 图像增广
      • 微调
      • 目标检测
      • 锚框
      • 区域卷积神经网络
      • 单发多框检测
      • 一次看完
      • 语义分割
      • 转置卷积
      • 全连接卷积神经网络
      • 样式迁移
    • 循环神经网络

      • 序列模型
      • 语言模型
      • 循环神经网络
      • 序列到序列学习
      • 搜索策略
    • 注意力机制

      • 优化算法

大语言模型架构 - Encoder-Decoder

概述

编码器部分与Encoder-only 架构中的编码器相同,由多个编码模块堆叠而成,每个编码模块包含一个自注意力模块以及一个全连接前馈模块。模型的输入序列在通过编码器部分后会被转变为固定大小的上下文向量,这个向量包含了输入序列的丰富语义信息。解码器同样由多个解码模块堆叠而成,每个解码模块由一个带掩码的自注意力模块、一个交叉注意力模块和个全连接前馈模块组成。其中,带掩码的自注意力模块引入掩码机制防止未来信息的“泄露”,确保解码过程的自回归特性。

通过自注意力和交叉注意力机制的结合,Encoder-Decoder 架构能够高效地编码输入信息并生成高质量的输出序列。

T5模型

T5,全称为 Text-To-Text Transfer Transformer,是 Google 在 2019 年提出的一个具有里程碑意义的 NLP 模型。它的核心思想非常强大且统一:将所有 NLP 任务都重构为“文本到文本”的形式。

核心思想:统一的文本到文本框架

在 T5 之前,不同的 NLP 任务有不同的模型架构和输出形式:

  • 分类任务:输出一个类别标签。
  • 翻译任务:输出另一种语言的序列。
  • 摘要任务:输出一个缩短的序列。

T5 打破了这种界限。它提出,每一个任务都可以被看作是从一段输入文本生成另一段输出文本。

这意味着:

  • 输入:总是字符串。
  • 输出:也总是字符串。

为了实现这一点,T5 在输入文本前加上一个任务前缀,来告诉模型需要执行什么任务。

举例说明:

任务输入文本输出文本
翻译translate English to German: That is good.Das ist gut.
情感分析cola sentence: The course is jumping well.not acceptable
摘要summarize: state authorities ...California is ...
语义相似度stsb sentence1: The bird is bathing. sentence2: The bird is in the water.3.8 (即使是数字也作为字符串输出)
文本蕴含mnli premise: I hate pigeons. hypothesis: My feelings towards pigeons are filled with animosity.entailment

这种统一的框架使得一个单一的模型就可以处理各种各样、看似不相关的任务。

模型架构

T5 的模型架构基于经典的 Transformer 模型,具体来说是 编码器-解码器 结构。

像其他大型模型一样,T5 也有一系列不同规模的变体,以在效率和性能之间取得平衡。

模型变体参数量编码器层数解码器层数注意力头数隐藏层维度
T5-Small60 million668512
T5-Base220 million121212768
T5-Large770 million2424161024
T5-3B3 billion2424321024
T5-11B11 billion24241281024

此外,后续还出现了一些重要的改进版本:

  • mT5:多语言 T5,在涵盖 100 多种语言的 Common Crawl 数据上预训练,支持跨语言任务。
  • ByT5:一个基于字节(Byte)级别的 T5 模型,不依赖分词器,对所有语言都更加公平,尤其在处理生僻字、表情符号和拼写错误方面表现更好。
  • Flan-T5:指令微调 版本的 T5。它在包含大量指令任务的数据集上进行了进一步的微调,使其在零样本和少样本学习能力上大幅提升,能更好地理解和遵循人类的指令。Flan-T5 是目前最常用、性能最好的 T5 变体之一。

优势与特点

  1. 统一性:一套模型、一套代码可以解决多种问题,极大地简化了研究和工程部署。
  2. 简洁性:输入输出格式的统一使得数据处理和模型接口设计变得非常简单。
  3. 强大的性能:在发布时,T5 在 GLUE、SuperGLUE 等多个 NLP 基准测试上取得了领先水平。
  4. 可复现性与开放性:Google 不仅发布了论文,还开源了代码、预训练模型和 C4 数据集,对整个社区的发展起到了巨大的推动作用。
最近更新: 2026/1/24 10:44
Contributors: klc407073648
Prev
Encoder-only
Next
Decoder-only