AI知识分享AI知识分享
✿导航
  • 人工智能
  • 神经网络
  • 机器学习
  • 深度学习
  • 强化学习
  • 自然语言处理
  • 计算机视觉
  • 大模型基础
  • 动手学深度学习
  • 理论理解
  • 工程实践
  • 应用开发
  • AI For Everyone
  • AIGC_2024大会
  • AIGC_2025大会
  • Transformer
  • Pytorch
  • HuggingFace
  • 蒸馏
  • RAG
  • 目标检测
  • MCP
  • 概念
  • 意图识别
  • 工具
✿导航
  • 人工智能
  • 神经网络
  • 机器学习
  • 深度学习
  • 强化学习
  • 自然语言处理
  • 计算机视觉
  • 大模型基础
  • 动手学深度学习
  • 理论理解
  • 工程实践
  • 应用开发
  • AI For Everyone
  • AIGC_2024大会
  • AIGC_2025大会
  • Transformer
  • Pytorch
  • HuggingFace
  • 蒸馏
  • RAG
  • 目标检测
  • MCP
  • 概念
  • 意图识别
  • 工具
  • Transformer

    • Transformer - 概述
    • Transformer - Encoding and Decoding Context with Attention
    • Transformer - Tokenizers
    • Transformer - 架构
    • Transformer - Block
    • Transformer - 自注意力
    • Transformer - MoE
    • Transformer - Transformer
  • Pytorch

    • Pytorch - Dataset
    • Pytorch - TensorBoard
    • Pytorch - transforms
    • Pytorch - DataLoader
    • Pytorch - nn
    • Pytorch - Model
    • Pytorch - train
    • Pytorch - Practice
    • Pytorch - pytorch
  • HuggingFace

    • HuggingFace - Transformers
    • HuggingFace - Pipeline
    • HuggingFace - Tokenizer
    • HuggingFace - Model
    • HuggingFace - Datasets
    • HuggingFace - Evaluate
    • HuggingFace - Trainer

Transformer - MoE

  • Intuition #1
  • Intuition #2
  • A Dense Neural Network
  • What are Experts?
  • Routing the input
  • Computational Requirements

概念

混合专家模型,Mixture of Experts (MoE)

Mixture of Experts

  • 路由器充当分类器
  • 使用多个子模型来提高 LLM 的质量
  • 推荐博客: A Visual Guide to Mixture of Experts (MoE)

Intuition #1

A set of experts for each layer

  • 不应将每个专家视为一个整体组件
  • 相反,每一层都有一组专门处理特定token的专家

Intuition #2

Experts focus on specific kind of tokens

  • “专家”并非专门研究特定领域的,例如“心理学”或“生物学”等
  • 相反,这些“专家”可能倾向于关注特定类型的标记,并专注于如何最好地处理它们。

Router

  • 每层的路由器选择最佳专家来处理输入向量

  • MoE 组件取代单个 FFNN

Replacement of FFNN with MoE

A Dense Neural Network

Attention Layer

  • 注意力层以这样的方式准备输入,即在向量中存储更多的上下文信息。

Dense Model

  • 密集网络:所有参数均被利用
  • 该网络通常是 LLM 中最大的组成部分之一。

What are Experts?

Experts

  • Expert 并不专攻心理学或生物学等特定领域。
  • 它最多在 token 级别上学习句法信息。

Sparse Model

  • Sparse model,稀疏模型
    • 由于在给定时间内只有一部分专家被激活。
    • 通常称为专家混合 (MoE) 层。

Routing the input

Routing the input

  • 路由器获取输入数据并针对特定输入选择最适合的专家。
  • 路由器本身是一个前馈神经网络,但与专家相比相当小。

MoE layer

  • 路由器可以选择单个或多个专家。
  • 如果有多个专家,最终输出是加权和,权重是概率分数。

Computational Requirements

  • MoE 中使用的参数大致可分为五个部分:

    • 输入嵌入
    • 掩蔽自注意力
    • 路由器
    • 专家
    • 输出嵌入
  • Sparse Parameters

Sparse Parameters

  • Active Parameters

Active Parameters

  • 虽然所有专家都需要加载到内存中,但只有一部分用于推理。

  • Computing parameters in Mixtral 8x7B

Mixtral 8x7B: Sparse vs Active parameters

  • Sparse vs Active parameters

优缺点

  • VRAM 视频随机存取存储器
    • 加载高
    • 推理低
  • 过度拟合风险
    • 单个专家过度拟合的风险
    • 需要仔细平衡模型
  • 性能
    • 往往高于传统模型,因为专家有助于消除计算中的冗余
  • 架构
    • Complex: 需要仔细训练
    • Flexible:
      • 选择和使用的专家灵活
      • 由于 MoE 层仅影响前馈层而不影响注意层,因此它可以被状态空间模型使用,例如 Mamba 和 Zamba
最近更新: 2025/4/5 15:37
Contributors: klc407073648
Prev
Transformer - 自注意力
Next
Transformer - Transformer