AI知识分享AI知识分享
✿导航
  • 人工智能
  • 神经网络
  • 机器学习
  • 深度学习
  • 强化学习
  • 自然语言处理
  • 计算机视觉
  • 大模型基础
  • 动手学深度学习
  • 理论理解
  • 工程实践
  • 应用开发
  • AI For Everyone
  • AIGC_2024大会
  • AIGC_2025大会
  • Transformer
  • Pytorch
  • HuggingFace
  • 蒸馏
  • RAG
  • 目标检测
  • MCP
  • 概念
  • 意图识别
  • 工具
✿导航
  • 人工智能
  • 神经网络
  • 机器学习
  • 深度学习
  • 强化学习
  • 自然语言处理
  • 计算机视觉
  • 大模型基础
  • 动手学深度学习
  • 理论理解
  • 工程实践
  • 应用开发
  • AI For Everyone
  • AIGC_2024大会
  • AIGC_2025大会
  • Transformer
  • Pytorch
  • HuggingFace
  • 蒸馏
  • RAG
  • 目标检测
  • MCP
  • 概念
  • 意图识别
  • 工具
  • Transformer

    • Transformer - 概述
    • Transformer - Encoding and Decoding Context with Attention
    • Transformer - Tokenizers
    • Transformer - 架构
    • Transformer - Block
    • Transformer - 自注意力
    • Transformer - MoE
    • Transformer - Transformer
  • Pytorch

    • Pytorch - Dataset
    • Pytorch - TensorBoard
    • Pytorch - transforms
    • Pytorch - DataLoader
    • Pytorch - nn
    • Pytorch - Model
    • Pytorch - train
    • Pytorch - Practice
    • Pytorch - pytorch
  • HuggingFace

    • HuggingFace - Transformers
    • HuggingFace - Pipeline
    • HuggingFace - Tokenizer
    • HuggingFace - Model
    • HuggingFace - Datasets
    • HuggingFace - Evaluate
    • HuggingFace - Trainer

Transformer - 自注意力

  • Multi-Head Attention
  • Multi-Query Attention
  • Grouped-Query Attention
  • Sparse Attention, 稀疏注意力
  • Ring Attention
  • Paper: The Llama 3 Herd of Models

概念

投影矩阵

Self-Attention Projection Matrices

相关性评分的最终目标

Relevance Scoring: End Goal

推荐的注意力课程:

  • Attention in Transformers: Concepts and Code in PyTorch

与其他token的联合信息

Combining Information

Multi-Head Attention

Multi-Head Attention

每个注意力头都有自己的键、查询、值矩阵

Multi-Query Attention

  • 高效计算自注意力的方法之一
  • 自注意力组件贡献了大部分计算

Multi-Query Attention

  • 每个转换器块共享键和值矩阵
  • 可以视为参数的压缩

Grouped-Query Attention

Grouped-Query Attention

  • 它不是单个键和值矩阵,而是具有相同数量的组。
  • 对于大型模型,其效果比多查询注意力更好。

Sparse Attention, 稀疏注意力

Sparse Attention

  • 局部注意力通过仅关注少数先前位置来提高大型模型的性能。
  • 这不需要应用于所有层。
    • 第一层可以关注所有先前位置。
    • 但交错层可以关注少数先前位置。
  • 完全注意力 vs 稀疏注意力

Full attention vs Sparse attention

  • Source: Generating Long Sequences with Sparse Transformers by Child et al (2019)

Ring Attention

  • 使用多个设备扩展到接近无限的上下文窗口

  • Referred blog: Coconut Mode

Paper: The Llama 3 Herd of Models

  • 8B parameter model's hyperparameters visualization

Llama 3 8B parameter model

最近更新: 2025/4/5 15:37
Contributors: klc407073648
Prev
Transformer - Block
Next
Transformer - MoE