AI知识分享AI知识分享
✿导航
  • 人工智能
  • 神经网络
  • 机器学习
  • 深度学习
  • 强化学习
  • 自然语言处理
  • 计算机视觉
  • 大模型基础
  • 动手学深度学习
  • 理论理解
  • 工程实践
  • 应用开发
  • AI For Everyone
  • AIGC_2024大会
  • AIGC_2025大会
  • Transformer
  • Pytorch
  • HuggingFace
  • 蒸馏
  • RAG
  • 目标检测
  • MCP
  • 概念
  • 意图识别
  • 工具
✿导航
  • 人工智能
  • 神经网络
  • 机器学习
  • 深度学习
  • 强化学习
  • 自然语言处理
  • 计算机视觉
  • 大模型基础
  • 动手学深度学习
  • 理论理解
  • 工程实践
  • 应用开发
  • AI For Everyone
  • AIGC_2024大会
  • AIGC_2025大会
  • Transformer
  • Pytorch
  • HuggingFace
  • 蒸馏
  • RAG
  • 目标检测
  • MCP
  • 概念
  • 意图识别
  • 工具
  • Transformer

    • Transformer - 概述
    • Transformer - Encoding and Decoding Context with Attention
    • Transformer - Tokenizers
    • Transformer - 架构
    • Transformer - Block
    • Transformer - 自注意力
    • Transformer - MoE
    • Transformer - Transformer
  • Pytorch

    • Pytorch - Dataset
    • Pytorch - TensorBoard
    • Pytorch - transforms
    • Pytorch - DataLoader
    • Pytorch - nn
    • Pytorch - Model
    • Pytorch - train
    • Pytorch - Practice
    • Pytorch - pytorch
  • HuggingFace

    • HuggingFace - Transformers
    • HuggingFace - Pipeline
    • HuggingFace - Tokenizer
    • HuggingFace - Model
    • HuggingFace - Datasets
    • HuggingFace - Evaluate
    • HuggingFace - Trainer

Transformer - 概述

  • 语言模型
  • 循环神经网络 (RNN)
  • 自回归

TRansformer

理解语言模型的发展

Recent history of Language AI

模型架构

Recent history of Language AI

理解语言模型

语言模型

  • Bag of Words, 词袋模型
    • 将单词表示为大型稀疏向量或数字数组
    • 这些数字简单地记录单词的存在,并不考虑单词在语义场景中的本质
    • 通过统计词语的出现频率来表示文档,并忽略了词序、句法结构和语义关系。

  • Word2Vec

    • 单词表示在几个相邻单词的上下文中捕获单词的含义
      • 如果两个单词倾向于有相同的邻居,那么它们的嵌入将彼此更接近
  • Transformers

    • 密集向量在句子或段落的上下文中捕获单词的含义

嵌入

"Embedding"指的是将离散的变量(如单词、字符或其他分类数据)映射到连续向量空间的过程。这种表示方法允许模型捕捉到输入数据之间的语义关系。以下是几种常见的嵌入类型:

  • Word Embeddings(词嵌入)
    • 根据标记器的词汇表将单词拆分为标记。
    • 通过平均拆分标记的嵌入来创建词嵌入。
  • Character Embeddings(字符嵌入)
  • Subword Embeddings(子词嵌入)
  • Contextual Embeddings(上下文嵌入)
  • Position Embeddings(位置嵌入)
  • Sentence/Document Embeddings(句子/文档嵌入)

Representation Model

用注意力机制对上下文进行编码和解码

循环神经网络 (RNN)

  • 用于对整个序列进行建模
  • 一种动态考虑上下文的​​方法

示例:将英文句子翻译成荷兰语句子

RNNs

Auto-Regressive

自回归(Autoregression, AR)是一种时间序列分析方法,用于预测未来值基于该序列过去的值。

Generates one token at a time

Auto-Regressive

编码和解码上下文

Encoding and Decoding Context

缺点

  • 上下文嵌入是针对整个文本序列的单一嵌入。
  • 它可能不足以捕捉长序列的上下文。

Attention,注意力

Attention

  • 注意力机制允许模型将注意力集中在输入中彼此相关的部分
  • “关注”彼此并放大其信号

自回归

Autoregressive

  • 由于注意力机制的存在,输出往往会好得多,因为我们现在使用每个标记的嵌入来查看整个序列,而不是更小、更有限的上下文嵌入。

  • 这种架构的顺序性阻碍了模型训练期间的并行化。

最近更新: 2026/1/18 07:53
Contributors: klc407073648
Next
Transformer - Encoding and Decoding Context with Attention