Transformer - 概述

TRansformer

理解语言模型的发展

Recent history of Language AI

模型架构

Recent history of Language AI

理解语言模型

语言模型

Bag of Words, 词袋模型
- 将单词表示为大型稀疏向量或数字数组
- 这些数字简单地记录单词的存在，并不考虑单词在语义场景中的本质
- 通过统计词语的出现频率来表示文档，并忽略了词序、句法结构和语义关系。

Word2Vec
- 单词表示在几个相邻单词的上下文中捕获单词的含义
  - 如果两个单词倾向于有相同的邻居，那么它们的嵌入将彼此更接近
Transformers
- 密集向量在句子或段落的上下文中捕获单词的含义

嵌入

"Embedding"指的是将离散的变量（如单词、字符或其他分类数据）映射到连续向量空间的过程。这种表示方法允许模型捕捉到输入数据之间的语义关系。以下是几种常见的嵌入类型：

Word Embeddings（词嵌入）
- 根据标记器的词汇表将单词拆分为标记。
- 通过平均拆分标记的嵌入来创建词嵌入。
Character Embeddings（字符嵌入）
Subword Embeddings（子词嵌入）
Contextual Embeddings（上下文嵌入）
Position Embeddings（位置嵌入）
Sentence/Document Embeddings（句子/文档嵌入）

Representation Model

用注意力机制对上下文进行编码和解码

循环神经网络 (RNN)

用于对整个序列进行建模
一种动态考虑上下文的方法

示例：将英文句子翻译成荷兰语句子

RNNs

Auto-Regressive

自回归（Autoregression, AR）是一种时间序列分析方法，用于预测未来值基于该序列过去的值。

Generates one token at a time

Auto-Regressive

编码和解码上下文

Encoding and Decoding Context

缺点

上下文嵌入是针对整个文本序列的单一嵌入。
它可能不足以捕捉长序列的上下文。

Attention，注意力

Attention

注意力机制允许模型将注意力集中在输入中彼此相关的部分
“关注”彼此并放大其信号

自回归

Autoregressive

由于注意力机制的存在，输出往往会好得多，因为我们现在使用每个标记的嵌入来查看整个序列，而不是更小、更有限的上下文嵌入。
这种架构的顺序性阻碍了模型训练期间的并行化。