Transformer - 架构

组件

三个主要组件：

Tokenizer
Transformer块堆栈
语言模型头

Tokenizer 包含词汇表，模型包含token嵌入

Tokenizer: Vocabulary and Model: Token embeddings

语言模型头为下一个输出的最佳（最可能）token打分

LM head output

存在多种解码策略来选择最佳输出token

Decoding strategies

选择最高的
- temperature = 0
- 贪婪解码
选择 top_p
- 这会根据概率考虑多个token，即不限于最高概率的token。
添加随机性
- temperature > 0

并行多个轨道

轨道数量 = 上下文长度

Multiple tracks in Transformer

Transformer 中生成的输出 token 是最终 token 的输出。
TTFT：第一个 token 的时间
- 模型处理上述计算所花费的时间

KV 缓存

KV Caching

第一个 token 生成后，输入还包含生成的 token。