大语言模型架构 - 概述
概述
凭借着庞大的参数量和丰富的训练数据,大语言模型不仅展现出了强大的泛化能力,还催生了新智能的涌现,勇立生成式人工智能(Artificial Intelligence Generated Content,AIGC)的浪潮之巅。
大数据+ 大模型→ 能力增强
Kaplan-McCandlish 扩展法则和 Chinchilla 扩展法则是指导大规模语言模型(LLM)训练时如何平衡模型参数量(N)和训练数据量(D)的两个关键经验法则。它们都试图回答同一个核心问题:为了最有效地利用计算资源,当增加模型大小时,应该增加多少训练数据?
Kaplan-McCandlish 扩展法则
为了达到最优模型性能,数据集的规模D以及模型规模N都应同步增加。在模型规模上的投入应当略高于数据规模上的投入。在计算预算固定的情况下,应该优先扩大模型规模,而不是数据集大小。
Chinchilla 扩展法则
数据集量D与模型规模N几乎同等重要,模型规模和数据规模应该以相同的比例增加。对于一个给定的计算预算,存在一个最优的模型参数量和训练数据量的组合。单纯地放大模型而忽视数据量是低效的。
总结
两者对比:

大数据+ 大模型→ 能力扩展
大语言模型能力随模型规模涌现:

典型的涌现能力包括:
- 上下文学习
- 指大语言模型在推理过程中,能够利用输入文本的上下文信息来执行特定任务的能力。
- 具备了上下文学习能力的模型,在很多任务中无需额外的训练,仅通过示例或提示即可理解任务要求并生成恰当的输出。
- 常识推理
- 赋予了大语言模型基于常识知识和逻辑进行理解和推断的能力。
- 代码生成
- 允许大语言模型基于自然语言描述自动生成编程代码。
- 逻辑推理
- 使大语言模型能够基于给定信息和规则进行合乎逻辑的推断和结论。
