语言模型基础 - 概述

概述

语言模型经历了从规则模型到统计模型，再到神经网络模型的发展历程。

1. 规则模型（Rule-Based Models）

时间范围：1950s – 1980s
核心思想：基于人工编写的语言学规则（如语法、词法）来生成或理解语言。
代表方法/系统：
- 乔姆斯基的生成语法（Generative Grammar）
- 专家系统（如 SHRDLU）
- 手工规则引擎
优点：
- ✅ 可解释性强
- ✅ 逻辑清晰，适合特定封闭领域
缺点：
- ❌ 覆盖面窄，难以应对语言的多样性
- ❌ 难以扩展，新规则需人工编写
- ❌ 维护成本高，规则冲突频发

典型应用：早期的机器翻译系统、对话系统（如 ELIZA）

2. 统计模型（Statistical Models）

时间范围：1990s – 2000s
核心思想：基于大规模语料库，使用概率统计方法学习语言规律。
代表方法/系统：
- N-gram 模型
- 隐马尔可夫模型（HMM）
- 最大熵模型
- 早期机器翻译（如 IBM 模型系列）
优点：
- ✅ 数据驱动，泛化能力更强
- ✅ 能处理一定程度的语言变异性
- ✅ 可通过最大似然估计等方法进行参数学习
缺点：
- ❌ 依赖人工特征工程
- ❌ 上下文窗口短（如 N-gram 通常 N≤3）
- ❌ 数据稀疏问题严重（“未登录词”问题）
- ❌ 难以捕捉长距离依赖

典型应用：语音识别、拼写纠错、统计机器翻译（SMT）

3. 神经网络模型（Neural Models）

时间范围：2010s – 至今
核心思想：使用深度学习自动学习语言的分布式表示和复杂模式。
代表方法/系统：
- 词向量模型：Word2Vec、GloVe
- 序列模型：RNN、LSTM、GRU
- 架构革命：Transformer
- 预训练大模型：BERT、GPT 系列、T5、LLaMA 等
优点：
- ✅ 强大的上下文建模能力（尤其是 Transformer）
- ✅ 端到端学习，减少特征工程
- ✅ 迁移能力强，支持少样本/零样本学习
- ✅ 在多种 NLP 任务上达到或超越人类水平
缺点：
- ❌ 黑箱模型，可解释性差
- ❌ 计算资源消耗大（训练成本高）
- ❌ 可能产生“幻觉”（生成虚假信息）
- ❌ 模型偏见与伦理问题

典型应用：问答系统、文本生成、机器翻译、摘要、对话代理（如 ChatGPT）