语言模型基础 - 概述
概述
语言模型经历了从规则模型到统计模型,再到神经网络模型的发展历程。
1. 规则模型(Rule-Based Models)
- 时间范围:1950s – 1980s
- 核心思想:基于人工编写的语言学规则(如语法、词法)来生成或理解语言。
- 代表方法/系统:
- 乔姆斯基的生成语法(Generative Grammar)
- 专家系统(如 SHRDLU)
- 手工规则引擎
- 优点:
- ✅ 可解释性强
- ✅ 逻辑清晰,适合特定封闭领域
- 缺点:
- ❌ 覆盖面窄,难以应对语言的多样性
- ❌ 难以扩展,新规则需人工编写
- ❌ 维护成本高,规则冲突频发
典型应用:早期的机器翻译系统、对话系统(如 ELIZA)
2. 统计模型(Statistical Models)
- 时间范围:1990s – 2000s
- 核心思想:基于大规模语料库,使用概率统计方法学习语言规律。
- 代表方法/系统:
- N-gram 模型
- 隐马尔可夫模型(HMM)
- 最大熵模型
- 早期机器翻译(如 IBM 模型系列)
- 优点:
- ✅ 数据驱动,泛化能力更强
- ✅ 能处理一定程度的语言变异性
- ✅ 可通过最大似然估计等方法进行参数学习
- 缺点:
- ❌ 依赖人工特征工程
- ❌ 上下文窗口短(如 N-gram 通常 N≤3)
- ❌ 数据稀疏问题严重(“未登录词”问题)
- ❌ 难以捕捉长距离依赖
典型应用:语音识别、拼写纠错、统计机器翻译(SMT)
3. 神经网络模型(Neural Models)
- 时间范围:2010s – 至今
- 核心思想:使用深度学习自动学习语言的分布式表示和复杂模式。
- 代表方法/系统:
- 词向量模型:Word2Vec、GloVe
- 序列模型:RNN、LSTM、GRU
- 架构革命:Transformer
- 预训练大模型:BERT、GPT 系列、T5、LLaMA 等
- 优点:
- ✅ 强大的上下文建模能力(尤其是 Transformer)
- ✅ 端到端学习,减少特征工程
- ✅ 迁移能力强,支持少样本/零样本学习
- ✅ 在多种 NLP 任务上达到或超越人类水平
- 缺点:
- ❌ 黑箱模型,可解释性差
- ❌ 计算资源消耗大(训练成本高)
- ❌ 可能产生“幻觉”(生成虚假信息)
- ❌ 模型偏见与伦理问题
典型应用:问答系统、文本生成、机器翻译、摘要、对话代理(如 ChatGPT)
