AI知识分享AI知识分享
✿导航
  • 人工智能
  • 神经网络
  • 机器学习
  • 深度学习
  • 强化学习
  • 自然语言处理
  • 计算机视觉
  • 大模型基础
  • 动手学深度学习
  • 理论理解
  • 工程实践
  • 应用开发
  • AI For Everyone
  • AIGC_2024大会
  • AIGC_2025大会
  • Transformer
  • Pytorch
  • HuggingFace
  • 蒸馏
  • RAG
  • 目标检测
  • MCP
  • 概念
  • 意图识别
  • 工具
✿导航
  • 人工智能
  • 神经网络
  • 机器学习
  • 深度学习
  • 强化学习
  • 自然语言处理
  • 计算机视觉
  • 大模型基础
  • 动手学深度学习
  • 理论理解
  • 工程实践
  • 应用开发
  • AI For Everyone
  • AIGC_2024大会
  • AIGC_2025大会
  • Transformer
  • Pytorch
  • HuggingFace
  • 蒸馏
  • RAG
  • 目标检测
  • MCP
  • 概念
  • 意图识别
  • 工具
  • 大模型基础

    • 语言模型基础

      • 概述
      • 基于统计方法的语言模型
      • 基于神经网络的语言模型
      • 语言模型的采样方法
      • 语言模型的评测
    • 大语言模型架构

      • 概述
      • 主流模型架构
      • Encoder-only
      • Encoder-Decoder
      • Decoder-only
      • 非Transformer 架构
    • Prompt工程

      • 工程简介
      • 上下文学习
      • 思维链
      • 技巧
    • 参数高效微调

      • 概述
      • 参数附加方法
      • 参数选择方法
      • 低秩适配方法
      • 实践与应用
    • 模型编辑

      • 简介
      • 方法
      • 附加参数法
      • 定位编辑法
    • RAG

      • 基础
      • 架构
      • 知识检索
      • 生成增强
  • 动手学深度学习

    • 深度学习基础

      • 引言
      • 数据操作
      • 数据预处理
      • 数学知识(线代、矩阵计算、求导)
      • 线性回归
      • 基础优化方法
      • Softmax回归
      • 感知机
      • 模型选择
      • 过拟合和欠拟合
      • 环境和分布偏移
      • 权重衰减
      • Dropout
      • 数值稳定性
    • 卷积神经网络

      • 模型基本操作
      • 从全连接层到卷积
      • 填充和步长
      • 多个输入和输出通道
      • 池化层
      • LeNet
      • AlexNet
      • VGG
      • NiN网络
      • GoogleNet
      • 批量归一化
      • ResNet
    • 计算机视觉

      • 图像增广
      • 微调
      • 目标检测
      • 锚框
      • 区域卷积神经网络
      • 单发多框检测
      • 一次看完
      • 语义分割
      • 转置卷积
      • 全连接卷积神经网络
      • 样式迁移
    • 循环神经网络

      • 序列模型
      • 语言模型
      • 循环神经网络
      • 序列到序列学习
      • 搜索策略
    • 注意力机制

      • 优化算法

语言模型基础 - 概述

概述

语言模型经历了从规则模型到统计模型,再到神经网络模型的发展历程。

1. 规则模型(Rule-Based Models)

  • 时间范围:1950s – 1980s
  • 核心思想:基于人工编写的语言学规则(如语法、词法)来生成或理解语言。
  • 代表方法/系统:
    • 乔姆斯基的生成语法(Generative Grammar)
    • 专家系统(如 SHRDLU)
    • 手工规则引擎
  • 优点:
    • ✅ 可解释性强
    • ✅ 逻辑清晰,适合特定封闭领域
  • 缺点:
    • ❌ 覆盖面窄,难以应对语言的多样性
    • ❌ 难以扩展,新规则需人工编写
    • ❌ 维护成本高,规则冲突频发

典型应用:早期的机器翻译系统、对话系统(如 ELIZA)

2. 统计模型(Statistical Models)

  • 时间范围:1990s – 2000s
  • 核心思想:基于大规模语料库,使用概率统计方法学习语言规律。
  • 代表方法/系统:
    • N-gram 模型
    • 隐马尔可夫模型(HMM)
    • 最大熵模型
    • 早期机器翻译(如 IBM 模型系列)
  • 优点:
    • ✅ 数据驱动,泛化能力更强
    • ✅ 能处理一定程度的语言变异性
    • ✅ 可通过最大似然估计等方法进行参数学习
  • 缺点:
    • ❌ 依赖人工特征工程
    • ❌ 上下文窗口短(如 N-gram 通常 N≤3)
    • ❌ 数据稀疏问题严重(“未登录词”问题)
    • ❌ 难以捕捉长距离依赖

典型应用:语音识别、拼写纠错、统计机器翻译(SMT)

3. 神经网络模型(Neural Models)

  • 时间范围:2010s – 至今
  • 核心思想:使用深度学习自动学习语言的分布式表示和复杂模式。
  • 代表方法/系统:
    • 词向量模型:Word2Vec、GloVe
    • 序列模型:RNN、LSTM、GRU
    • 架构革命:Transformer
    • 预训练大模型:BERT、GPT 系列、T5、LLaMA 等
  • 优点:
    • ✅ 强大的上下文建模能力(尤其是 Transformer)
    • ✅ 端到端学习,减少特征工程
    • ✅ 迁移能力强,支持少样本/零样本学习
    • ✅ 在多种 NLP 任务上达到或超越人类水平
  • 缺点:
    • ❌ 黑箱模型,可解释性差
    • ❌ 计算资源消耗大(训练成本高)
    • ❌ 可能产生“幻觉”(生成虚假信息)
    • ❌ 模型偏见与伦理问题

典型应用:问答系统、文本生成、机器翻译、摘要、对话代理(如 ChatGPT)

最近更新: 2026/1/24 10:44
Contributors: klc407073648
Next
基于统计方法的语言模型