AI知识分享AI知识分享
✿导航
  • 人工智能
  • 神经网络
  • 机器学习
  • 深度学习
  • 强化学习
  • 自然语言处理
  • 计算机视觉
  • 大模型基础
  • 动手学深度学习
  • 理论理解
  • 工程实践
  • 应用开发
  • AI For Everyone
  • AIGC_2024大会
  • AIGC_2025大会
  • Transformer
  • Pytorch
  • HuggingFace
  • 蒸馏
  • RAG
  • 目标检测
  • MCP
  • 概念
  • 意图识别
  • 工具
✿导航
  • 人工智能
  • 神经网络
  • 机器学习
  • 深度学习
  • 强化学习
  • 自然语言处理
  • 计算机视觉
  • 大模型基础
  • 动手学深度学习
  • 理论理解
  • 工程实践
  • 应用开发
  • AI For Everyone
  • AIGC_2024大会
  • AIGC_2025大会
  • Transformer
  • Pytorch
  • HuggingFace
  • 蒸馏
  • RAG
  • 目标检测
  • MCP
  • 概念
  • 意图识别
  • 工具
  • 大模型基础

    • 语言模型基础

      • 概述
      • 基于统计方法的语言模型
      • 基于神经网络的语言模型
      • 语言模型的采样方法
      • 语言模型的评测
    • 大语言模型架构

      • 概述
      • 主流模型架构
      • Encoder-only
      • Encoder-Decoder
      • Decoder-only
      • 非Transformer 架构
    • Prompt工程

      • 工程简介
      • 上下文学习
      • 思维链
      • 技巧
    • 参数高效微调

      • 概述
      • 参数附加方法
      • 参数选择方法
      • 低秩适配方法
      • 实践与应用
    • 模型编辑

      • 简介
      • 方法
      • 附加参数法
      • 定位编辑法
    • RAG

      • 基础
      • 架构
      • 知识检索
      • 生成增强
  • 动手学深度学习

    • 深度学习基础

      • 引言
      • 数据操作
      • 数据预处理
      • 数学知识(线代、矩阵计算、求导)
      • 线性回归
      • 基础优化方法
      • Softmax回归
      • 感知机
      • 模型选择
      • 过拟合和欠拟合
      • 环境和分布偏移
      • 权重衰减
      • Dropout
      • 数值稳定性
    • 卷积神经网络

      • 模型基本操作
      • 从全连接层到卷积
      • 填充和步长
      • 多个输入和输出通道
      • 池化层
      • LeNet
      • AlexNet
      • VGG
      • NiN网络
      • GoogleNet
      • 批量归一化
      • ResNet
    • 计算机视觉

      • 图像增广
      • 微调
      • 目标检测
      • 锚框
      • 区域卷积神经网络
      • 单发多框检测
      • 一次看完
      • 语义分割
      • 转置卷积
      • 全连接卷积神经网络
      • 样式迁移
    • 循环神经网络

      • 序列模型
      • 语言模型
      • 循环神经网络
      • 序列到序列学习
      • 搜索策略
    • 注意力机制

      • 优化算法

语言模型基础 - 基于统计方法的语言模型

概述

语言模型通过对语料库(Corpus)中的语料进行统计或学习来获得预测语言符号概率的能力。

通常,基于统计的语言模型通过直接统计语言符号在语料库中出现的频率来预测语言符号的概率。其中,n-grams 是最具代表性的统计语言模型。n-grams 语言模型基于马尔可夫假设和离散变量的极大似然估计给出语言符号的概率。

n-grams 语言模型

n-grams 语言模型中的n-gram 指的是长度为n的词序列。n-grams 语言模型通过依次统计文本中的n-gram 及其对应的(n-1)-gram 在语料库中出现的相对频率来计算文本w1:N 出现的概率。计算公式如下所示:

其中,C(wi−n+1:i) 为词序列{wi−n+1, ..., wi}在语料库中出现的次数,C(wi−n+1:i−1)为词序列{wi−n+1, ..., wi−1}在语料库中出现的次数。

n 阶马尔可夫假设

对序列 {w1, w2, w3, ..., wN },当前状态 wN 出现的概率只与前 n 个状态{wN−n, ..., wN−1}有关,即:

P(wN |w1, w2, ..., wN−1) ≈ P (wN |wN−n, ..., wN−1)

离散型随机变量的极大似然估计

给定离散型随机变量X 的分布律为P {X = x}= p(x; θ) ,设X1, ..., XN 为来自X的样本,x1, ..., xN 为对应的观察值,θ 为待估计参数。在参数θ下,分 布函数随机取到x1, ..., xN 的概率为:

总结

在上述两个定义的基础上,对n-grams 的统计原理进行讨论。设文本w1:N 出现的概率为P(w1:N)。根据条件概率的链式法则P(w1:N)可由下式进行计算。

根据n 阶马尔可夫假设,n-grams 语言模型令P(wi|wi−n:i−1)近似P(wi|w1:i−1)。然后,根据离散型随机变量的极大似然估计,令C(wi−n:i)/C(wi−n:i−1) 近似P(wi|wi−n:i−1)。从而,得到n-grams语言模型的输出Pn-grams(w1:N)是对P(wi|w1:i−1)的近似。即

Pn-grams(w1:N) ≈ P(w1:N)

n-grams 语言模型通过统计词序列在语料库中出现的频率来预测语言符号的概率。其对未知序列有一定的泛化性,但也容易陷入“零概率”的困境。随着神经网络的发展,基于各类神经网络的语言模型不断被提出,泛化能力越来越强。

最近更新: 2026/1/24 10:44
Contributors: klc407073648
Prev
概述
Next
基于神经网络的语言模型