AI知识分享AI知识分享
✿导航
  • 人工智能
  • 神经网络
  • 机器学习
  • 深度学习
  • 强化学习
  • 自然语言处理
  • 计算机视觉
  • 大模型基础
  • 动手学深度学习
  • 理论理解
  • 工程实践
  • 应用开发
  • AI For Everyone
  • AIGC_2024大会
  • AIGC_2025大会
  • Transformer
  • Pytorch
  • HuggingFace
  • 蒸馏
  • RAG
  • 目标检测
  • MCP
  • 概念
  • 意图识别
  • 工具
✿导航
  • 人工智能
  • 神经网络
  • 机器学习
  • 深度学习
  • 强化学习
  • 自然语言处理
  • 计算机视觉
  • 大模型基础
  • 动手学深度学习
  • 理论理解
  • 工程实践
  • 应用开发
  • AI For Everyone
  • AIGC_2024大会
  • AIGC_2025大会
  • Transformer
  • Pytorch
  • HuggingFace
  • 蒸馏
  • RAG
  • 目标检测
  • MCP
  • 概念
  • 意图识别
  • 工具
  • 概念

    • 概念 - 机器学习
    • 概念 - 命名实体识别

NER

命名实体识别(Named Entity Recognition,简称 NER),也被称为实体识别或实体抽取,是自然语言处理(NLP)中的一项基础任务。它的目标是从非结构化的文本中自动识别出具有特定意义的实体,并将这些实体分类到预定义的类别中。

其核心任务可以分为两个部分:

  • 识别实体:找到文本中的命名实体
  • 分类实体:为识别出的实体分配类别

常见的实体类别包括

  1. 人名(Person):如“马云”、“爱因斯坦”。
  2. 地名(Location):如“北京”、“太平洋”、“珠穆朗玛峰”。
  3. 组织名(Organization):如“阿里巴巴”、“联合国”、“清华大学”。
  4. 时间(Time):如“2025年”、“昨天”、“上午10点”。
  5. 数量(Quantity):如“100米”、“50公斤”。
  6. 货币(Money):如“100美元”、“500元人民币”。
  7. 百分比(Percent):如“50%”、“百分之百”。
  8. 专有名词(Miscellaneous):一些特定领域的专有名词,如疾病名、产品名等。

应用场景

  • 信息抽取:从新闻、报告等文本中提取关键信息。
  • 问答系统:理解问题中的关键实体,快速定位答案。
  • 机器翻译:准确翻译专有名词和特定表达。
  • 知识图谱构建:识别实体并建立实体间的关系。
  • 智能搜索:提升搜索引擎对用户查询的理解能力。
  • 文本摘要:识别文本中的核心实体,生成更精准的摘要。

方法

  1. 基于规则的方法:使用手工编写的规则(如正则表达式、词典匹配)来识别实体。优点是精确度高,缺点是覆盖范围有限,维护成本高。
  2. 基于统计的方法:利用机器学习模型(如隐马尔可夫模型 HMM、条件随机场 CRF)进行序列标注。需要大量标注数据进行训练。
  3. 基于深度学习的方法:近年来,深度学习模型(如 BiLSTM-CRF、BERT 等预训练语言模型)在 NER 任务上取得了显著成果,能够更好地捕捉上下文信息,提升识别准确率。

BIO或BIOES标注体系

传统的深度学习模型通常使用BIO或BIOES标注体系:

  • BIO: B-实体开始,I-实体内部,O-非实体
  • BIOES: 增加E(实体结束)和S(单字实体)

示例

输入文本:

“2025年8月22日,阿里巴巴集团在杭州发布了新一代人工智能模型。”

命名实体识别结果:

  • 时间:2025年8月22日
  • 组织名:阿里巴巴集团
  • 地名:杭州
最近更新: 2026/1/24 10:44
Contributors: klc407073648
Prev
概念 - 机器学习