NER

命名实体识别（Named Entity Recognition，简称 NER），也被称为实体识别或实体抽取，是自然语言处理（NLP）中的一项基础任务。它的目标是从非结构化的文本中自动识别出具有特定意义的实体，并将这些实体分类到预定义的类别中。

其核心任务可以分为两个部分：

识别实体：找到文本中的命名实体
分类实体：为识别出的实体分配类别

常见的实体类别包括

人名（Person）：如“马云”、“爱因斯坦”。
地名（Location）：如“北京”、“太平洋”、“珠穆朗玛峰”。
组织名（Organization）：如“阿里巴巴”、“联合国”、“清华大学”。
时间（Time）：如“2025年”、“昨天”、“上午10点”。
数量（Quantity）：如“100米”、“50公斤”。
货币（Money）：如“100美元”、“500元人民币”。
百分比（Percent）：如“50%”、“百分之百”。
专有名词（Miscellaneous）：一些特定领域的专有名词，如疾病名、产品名等。

应用场景

信息抽取：从新闻、报告等文本中提取关键信息。
问答系统：理解问题中的关键实体，快速定位答案。
机器翻译：准确翻译专有名词和特定表达。
知识图谱构建：识别实体并建立实体间的关系。
智能搜索：提升搜索引擎对用户查询的理解能力。
文本摘要：识别文本中的核心实体，生成更精准的摘要。

方法

基于规则的方法：使用手工编写的规则（如正则表达式、词典匹配）来识别实体。优点是精确度高，缺点是覆盖范围有限，维护成本高。
基于统计的方法：利用机器学习模型（如隐马尔可夫模型 HMM、条件随机场 CRF）进行序列标注。需要大量标注数据进行训练。
基于深度学习的方法：近年来，深度学习模型（如 BiLSTM-CRF、BERT 等预训练语言模型）在 NER 任务上取得了显著成果，能够更好地捕捉上下文信息，提升识别准确率。

BIO或BIOES标注体系

传统的深度学习模型通常使用BIO或BIOES标注体系：

BIO: B-实体开始，I-实体内部，O-非实体
BIOES: 增加E(实体结束)和S(单字实体)

示例

输入文本：

“2025年8月22日，阿里巴巴集团在杭州发布了新一代人工智能模型。”

命名实体识别结果：

时间：2025年8月22日
组织名：阿里巴巴集团
地名：杭州