NER
命名实体识别(Named Entity Recognition,简称 NER),也被称为实体识别或实体抽取,是自然语言处理(NLP)中的一项基础任务。它的目标是从非结构化的文本中自动识别出具有特定意义的实体,并将这些实体分类到预定义的类别中。
其核心任务可以分为两个部分:
- 识别实体:找到文本中的命名实体
- 分类实体:为识别出的实体分配类别
常见的实体类别包括
- 人名(Person):如“马云”、“爱因斯坦”。
- 地名(Location):如“北京”、“太平洋”、“珠穆朗玛峰”。
- 组织名(Organization):如“阿里巴巴”、“联合国”、“清华大学”。
- 时间(Time):如“2025年”、“昨天”、“上午10点”。
- 数量(Quantity):如“100米”、“50公斤”。
- 货币(Money):如“100美元”、“500元人民币”。
- 百分比(Percent):如“50%”、“百分之百”。
- 专有名词(Miscellaneous):一些特定领域的专有名词,如疾病名、产品名等。
应用场景
- 信息抽取:从新闻、报告等文本中提取关键信息。
- 问答系统:理解问题中的关键实体,快速定位答案。
- 机器翻译:准确翻译专有名词和特定表达。
- 知识图谱构建:识别实体并建立实体间的关系。
- 智能搜索:提升搜索引擎对用户查询的理解能力。
- 文本摘要:识别文本中的核心实体,生成更精准的摘要。
方法
- 基于规则的方法:使用手工编写的规则(如正则表达式、词典匹配)来识别实体。优点是精确度高,缺点是覆盖范围有限,维护成本高。
- 基于统计的方法:利用机器学习模型(如隐马尔可夫模型 HMM、条件随机场 CRF)进行序列标注。需要大量标注数据进行训练。
- 基于深度学习的方法:近年来,深度学习模型(如 BiLSTM-CRF、BERT 等预训练语言模型)在 NER 任务上取得了显著成果,能够更好地捕捉上下文信息,提升识别准确率。
BIO或BIOES标注体系
传统的深度学习模型通常使用BIO或BIOES标注体系:
- BIO: B-实体开始,I-实体内部,O-非实体
- BIOES: 增加E(实体结束)和S(单字实体)
示例
输入文本:
“2025年8月22日,阿里巴巴集团在杭州发布了新一代人工智能模型。”
命名实体识别结果:
- 时间:2025年8月22日
- 组织名:阿里巴巴集团
- 地名:杭州
