-
题名多场景文本的细粒度命名实体识别
被引量:15
- 1
-
-
作者
盛剑
向政鹏
秦兵
刘铭
王莉峰
-
机构
哈尔滨工业大学社会技术与信息检索研究中心
腾讯科技(深圳)有限公司
-
出处
《中文信息学报》
CSCD
北大核心
2019年第6期80-87,共8页
-
基金
国家自然科学基金(61632011,61772156,61472107)
-
文摘
命名实体识别一直是数据挖掘领域的经典问题之一,尤其随着网络数据的剧增,如果能对多来源的文本数据进行多领域、细粒度的命名实体识别,显然能够为很多的数据挖掘应用提供支持。该文提出一种多领域、细粒度的命名实体识别方法,利用网络词典回标文本数据获得了大量的粗糙训练文本。为防止训练文本中的噪声干扰命名实体识别的结果,该算法将命名实体识别的过程划分为两个阶段,第一个阶段先获得命名实体的领域标签,之后利用命名实体的上下文确定命名实体的细粒度标签。实验结果显示,该文提出的方法使F1值在全领域上平均值达到了80%左右。
-
关键词
命名实体识别
细粒度类别划分
语料回标
-
Keywords
named entity recognition
fine-grained category annotation
corpus annotation
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-