摘要
命名实体识别一直是数据挖掘领域的经典问题之一,尤其随着网络数据的剧增,如果能对多来源的文本数据进行多领域、细粒度的命名实体识别,显然能够为很多的数据挖掘应用提供支持。该文提出一种多领域、细粒度的命名实体识别方法,利用网络词典回标文本数据获得了大量的粗糙训练文本。为防止训练文本中的噪声干扰命名实体识别的结果,该算法将命名实体识别的过程划分为两个阶段,第一个阶段先获得命名实体的领域标签,之后利用命名实体的上下文确定命名实体的细粒度标签。实验结果显示,该文提出的方法使F1值在全领域上平均值达到了80%左右。
Name entity recognition is a classical research issue in data mining community.To recognize the entities in multi-domain with fine-grained labels,we propose a method of utilizes web thesaurus to annotate web data automatically to acquire large-scale training corpus.To minimize the influence of the noises in training corpus,we design a two-phase entity recognition method.First,the entity’s domain label is obtained.After that,the context of each recognized entity is used to determine the fine-grained label for one entity.Experimental results demonstrate that the proposed method can obtain high accuracy on entity recognition in multiple domains.
作者
盛剑
向政鹏
秦兵
刘铭
王莉峰
SHENG Jian;XIANG Zhengpeng;QIN Bing;LIU Ming;WANG Lifeng(Research Center for Social Computing and Information Retrieval, Harbin Institute of Technology,Harbin. Heilongjiang 150001,China;Tencent Technology(Shenzhen) CO.,Ltd. Shenzhen,Guangdong 518000,China)
出处
《中文信息学报》
CSCD
北大核心
2019年第6期80-87,共8页
Journal of Chinese Information Processing
基金
国家自然科学基金(61632011,61772156,61472107)
关键词
命名实体识别
细粒度类别划分
语料回标
named entity recognition
fine-grained category annotation
corpus annotation