摘要
新闻文本中的人名纠错存在以下难点:1)人名中含有错误字段会影响甚至改变文本语义表达,故无法用传统命名实体识别方法识别句中人名;2)人名字段的特殊性极易产生重名或者歧义,使得误报率增加,并提升了人名纠错的难度.为此,本文提出了一种基于上下文语义的新闻人名纠错方法.该方法使用卷积神经网络提取文本语义信息,并使用词激活力模型计算文本中其他词语与人名字段的关联程度来捕捉并使用文本上下文语义信息.同时,针对文本中人名字段中含有错误而导致的识别效果低下的问题,使用人名实体边界识别算法提高对文本中疑似含有错误人名的识别提取效果.实验结果表明,该方法能够有效地识别文本中的人名并对其中的错误内容进行纠正.
In news texts,incorrect fields in names will affect or even change the semantic expression of the text and the particularity of name fields will generate duplicate name or ambiguity.For solving these problems,this paper proposes a novel news name correction method based on context semantics.This method uses convolutional neural network to extract the semantic information of texts,and adopts word activation model to calculate the degree of association between other words and name fields in texts to capture and use the semantic information of text context.At the same time,aiming at the problem of low recognition caused by errors in the field of human name in texts,the entity boundary recognition algorithm of names is used to improve the recognition and extraction effect of names that are suspected to contain errors in the text.The experimental results show that the method can effectively identify the names in the text and correct the errors.
作者
杨越
黄瑞章
魏琴
陈艳平
秦永彬
YANG Yue;HUANG Rui-zhang;WEI Qin;CHEN Yan-ping;QIN Yong-bin(School of Computer Science and Technology,Guizhou University Guiyang 550025;Public Big Data Laboratory of Guizhou,Guizhou University Guiyang 550025)
出处
《电子科技大学学报》
EI
CAS
CSCD
北大核心
2019年第6期809-814,共6页
Journal of University of Electronic Science and Technology of China
基金
国家自然科学基金联合基金重点项目(U1836205)
国家自然科学基金重大研究计划(91746116)
贵州省自然科学基金(黔科合基础[2018]1035)
黔科合重大专项字[2018]3002
贵州省重大应用基础研究项目(黔科合JZ字[2014]2001)
贵州省科技重大专项计划(黔科合重大专项字[2017]3002)
关键词
边界识别
上下语义
命名实体识别
人名纠错
boundary recognition
contextual semantics
named entity recognition
name error correction