摘要
命名实体是文本中承载信息的重要单元,正确分析存在歧义的命名实体对文本的理解起着关键性作用。该文提出基于多源知识和Ranking SVM的中文微博命名实体链接,结合同义词词典、百科资源等知识产生初始候选实体集合,同时从文本中抽取多种组合特征,利用Ranking SVM对候选实体集合进行排序,从而得到目标实体。在NLP&CC20141中文微博实体链接评测数据集上进行了实验,获得了89.40%的平均准确率,与NLP&CC2014中文微博实体链接评测取得最好成绩的系统相比,本文的系统具有一定的优势。
Named entity is an important component conveying information in texts, and an accurate understanding of named entities is necessary to ensure a correct analysis of the text information. This paper proposes a Chinese microblog entity linking strategy based on multi-resource knowledge under Ranking SVM framework. It combines a dictionary of synonyms, the encyclopedia resources to produce an initial set of candidate entities , then extracts various combinations of featuresfor Ranking SVM to generate the target entity set. The evaluation on data sets of NLP&CC2014 Chinese micro-blog entity linking track shows a micro average accuracy of 89.40%, which is better than the state-of-the-art result.
出处
《中文信息学报》
CSCD
北大核心
2015年第5期117-124,共8页
Journal of Chinese Information Processing
基金
国家社会科学基金(14BYY096)
国家自然科学基金(61402419
61272221)
国家高技术研究发展863计划(2012AA011101)
国家重点基础研究发展计划973课题(2014CB340504)