摘要
维基百科实体分类对自然语言处理和机器学习具有重要的作用。该文采用机器学习的方法对中文维基百科的条目进行实体分类,在利用维基百科页面中半结构化信息和无结构化文本作为基本特征的基础上,结合中文的特点使用扩展特征和语义特征来提高实体分类性能。在人工标注的语料库上的实验表明,这些额外特征有效地提高了ACE分类体系上的实体分类性能,总体F1值达到96%,同时在扩展实体分类上也取得了较好的效果,总体F1值达95%。
Classifying Wikipedia Entities is of great significance to NLP and machine learning. This paper presents a machine learning based method to classify the Chinese Wikipedia articles. Besides using semi-structured data and non-structured text as basic features, we also extend to use Chinese-oriented features and semantic features in order to improve the classification performance. The experimental results on a manually tagged corpus show that the addi- tional features significantly boost the entity classification performance with the overall Fl-measure as high as 96 % on the ACE entity type hierarchy and 95% on the extended entity type hierarchy.
出处
《中文信息学报》
CSCD
北大核心
2015年第5期91-97,124,共8页
Journal of Chinese Information Processing
基金
国家自然科学基金(61373096
90920004)
江苏省高校自然科学研究重大项目(11KJA520003)
关键词
维基百科
实体分类
半结构化信息
信息框
Wikipedia
named entities classification
semi-structured data
Infobox