摘要
词义消歧是自然语言处理领域的一个重要研究课题。词义标注的一致性将直接影响语料库的建设质量,进而直接或间接影响到其相关的应用领域。由于语言本身的复杂性与发展性以及算法设计的难点和缺陷,目前各种词义标注的算法与模型还不能百分之百正确地标注词义,即不能保证词义消歧的正确性与一致性。而人工校验在时间、人力方面的投入是个难题。该文在对《人民日报》语料、语句相似度算法和语义资源《知网》研究的基础上,提出了对《人民日报》语料词义标注进行一致性检验的方法。实验结果表明,此方法是有效的。
Word sense disambiguation(WSD) is an important issue with wide application in natural language processing.Word sense tagging consistency would directly affect the quality of corpus,and in turn,it will affect the application of corpus.Due to the complexity and flexibility of the language and the defects of the algorithm,the ecurrent word sense tagging can not be accomplished perfectly by the WSD models,i.e.the WSD results are prone to errors and in consistencies.On the other hand,manual checking is costly in time and investment.On the basis of a survey on the "People Daily" corpus,the sentence similarity computation and the "Hownet",a checking method for the word sense tagging consistency of the corpus of "People daily" is presented in this paper.The experiment result shows the feasibility of the method.
出处
《中文信息学报》
CSCD
北大核心
2010年第4期44-51,共8页
Journal of Chinese Information Processing
基金
国家自然科学基金项目资助(60873013)
北京市自然科学基金B类重点项目资助(KZ200811232019)
北京大学计算语言学教育部重点实验室开放课题基金资助(KLCL-1005)
北京市属市管高等学校人才强教计划资助项目(PHR201007131)资助
关键词
计算机应用
中文信息处理
词义标注
一致性检验
《知网》
语料
语句相似度
computer application
Chinese information processing
WSD
word sense tagging consistency
hownet
corpus
sentence similarity computation