摘要
从大规模真实文本中挖掘词义关系是自然语言学习的一项艰巨任务。词义不是静态、一成不变的,随着时代的发展,词义也在不断变迁。如何从错综复杂的词义变迁中,挖掘词义演化的基本规律,准确发现词义的各种变化,并给出量化的分析和建立数学模型,是一个急待解决的问题。根据词语的上下文搭配词分布情况来定义该词的词义,提出一种基于动态语料库的词义演化计算方法统计词义在23年《人民日报》中的分布信息,计算词义在各个时段的变化值,构造词义的演化曲线,并提出一种基于X2分析的方法来挖掘词语的搭配词与时间之间的相关关系。
Mining word sense from text is a challenge task in NLP. Word senses are not static and unchanged. As the time changed, word sense changed. How to find, detect the change of word sense, and make a model for word sense evolution is the main task of this paper. A computational method for word sense evolution based on monitor corpus is proposed to define the meaning of collocation words ,indexe a large-scale monitor corpus of people daily news ,get the distribution of collocation of each word and define the computation method for word sense evolution. The word sense changing curves,and a method using X2 to mining the relevance between collocation words and special time periods is proposed.
出处
《广西师范大学学报(自然科学版)》
CAS
北大核心
2006年第4期183-186,共4页
Journal of Guangxi Normal University:Natural Science Edition
基金
国家"973"计划基金资助项目(2004CB318102)
"863"计划基金资助项目(2001AA114210
2002AA117010)
国家自然科学基金资助项目(60272084)
北京市教委科技发展计划重点资助项目(KZ200310772013)
北京市教委基金资助项目(KM200510772008
KM200610772008)
关键词
词义演化
词义计算
动态语料库
word sense evolution
word sense computation
monitor corpus