摘要
词汇是语言系统中最具活力的子系统。在语言演化的过程中,词汇的历时变化是语言学、历史学、社会学等多学科所关注的信息。我们收集了时间跨度约为60年的同质新闻语料。基于自然语言处理技术我们开发了现代汉语词汇历时检索系统。基于该平台可以利用频率、累积和与累积频率等方法从微观和宏观的角度上对词汇的语义、语用等方面进行研究。
Lexicon is the most active and time sensitive sub system of a language. During the evolution of a language, diachronic changes in vocabulary are focused by linguist, historian and sociologist etc. We collected large scale of corpora with a large time span, and developed the system of Diachronic Retrieval for Modern Chinese Word with natural language processing technology. It provides search indexes on frequency, cumulative sum, cumulative fre- quency etc. , for possible studies on the semantics pragmatics and other aspects of the word.
出处
《中文信息学报》
CSCD
北大核心
2015年第3期169-176,共8页
Journal of Chinese Information Processing
基金
国家自然科学基金(61300081
61170162)
国家语委项目(YB125-42)
国家高技术研究(863)发展计划(2015AA015409)
关键词
历时信息
词汇演化
历时计算
语料库
diachronic information
lexicon evolution
diachronic computing
corpus