摘要
语言监测是语言规划学的基础任务。一定时间范围内的热词或关键词则是语言监测工作的重要研究对象。目前向前挖掘历史热词的工作较少。本文采用计算语言学中广泛使用的隐含主题建模方法,对第二次世界大战后70年的大陆中文报刊历时语料库进行了主题词簇的抽取,获得了相应时间段的时代热词与年度词。相比于依照频率排序的方法,使用隐含主题模型的方法获得的热词与历史直观较为吻合。所提取出的2006年以后的热词与'汉语盘点'活动中的专家与投票相结合所获得的评选结果有较好可比性。这都验证了隐含主题模型加少量人工修正的方法在历时热词提取方面的性能。
Language monitoring is a basic task in language planning. The buzzwords(or popular words) within a certain time range are important objects of language monitoring, while the research focusing on extracting historical buzzwords is rare, to our knowledge. This article employs Latent Dirichlet Allocation(LDA) in text modeling of the diachronic text from newspapers dating to the end of WWII. Compared to the methods based on word frequency, LDA offers better buzzwords extraction that matches the historical social psychology and the annual buzzwords selected by 'expert-crowdsourcing' since 2006. LDA plus manual amendment is proved to be a practical pipeline in historical buzzwords extraction.
作者
饶高琦
RAO Gaoqi;Center for Studies of Chinese as a Second Language,Beijing Language and Culture University
出处
《语言规划学研究》
2016年第2期40-58,共19页
Journal of Language Planning
基金
国家社会科学基金重大项目(12&ZD173)
北京语言大学校级科研项目(中央高校基本科研业务费专项资金)(16YBB16)资助