时代精神:基于1946年到2015年报刊语料和隐含主题模型的历史热词提取被引量：1

Zeitgeist:LDA-Based Historical Buzzwords Extraction from the Newspaper Corpus of 1946-2015

导出

摘要语言监测是语言规划学的基础任务。一定时间范围内的热词或关键词则是语言监测工作的重要研究对象。目前向前挖掘历史热词的工作较少。本文采用计算语言学中广泛使用的隐含主题建模方法,对第二次世界大战后70年的大陆中文报刊历时语料库进行了主题词簇的抽取,获得了相应时间段的时代热词与年度词。相比于依照频率排序的方法,使用隐含主题模型的方法获得的热词与历史直观较为吻合。所提取出的2006年以后的热词与'汉语盘点'活动中的专家与投票相结合所获得的评选结果有较好可比性。这都验证了隐含主题模型加少量人工修正的方法在历时热词提取方面的性能。 Language monitoring is a basic task in language planning. The buzzwords(or popular words) within a certain time range are important objects of language monitoring, while the research focusing on extracting historical buzzwords is rare, to our knowledge. This article employs Latent Dirichlet Allocation(LDA) in text modeling of the diachronic text from newspapers dating to the end of WWII. Compared to the methods based on word frequency, LDA offers better buzzwords extraction that matches the historical social psychology and the annual buzzwords selected by 'expert-crowdsourcing' since 2006. LDA plus manual amendment is proved to be a practical pipeline in historical buzzwords extraction.

作者饶高琦 RAO Gaoqi;Center for Studies of Chinese as a Second Language,Beijing Language and Culture University

机构地区北京语言大学对外汉语研究中心

出处《语言规划学研究》 2016年第2期40-58,共19页 Journal of Language Planning

基金国家社会科学基金重大项目(12&ZD173) 北京语言大学校级科研项目(中央高校基本科研业务费专项资金)(16YBB16)资助

关键词热词提取隐含主题模型语言监测自动 buzzwords extraction LDA language monitoring automatic

分类号 H102 [语言文字—汉语]

引文网络
相关文献

同被引文献18

1顾培东.论对司法的传媒监督[J].法学研究,1999,21(6):17-29. 被引量：180
2王玉茹.论两次世界大战之间中国经济的发展[J].中国经济史研究,1987(2):97-109. 被引量：31
3高超.基于语料库的中国新闻英语主题词研究[J].北京第二外国语学院学报,2006,28(6):36-43. 被引量：22
4龙向阳.关于“中国外交近代化”的思考[J].求索,2007(8):199-202. 被引量：4
5薛可,陈晞,余明阳.上海5家主流报纸关于5·12地震新闻报道的主题词研究[J].新闻大学,2008(3):53-62. 被引量：4
6陈晋文,庞毅.现代化视阈下的民国经济发展(1912～1936年)[J].北京工商大学学报（社会科学版）,2010,25(5):107-112. 被引量：19
7狄艳华,杨忠.基于语料库的中国政府工作报告核心主题词研究[J].外语学刊,2010(6):69-72. 被引量：28
8贾滕.从“革命”到“革命”:建国以来教育主题词的演变——以“革命教育”到“教育革命”的转换为例[J].长春大学学报,2012,22(3):333-335. 被引量：1
9苏全有.从《申报》中关键词的词频论清末政治[J].华北水利水电学院学报（社会科学版）,2013,29(5):159-163. 被引量：3
10伏辰.基于语料库的新闻英语主题词对比研究[J].语文学刊（外语教育与教学）,2014(1):32-34. 被引量：1

引证文献1

1饶高琦,胡星雨.自晚清到民国《申报》主题词的历时演变和分期[J].南京师范大学文学院学报,2023(3):10-22.

1梁京涛.“轻重缓急”视角下的语言规范修订顺序试析[J].现代语言学,2019,7(3):257-266.
2刘荣,潘贵生.《现代汉语词典》所收英源外来词使用状况考察[J].语言文字应用,2019(1):96-105. 被引量：4
3刘荣.语言监测视角下语言资源开发研究[J].华中学术,2017(4):144-151. 被引量：2
4语录[J].上海支部生活,2019,0(1):16-16.
5吕莉莉.2016年与2017年十大网络用语比较分析[J].辽宁师专学报（社会科学版）,2019,0(2):9-11. 被引量：1
6无.全球化背景下语言文字科学保护高端论坛在北京语言大学举行[J].语言规划学研究,2016(1):85-85.
7《语言规划学研究》论文格式规范[J].语言规划学研究,2016(1):81-83.
8无.《语言规划学研究》征稿启事[J].语言规划学研究,2016(1):79-80.
9李林,孙立权.年度热词引发的思考[J].作文通讯,2019,0(14):71-76.
10杨东来.加油站储油地罐容积表修正的必要性和修正方法[J].辽宁化工,2019,48(3):287-290. 被引量：1

语言规划学研究

2016年第2期

浏览历史

内容加载中请稍等...

时代精神:基于1946年到2015年报刊语料和隐含主题模型的历史热词提取被引量：1

同被引文献18

引证文献1

相关作者

相关机构

相关主题

浏览历史

时代精神:基于1946年到2015年报刊语料和隐含主题模型的历史热词提取 被引量：1

同被引文献18

引证文献1

相关作者

相关机构

相关主题

浏览历史

时代精神:基于1946年到2015年报刊语料和隐含主题模型的历史热词提取被引量：1