期刊文献+

共词网络LDA模型的中文文本主题分析:以交通法学文献(2000-2016)为例 被引量:7

A CA-LDA Model for Chinese Topic Analysis:Case Study of Transportation Law Literature
原文传递
导出
摘要 【目的】通过结合传统LDA模型的概率主题抽取方法和共词网络分析发现文献词汇间的联系结构的两者优势,降低由少量文献产生的高频词汇的干扰,提高主题凝聚性。【方法】在交通法学文献摘要文本主题分析中,加入文献的关键词作为分词复合词典,提高语义识别度;提出CA-LDA模型(Latent Dirichlet Allocation Model with Co-word Analysis),在传统LDA模型的基础上加入共词网络分析,以共词网络拓扑结构参数作为权重控制词汇主题分配(采用介数中心度),优先提取同时具有高共现性(中介性)和高频率的词汇。【结果】CA-LDA模型可以得到多篇文献同时共现的高频词汇,这样产生的重点词汇表对主题分析更有意义。该算法的结果不仅仅反映词频概率,同时也能从词汇关联上发现枢纽词汇,更深入理解该领域的研究热点。【局限】CA-LDA模型主题数目K的取值采用混淆度标准交叉验证获得,如果在实际分析中K值太大,不利于文献主题的分类整理,未来研究需要对该结果进一步处理来凝聚主题。【结论】本文将该模型应用于交通法学研究领域热点主题分析,在处理大规模文献数据中取得较好效果。相关研究可以拓展应用于各种领域的大规模文献数据自动化处理中。 [Objective] This paper aims to improve the effectiveness of extracting Chinese literature topics with the help of LDA model and co-word network analysis. [Methods] First, we added keywords to the word segmentation dictionary for the abstracts, which improved the semantic recognition of topic analysis. Second, we proposed a Latent Dirichlet Allocation Model with Co-word Analysis (CA-LDA) to control the topic distribution generated by the weight of co-word network topology parameters (i.e. Betweenness Centrality). Finally, we extracted the words with high connectivity (Betweenness Centrality) and frequency. [Results] The CA-LDA model retrieved high frequency and high connectivity words simultaneously, which were important for subject analysis. The proposed algorithm could also identify key node technical vocabularies with the help of co-word analysis. [Limitations] The K value (number of topics) was obtained by cross validation with perplexity. Thus, it was difficult to classify the document topics with larger K value. More research is needed to deal with this issue. [Conclusions] The proposed model effectively analyzes the topics of Chinese literature on transportation laws, which could also process literature data from other fields automatically.
作者 马红 蔡永明
出处 《现代图书情报技术》 CSSCI 2016年第12期17-26,共10页 New Technology of Library and Information Service
基金 山东省社会科学规划项目"基于复杂网络理论的山东省基础设施系统脆弱性研究"(项目编号:14CGLJ03) 山东省研究生教学创新项目"基于在线学习的研究生学术素养提升开放式生态系统研究"(项目编号:SDYC15045) 济南市哲学社会科学规划项目"济南市网络预约出租车运营状况调查与管理研究"(项目编号:JNSK16C26)的研究成果之一
关键词 共词网络LDA 主题模型(CA-LDA) 主题词共现 网络拓扑结构参数 随机梯度下降 交通法学热词 Latent Dirichle Stochastic gradient descent t Allocation Model with Co-word Key word in transportation law Analysis Co-words Network topology parameters literature
  • 相关文献

参考文献5

二级参考文献37

  • 1冯璐,冷伏海.共词分析方法理论进展[J].中国图书馆学报,2006,32(2):88-92. 被引量:567
  • 2刘则渊,尹丽春.国际科学学主题共词网络的可视化研究[J].情报学报,2006,25(5):634-640. 被引量:99
  • 3黄萱青 吴立德.独立于语种的文本分类方法[M].,2000.37-43.
  • 4鲁松 白硕 等.文本中词语权重计算方法的改进[M].,2000.31-36.
  • 5卜东波.聚类/分类理论研究及其在大模型文本挖掘的应用:博士论文[M].,2000..
  • 6约翰斯科特.社会网络分析法[M].刘军译,重庆:重庆大学出版社,2007:53-83.
  • 7白硕,语言学知识的计算机辅助发现,1995年
  • 8陈群秀,计算语言学研究与应用,1994年
  • 9朱德熙,语法讲义,1982年
  • 10黄萱菁,2000 International Conference on Multilingual Information Processing,2000年,37页

共引文献373

同被引文献83

引证文献7

二级引证文献70

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部