基于LDA模型的研究领域热点及趋势分析被引量：13

LDA-based Research Domain Hotspots and Trend Analysis

下载PDF

导出

摘要随着研究的不断深入以及信息传播手段的进步,与某个研究领域相关的科学文献越来越多,也越来越容易得到,然而要阅读和分析这些数以千计的文献,仅凭人力已经难于实现对该领域研究重点、研究热点以及趋势进行全面系统地分析。鉴于此,提出一种基于LDA模型对某研究领域在一定时期内的热点及趋势进行自动识别的方法。该方法利用Gibbs抽样计算模型参数,获取领域热点主题以及热点词语,通过按时间后离散的主题演化方法分析热点主题在时间轴上的强度演化。以中文信息处理领域为例,通过对《中文信息学报》2001—2010十年间发表的学术论文进行分析,自动获取中文信息处理领域十年内的研究热点以及热点主题在时间轴上的演化趋势。实验结果初步证明了该方法的有效性。 Along with continuing in-depth research and the advancement of modem information dissemination technologies,more and more papers in a research domain are becoming available. Obviously,it＇ s quite difficult for researchers to read and analyze the huge amounts of papers for thoroughly detecting the research hotspots and trend of a domain. Targeting at solving the above problem,a LDA- based approach is proposed to automatically recognize the hotspots and trend of a research domain. Gibbs sampling is used to calculate the LDA model parameters and determine the research hotspots as well as their representative words. The trend analysis is achieved by post discretizing research topics over time. In the experiments,Chinese information processing is chosen as the target research domain. The research hotspots and trend over the ten year period from 2001 to 2010 were obtained by automatically analyzing all the papers published on the journal of Chinese information processing during that period. Preliminary experiments demonstrate the effectiveness of the proposed approach.

作者杨星李保利金明举

机构地区河南工业大学信息科学与工程学院

出处《计算机技术与发展》 2012年第10期66-69,74,共5页 Computer Technology and Development

基金河南省基础与前沿技术研究项目(112300410007) 河南省教育自然科学研究计划(2011A120002)

关键词研究热点 LDA模型 GIBBS抽样主题数目主题演化 research hotspots LDA model Gibbs sampling topic number topic evolution

分类号 TP31 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献5

1单斌,李芳.基于LDA话题演化研究方法综述[J].中文信息学报,2010,24(6):43-49. 被引量：85
2周亚东,孙钦东,管晓宏,李卫,陶敬.流量内容词语相关度的网络热点话题提取[J].西安交通大学学报,2007,41(10):1142-1145. 被引量：27
3曾依灵,许洪波.网络热点信息发现研究[J].通信学报,2007,28(12):141-146. 被引量：29
4李若鹏,李翔,林祥,李建华.基于DK算法的互联网热点主动发现研究与实现[J].计算机技术与发展,2008,18(9):1-4. 被引量：10
5黄宇栋,李翔,林祥.互联网媒体信息热点主动发现技术研究与应用[J].计算机技术与发展,2009,19(5):1-4. 被引量：5

二级参考文献51

1王泽彬,金飞,李夏,王冠.Web数据挖掘技术及实现[J].哈尔滨工业大学学报,2005,37(10):1403-1405. 被引量：11
2于满泉,骆卫华,许洪波,白硕.话题识别与跟踪中的层次化话题识别技术研究[J].计算机研究与发展,2006,43(3):489-495. 被引量：49
3Jain A K, Farrokhnia F. Unsupervised texture segmentation using Gabor filters [J ]. Pattern Recognition, 1991,24 ( 13 ) : 1167 - 1186.
4Han Jiawei, Kamber M. Data Mining Concepts and Techniques[M].范明,孟小峰,等译.北京:机械工业出版社,2006.
5Jain A K, Murty M N, Flynn P J. Data Clustering: A Review [ J ]. ACM Computing Surveys, 1999: 31 (3) : 264 - 323.
6Thomas Hofmann. Probabilistic latent semantic indexing[C]//Proceedings of the 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. Berkeley, CA, USA, 1999,50-57.
7David M. Blei, Andrew Y. Ng, Michael I. Jordan. Latent dirichlet allocation[J]. The Journal of Machine Learning Research,2003,3: 993-1022.
8T. Griffiths,M. Steyvers. A probabilistic approach to semantic representation [C]//Proceedings of the 24th Annual Conference of the Congnitive Science Society. Mahwah, NJ : Erlbaum, 2002,381-386.
9M. Steyvers,T. Griffiths. Probabilistic topic models In: T. Landauer, D. S. McNamara, S. Dennis, W Kintsch (Eds.), handbook of Latent Semantic Analysis[M]. Hillsdale, NJ.. Erlbaum. 2007.
10X. Wang, A. McCallum. Topic over time: A non-mark ov continuous-time model of topical trends[C]//Pro ceedings of the 12th ACM SIGKDD International Con ference on Knowledge Discovery and Data Mining Philadelphia, PA, USA, 2006: 424-433.

共引文献139

1骆梅柳.基于大数据的校园舆情热点话题跟踪研究[J].智能计算机与应用,2020(8):287-289. 被引量：1
2黄宇栋,李翔,林祥.互联网媒体信息热点主动发现技术研究与应用[J].计算机技术与发展,2009,19(5):1-4. 被引量：5
3张卫,曹先彬,尹洪章.基于多特征融合的聊天室社会网络挖掘方法[J].中国科学技术大学学报,2009,39(5):540-546. 被引量：5
4孙钦东,管晓宏,周亚东.网络信息内容审计研究的现状及趋势[J].计算机研究与发展,2009,46(8):1241-1250. 被引量：19
5王巍,杨武,齐海凤.基于多中心模型的网络热点话题发现算法[J].南京理工大学学报,2009,33(4):422-426. 被引量：28
6倪颖杰,王律科,张军.基于高性能数据挖掘的网络海量信息处理平台[J].计算机工程与科学,2009,31(A01):129-132. 被引量：9
7彭丹,许波,宋仙磊.基于网络评论的网络舆情研究[J].现代情报,2009,29(12):4-7. 被引量：10
8陆蓓,程肖,谌志群.基于改进蚁群聚类的热点主题发现算法研究[J].现代图书情报技术,2010(4):66-71. 被引量：4
9余传明,张小青,陈雷.基于LDA模型的评论热点挖掘:原理与实现[J].情报理论与实践,2010,33(5):103-106. 被引量：21
10严硕,石鑫.短信舆情信息处理平台及关键技术[J].现代电信科技,2010(7):68-71.

同被引文献178

1周林彬.试论经济信息法律关系[J].法学杂志,1985,6(2):37-38. 被引量：1
2顾胜杰.我国信息政策研究综述[J].晋图学刊,1994(4):5-9. 被引量：3
3王素芳.我国信息资源开发利用政策法规初探[J].图书馆学刊,2004,26(4):16-17. 被引量：11
4张烈平,周德俭,牛秦洲.基于BP神经网络的预测建模系统的研究与实现[J].计算机仿真,2004,21(9):48-50. 被引量：16
5张伶.基于文献计量学的管理学学术期刊定量分析与评价——以《南开管理评论》为例[J].南开管理评论,2005,8(1):108-112. 被引量：11
6朱烨.我国信息政策研究(1994-2003)综述[J].图书馆建设,2005(3):27-30. 被引量：11
7张蕊,邱均平,周黎明.计算机辅助内容分析软件进展研究[J].图书情报工作,2005,49(6):29-32. 被引量：15
8张玲玲,房勇,杨涛,张超,李若筠,刘作仪,杨晓光,汪寿阳.管理科学与工程热点研究领域的文献计量分析[J].管理学报,2005,2(4):379-385. 被引量：48
9骆卫华,于满泉,许洪波,王斌,程学旗.基于多策略优化的分治多层聚类算法的话题发现研究[J].中文信息学报,2006,20(1):29-36. 被引量：38
10任智军,朱东华,荆雷.基于可视化数据挖掘的管理科学科技文本分析研究[J].科学学与科学技术管理,2006,27(1):8-12. 被引量：24

引证文献13

1李湘东,张娇,袁满.基于LDA模型的科技期刊主题演化研究[J].情报杂志,2014,33(7):115-121. 被引量：66
2金碧漪,许鑫.网络健康社区中的主题特征研究[J].图书情报工作,2015,59(12):100-105. 被引量：48
3关鹏,王曰芬,傅柱.不同语料下基于LDA主题模型的科学文献主题抽取效果分析[J].图书情报工作,2016,60(2):112-121. 被引量：52
4裴雷,李向举,谢添轩,成吉.中国信息政策研究主题的历时演进特征(1986-2015年)[J].数字图书馆论坛,2016(7):19-27. 被引量：9
5马夏夏,蔡永明,刘贵香.基于LDA的股市复杂网络研究热点分析[J].情报探索,2016(11):15-19. 被引量：1
6刘江华.一种基于kmeans聚类算法和LDA主题模型的文本检索方法及有效性验证[J].情报科学,2017,35(2):16-21. 被引量：41
7李纲,袁满,许亮.基于管理科学重要期刊的985高校管理科学十年研究主题多维分析[J].科技管理研究,2017,37(4):211-218. 被引量：2
8冯佳,张云秋.基于LDA和本体的科学前沿识别与分析方法研究[J].情报理论与实践,2017,40(8):49-54. 被引量：26
9曲佳彬,欧石燕.基于主题过滤与主题关联的学科主题演化分析[J].数据分析与知识发现,2018,2(1):64-75. 被引量：22
10李静,徐路路.基于机器学习算法的研究热点趋势预测模型对比与分析——BP神经网络、支持向量机与LSTM模型[J].现代情报,2019,39(4):23-33. 被引量：59

二级引证文献308

1胡哲,查先进,严亚兰.突发事件情境下在线健康社区用户交互行为研究[J].数据分析与知识发现,2019,3(12):10-20. 被引量：10
2彭启宁,柳炳祥,付振康,贝汶瑜.侵权诉讼背景下标准必要专利价值分类识别体系构建[J].知识管理论坛,2023(6):461-475.
3孟旭,谢靖,李春旺.基于核心主题特征的作者身份识别研究[J].知识管理论坛,2023(5):351-364.
4李雅倩,孙玉玲(指导),赵婉雨.基于主题模型和时间序列分析的新兴主题识别与特征关联研究[J].知识管理论坛,2022(3):229-247. 被引量：3
5卫寿伟,陈善鹏,余小燕,陆喆俊.基于支持向量机的无人机避障方法研究[J].智能计算机与应用,2020,10(8):48-50.
6王煜,魏理,姜顺军.医患问答社区热点主题分析研究[J].医学信息学杂志,2018,39(11):2-8. 被引量：3
7祝琳琳,杜杏叶,李贺.知识生产视角下学术论文质量自动评审指标体系构建研究[J].图书情报工作,2018,62(24):79-86. 被引量：9
8李贺,祝琳琳,闫敏,刘金承,洪闯.开放式创新社区用户信息有用性识别研究[J].数据分析与知识发现,2018,2(12):12-22. 被引量：8
9周佳颖,王俊蓉,张景秋.微博用户的中国传统节日感知及区域差异研究[J].地球信息科学学报,2019,21(1):77-85. 被引量：7
10宫小翠,赵迎光,安新颖.研究前沿识别方法探析[J].医学信息学杂志,2015,36(9):47-51. 被引量：5

1郑诚,李鸿.基于主题模型的K-均值文本聚类[J].计算机与现代化,2013(8):78-80. 被引量：4
2本刊编辑部.李毅中:保障网络信息安全,关键在于立法[J].创新科技,2010(5):4-4.
3李保利,杨星.基于LDA模型和话题过滤的研究主题演化分析[J].小型微型计算机系统,2012,33(12):2738-2743. 被引量：29
4施韶亭,曹方.文本挖掘技术在科技管理领域热点主题抽取方向的应用研究[J].计算机应用与软件,2012,29(7):109-111. 被引量：5
5陈昊,杨俊安,吴彦华.一种动态约简中子表族F范围的计算方法[J].计算机科学,2009,36(8):224-226.
6林特,赵晓东,柳先辉.一种改进的短文本流主题演化模型[J].微型机与应用,2017,36(8):48-50.
7崔凯,周斌,贾焰,梁政.一种基于LDA的在线主题演化挖掘模型[J].计算机科学,2010,37(11):156-159. 被引量：35
8王加阳,陈松乔,罗安.粗集动态约简研究[J].小型微型计算机系统,2006,27(11):2056-2060. 被引量：13
9何建云,陈兴蜀,杜敏,江浩.基于改进的在线LDA模型的主题演化分析[J].中南大学学报（自然科学版）,2015,46(2):547-553. 被引量：15
10陈千,桂志国,郭鑫,向阳.基于特征本体的文本流主题演化[J].计算机应用,2015,35(2):456-460. 被引量：3

计算机技术与发展

2012年第10期

浏览历史

内容加载中请稍等...

基于LDA模型的研究领域热点及趋势分析被引量：13

参考文献5

二级参考文献51

共引文献139

同被引文献178

引证文献13

二级引证文献308

相关作者

相关机构

相关主题

浏览历史

基于LDA模型的研究领域热点及趋势分析 被引量：13

参考文献5

二级参考文献51

共引文献139

同被引文献178

引证文献13

二级引证文献308

相关作者

相关机构

相关主题

浏览历史

基于LDA模型的研究领域热点及趋势分析被引量：13