基于LDA模型的网络刊物主题发现与聚类被引量：4

Topic Discovery and Clustering for Online Journals Based on LDA Algorithm

下载PDF

导出

摘要随着智能终端的普及,文本的主题挖掘需求也越来越广泛,主题建模是文本主题挖掘的核心,LDA生成模型是基于贝叶斯框架的概率模型,它以语义关联为基础,很好地解决了文本潜在主题的提取问题。对文本聚类过程的核心技术LDA生成模型、数据采样、模型评价等作了较为深入的阐述和解析,结合网络教育平台的2794篇学习刊物进行了主题发现和聚类实验,建立了包含3800个词项的词库,通过kmeans算法和合并向量算法(UVM)分两步解决了主题聚类问题。提出了文本挖掘实验的一般方法,并对层次聚类中文本距离的算法提出了改进。实验结果表明,该平台刊物的主题整体相似度比较好,但主题过于集中使得许多刊物的内容不具有辨识度,影响用户对主题的定位。 With the popularity of intelligent terminals,the demand of text topic mining is becoming more prevalent in many different domains.Theme modeling is the kernel of text topic mining.LDA (latent Dirichlet allocation) generating model is a probability model based on Bayesian framework,and it solves the problem of text potential topic extraction based on semantic association.The key technology of text clustering process,including LDA generating model,data sampling,model evaluation,was described and analyzed in depth.Theme discovery and clustering experiments were carried out in 2 794 learning journals on the network education platform.A thesaurus containing 3 800 terms was established.The problem of topic clustering was solved by kmeans algorithm and UVM (union vector method) algorithm in two steps.Meanwhile a general method of text mining experiment was proposed,and the algorithm of text distance in hierarchical clustering was improved.The experimental results show that the overall similarity of topics in the platform is good,but the focus of topics makes the content of many journals not identifiable,which affects the user's positioning of topics.

作者杨传春张冰雪李仁德郭强 YANG Chuanchun;ZHANG Bingxue;LI Rende;GUO Qiang(Research Center of Complex Systems Science,University of Shanghai for Science and Technology,Shanghai 200093,China;MPA Education Center,University of Shanghai for Science and Technology,Shanghai 200093,China)

机构地区上海理工大学复杂系统科学研究中心上海理工大学MPA教育中心

出处《上海理工大学学报》 CAS CSCD 北大核心 2019年第3期273-280,306,共9页 Journal of University of Shanghai For Science and Technology

关键词 LDA模型生成模型主题发现层次聚类文本挖掘 LDA model generating model topic discovery hierarchical clustering text mining

分类号 N32 [自然科学总论]

引文网络
相关文献

参考文献8

1林奕欧,雷航,李晓瑜,吴佳.自然语言处理中的深度学习:方法及应用[J].电子科技大学学报,2017,46(6):913-919. 被引量：56
2李村合,朱红波.基于半监督学习的多示例多标记E-MIMLSVM^+算法[J].计算机工程与应用,2018,54(2):149-154. 被引量：2
3许坤,冯岩松,赵东岩,陈立伟,邹磊.面向知识库的中文自然语言问句的语义理解[J].北京大学学报（自然科学版）,2014,50(1):85-92. 被引量：15
4张培晶,宋蕾.基于LDA的微博文本主题建模方法研究述评[J].图书情报工作,2012,56(24):120-126. 被引量：54
5李昌亚,刘方方.基于LDA的社科文献主题建模方法[J].计算机技术与发展,2018,28(2):182-187. 被引量：6
6马林山,郭磊.基于主题模型(LDA)的查新辅助分析系统设计研究[J].现代情报,2018,38(2):111-115. 被引量：8
7刘冰玉,王翠荣,王聪,王军伟,王兴伟,黄敏.基于动态主题模型融合多维数据的微博社区发现算法[J].软件学报,2017,28(2):246-261. 被引量：25
8李梦杰,刘建国,郭强,李仁德,汤晓雷.基于文本挖掘的互联网教育课程主题发现与聚类研究[J].上海理工大学学报,2018,40(3):259-266. 被引量：7

二级参考文献71

1王昱.社科文献的特点、作用及省级社科文献资源建设[J].青海社会科学,1994(6):83-89. 被引量：2
2Blei D, Ng A, Jordan M. Latent Dirichlet allocation [ J ]. Journal of Machine Learning Research ,2003 (3) .993 - 1022.
3Hong Liangjie, Davison B. Empirical study of topic modeling in Twitter[ C ]// Proceedings of the First Workshop on Social Media Analytics ( SOMA' 10). New York . ACM Press,2010.80 - 88.
4Decrwester S, Dumais S, Landauer T,et al. Indexing by latent se- mantic analysis[ J]. Journal of the American Society for Informa- tion Science, 1990,41 (6) .391 -407.
5Hofmann T. Unsupervised learning by probabilistic latent semantic analysis [J]. Machine Learning,2001,42( 1 ) .177 - 196.
6Steyvers M, Griffiths T. Probabilistic topic models [ M ]//Landauer T, McNamara D, Dennis S, et al. Latent Semantic Analysis. A Road to Meaning. Mahwah . Lawrence Erlbaum Associates, 2007 . 424 - 440.
7Griffiths T, Steyvers M. Finding scientific topics [ C ]//Proceedings of the National Academy of Sciences. Washington D. C. . United States National Academy of Sciences,2004.5228 -5235.
8Tang Jie, Jin Ruoming, Zhang Jing. A topic modeling approach and its integration into the random walk framework for academic search [ C ]//Proceedings of the 2008 Eighth IEEE International Confer- ence on Data Mining ( ICDM ' 08 ). Washington . IEEE Computer Society, 2008..1055 - 1060.
9Lu Yue , Zhai Chengxiang. Opinion integration through semi - su- pervised topic modeling [ C ]//Proceedings of the 17th International Conference on World Wide Web. ( WWW ' 08 ). New York . ACM Press,2008.121 - 130.
10Weng Jianshu, Lim Ee-Pang, Jiang Jing, et al. Twitterrank . finding topic - sensitive influential Twitterers [ C ]//Proceedings of the 3 rd ACM. International Conference on Web Search and Data Mining ( WSDM' I0). New York. ACM Press,2010.261 - 270. Zvi..

共引文献164

1姚红革,王诚,喻钧,白小军,李蔚.复杂卫星图像中的小目标船舶识别[J].遥感学报,2020,24(2):116-125. 被引量：16
2范午攸.查新检索式逻辑运算符选择系统[J].知识管理论坛,2024(1):57-64.
3董志勇,邱瀚,陈泓运.智慧高速系统中大语言模型的集成与应用研究[J].中国交通信息化,2024(S01):67-71.
4李清平,曲韶颖.中英主流媒体新冠肺炎疫情报刊社论中的隐喻思维框架与动因研究[J].外国语言文学,2023,40(1):12-23.
5王连喜.微博短文本预处理及学习研究综述[J].图书情报工作,2013,57(11):125-131. 被引量：36
6吴刚.利用缓存及队列技术实现微博类网站的开发与研究[J].科技资讯,2013,11(23):9-9.
7宋蕾,张培晶.基于LDA主题建模的微博舆情分析系统研究[J].网络安全技术与应用,2014(4):5-6. 被引量：11
8朱映雪,黄瑞章,马灿.一种具有新主题偏向性的短文本动态聚类方法[J].山东大学学报（工学版）,2018,48(6):8-18. 被引量：1
9王丽芬,王珏,洪燕,娄亚兵,简晖,吕爱平,查青林.融合脉诊信息的女性移动中医健康管理平台的研制[J].世界科学技术-中医药现代化,2018,20(10):1803-1807. 被引量：8
10蒋勋,徐绪堪,苏新宁,顾绮芳.知识服务驱动的知识库框架系统内的逻辑架构[J].情报理论与实践,2014,37(10):125-129. 被引量：3

同被引文献51

1曾雪强,王明文,陈素芬.一种基于潜在语义结构的文本分类模型[J].华南理工大学学报（自然科学版）,2004,32(z1):99-102. 被引量：27
2顾榕,王小平,曹立明.一种基于潜在语义分析的查询扩展算法[J].计算机工程与应用,2004,40(18):23-25. 被引量：8
3曹娟,张勇东,李锦涛,唐胜.一种基于密度的自适应最优LDA模型选择方法[J].计算机学报,2008,31(10):1780-1787. 被引量：83
4张晨逸,孙建伶,丁轶群.基于MB-LDA模型的微博主题挖掘[J].计算机研究与发展,2011,48(10):1795-1802. 被引量：166
5贺亮,李芳.基于话题模型的科技文献话题发现和趋势分析[J].中文信息学报,2012,26(2):109-115. 被引量：26
6黄炜,程宝生,杨青.基于本体的网络群体性事件主题发现研究[J].图书情报工作,2012,56(20):47-52. 被引量：12
7林鸿飞,李业丽,姚天顺.中英文双语交叉过滤的逻辑模型[J].计算机工程与应用,2000,36(8):48-50. 被引量：9
8唐晓波,房小可.基于文本聚类与LDA相融合的微博主题检索模型研究[J].情报理论与实践,2013,36(8):85-90. 被引量：44
9史剑虹,陈兴蜀,王文贤.基于隐主题分析的中文微博话题发现[J].计算机应用研究,2014,31(3):700-704. 被引量：19
10冯小东,武森,王佳晔.基于作者引用文献关系的潜在研究兴趣主题发现[J].中国科技论文,2014,9(1):65-70. 被引量：5

引证文献4

1傲起,杨晓.基于大数据的高校学生网络行为监测系统的设计[J].电脑知识与技术,2020,16(9):27-28. 被引量：3
2于汝意,刘秀磊,刘旭红,张良,王延飞.泛娱乐情报主题的感知研究[J].北京信息科技大学学报（自然科学版）,2020,35(2):58-61. 被引量：2
3李璐萍,赵小兵.基于主题模型的主题发现方法研究综述[J].中央民族大学学报（自然科学版）,2021,30(2):59-66. 被引量：7
4王南.基于云计算的短视频媒体资源个性化推送方法[J].兵工自动化,2024,43(2):16-22. 被引量：2

二级引证文献14

1周婷玮.基于共现网络与情感分析的多平台消费者评论主题比较研究[J].知识管理论坛,2023(2):79-91. 被引量：2
2孔凡芃,刘旭红,刘秀磊,李晗.基于BERT模型的航天科技开源情报分类[J].北京信息科技大学学报（自然科学版）,2021,36(1):28-33. 被引量：4
3刘秀磊,孔凡芃,谌彤童,刘旭红.基于BERT与XGBoost的航天科技开源情报分类[J].郑州大学学报（理学版）,2021,53(3):15-22. 被引量：7
4安洋,李军怀,王怀军,殷仕刚.基于大数据的学生行为综合分析与服务平台设计与实现[J].四川职业技术学院学报,2021,31(4):153-157. 被引量：2
5周帅,王绍杰.私有工控协议分类方法研究[J].信息技术与网络安全,2021,40(9):19-24. 被引量：4
6段红梅.LDA主题模型及其在护理学中的应用进展[J].中华现代护理杂志,2022,28(16):2106-2110. 被引量：1
7陈翔宇,王一博,段红梅.基于LDA主题模型的慢性病健康素养相关研究的主题挖掘与分析[J].中华现代护理杂志,2022,28(16):2111-2115. 被引量：2
8刘德喜,邹婷,廖国琼,万常选,狄国强.计算机组成原理教研论文主题比较分析[J].软件导刊,2022,21(7):130-136.
9李加军.基于大数据的网络学习行为监测系统设计[J].信息与电脑,2022,34(19):251-253. 被引量：1
10张东鑫,张敏.图情领域LDA主题模型应用研究进展述评[J].图书情报知识,2022,39(6):143-157. 被引量：20

1吴查科,王树义.基于LDA的国内图书馆学研究主题发现及演化研究[J].新世纪图书馆,2019,0(7):90-96. 被引量：18
2邰鹏.初中物理实验教学创新策略[J].中学生数理化（教与学）,2017,0(1):14-14. 被引量：2
3钮永莉,武斌.基于改进粒子群和K-Means的文本聚类算法研究[J].兰州文理学院学报（自然科学版）,2019,33(4):44-47. 被引量：8
4李正宇,陈欢欢.统计流形学习中的文本度量方法[J].小型微型计算机系统,2018,39(3):515-519. 被引量：1
5郑文瑞,张敬芝.一些高等数学问题的概率解法探讨[J].吉林广播电视大学学报,2019(6):135-136.
6李艳红.基于云计算的分布式数据挖掘系统设计研究[J].电子设计工程,2019,27(11):141-145. 被引量：5
7杨丹,朱世玲,卞正宇.基于改进的K-means算法在文本挖掘中的应用[J].计算机技术与发展,2019,29(4):68-71. 被引量：9
8邓盛彪,张宏涛,孙勇,苏子宁,凌云汉.基于大数据的锻造生产过程模型的搭建与分析[J].锻压技术,2019,44(5):174-179. 被引量：4
9郝长盈,兰艳艳,张海楠,郭嘉丰,徐君,庞亮,程学旗.基于拓展关键词信息的对话生成模型[J].山东大学学报（理学版）,2019,54(7):68-76. 被引量：1
10张玉亮.协进式微信销售沟通技巧提升策略分析[J].中国市场,2019(21):124-125. 被引量：1

上海理工大学学报

2019年第3期

浏览历史

内容加载中请稍等...

基于LDA模型的网络刊物主题发现与聚类被引量：4

参考文献8

二级参考文献71

共引文献164

同被引文献51

引证文献4

二级引证文献14

相关作者

相关机构

相关主题

浏览历史

基于LDA模型的网络刊物主题发现与聚类 被引量：4

参考文献8

二级参考文献71

共引文献164

同被引文献51

引证文献4

二级引证文献14

相关作者

相关机构

相关主题

浏览历史

基于LDA模型的网络刊物主题发现与聚类被引量：4