LDA模型的优化及其主题数量选择研究——以科技文献为例被引量：35

Optimizing LDA Model with Various Topic Numbers: Case Study of Scientific Literature

导出

摘要【目的】为提升传统LDA模型的主题识别性能,并给主题最优数目选择提供技术方案,提出基于自适应聚类的K-wrLDA模型。【方法】利用LDA和Word2Vec模型得出包含主题词概率信息及词义相关性的T-WV矩阵,并将传统LDA模型的主题数目选择问题转化为聚类效果评价问题,以内部指标伪F统计量作为目标函数,计算主题聚类数目的最优解,并对新旧两种模型的主题识别效果进行比较。【结果】经自适应聚类得出最优主题数量为33,且新模型的困惑度得分始终低于传统模型,主题识别效果对比显示新模型具有更好的凝聚性。【局限】在实证语料选取上获取单一主题下的科技文献,数据量不大。【结论】新模型具有更理想的主题识别能力,并能够自主计算最优主题数目。该模型作为对传统LDA模型的改进,可以应用于各领域的大规模语料中。 [Objective] This paper proposes a K-wrLDA model based on adaptive clustering, aiming to improve the subject recognition ability of traditional LDA model, and identify the optimal number of selected topics. [Methods] First, we used the LDA and word2 vec models to construct the T-WV matrix containing the probability information and the semantic relevance of the subject words. Then, we selected the number of topics based on the evaluation of clustering effects and the pseudo-F statistic. Finally, we compared the topic identification results of the proposed model with the old ones. [Results] The optimal number of topics was 33 for the proposed model, which also has lower level of perplexity than the traditional ones. [Limitations] The sample size needs to be expanded. [Conclusions] The proposed model, which has better recognition rate than the traditional LDA model, could also calculate the optimal number of topics. The new model may be applied to process large corpus in various fields.

作者王婷婷韩满王宇

机构地区华侨大学统计学院华侨大学现代应用统计与大数据研究中心

出处《数据分析与知识发现》 CSSCI CSCD 北大核心 2018年第1期29-40,共12页 Data Analysis and Knowledge Discovery

基金国家社会科学基金项目"基于LDA模型的‘海上丝绸之路’文本挖掘研究"(项目编号:15CTJ005)的研究成果之一

关键词主题模型词嵌入自适应聚类困惑度 Topic Model Word Embedding Adaptive Clustering Perplexity

分类号 C816 [社会学—统计学]

引文网络
相关文献

参考文献8

1曹娟,张勇东,李锦涛,唐胜.一种基于密度的自适应最优LDA模型选择方法[J].计算机学报,2008,31(10):1780-1787. 被引量：82
2关鹏,王曰芬.科技情报分析中LDA主题模型最优主题数确定方法研究[J].现代图书情报技术,2016(9):42-50. 被引量：116
3廖列法,勒孚刚,朱亚兰.LDA模型在专利文本分类中的应用[J].现代情报,2017,37(3):35-39. 被引量：40
4关鹏,王曰芬,傅柱.不同语料下基于LDA主题模型的科学文献主题抽取效果分析[J].图书情报工作,2016,60(2):112-121. 被引量：50
5颜端武,陶志恒,李兰彬.一种基于HDP模型的主题文献自动推荐方法及应用研究[J].情报理论与实践,2016,39(1):128-132. 被引量：9
6刘江华.一种基于kmeans聚类算法和LDA主题模型的文本检索方法及有效性验证[J].情报科学,2017,35(2):16-21. 被引量：40
7唐浩浩,王波,席耀一,周杰,唐永旺.基于HDP的无监督微博情感倾向性分析[J].信息工程大学学报,2015,16(4):463-469. 被引量：2
8石晶,胡明,石鑫,戴国忠.基于LDA模型的文本分割[J].计算机学报,2008,31(10):1865-1873. 被引量：54

二级参考文献116

1段瑞雪,王小捷,孙月萍,李文峰.HDP主题模型的用户意图聚类[J].北京邮电大学学报,2011,34(S1):55-58. 被引量：6
2郭炜强,戴天,文贵华.基于领域知识的专利自动分类[J].计算机工程,2005,31(23):52-54. 被引量：17
3李程雄,丁月华,文贵华.SVM-KNN组合改进算法在专利文本分类中的应用[J].计算机工程与应用,2006,42(20):193-195. 被引量：22
4朱靖波,叶娜,罗海涛.基于多元判别分析的文本分割模型[J].软件学报,2007,18(3):555-564. 被引量：15
5石晶,戴国忠.基于PLSA模型的文本分割[J].计算机研究与发展,2007,44(2):242-248. 被引量：25
6Blei D, Ng A, Jordan M. Latent dirichlet allocation. Journal of Machine Learning Research, 2003, 3:993-1022
7Blei D, Lafferty J. Correlated topic models//Weiss Y, Seholkopf B, Platt J eds. Advances in Neural Information Processing Systems 18. Cambridge, MA: MIT Press, 2006
8Li W, McCallum A. Pachinko allocation: DAG-struetured mixture models of topic correlations//Proceedings of the International Conference on Machine Learning (ICML). Pittsburgh, Pennsylvania, 2006: 577-584
9Xing E, Yan R, Hauptmann A. Mining associated text and images with dual-wing harmoniums//Proceedings of the 21th Annual Conference on Uncertainty in Artificial Intelligence (UAI-05). Edinburgh, Scotland, 2005:633-641
10Li F-F, Perona P. A bayesian hierarchical model for learning natural scene categories//Proceedings of the 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR). Washington, DC, USA, 2005: 524-531

共引文献349

1陈琦,张君冬,郑婉婷,杨硕.基于LDA模型的中医药人工智能领域主题演化分析[J].世界科学技术-中医药现代化,2022,24(9):3315-3324. 被引量：3
2吕璐成,罗文馨,许景龙,王莉莉,马丽婧,赵亚娟.专利情报方法、工具、应用研究进展及新技术应用趋势[J].情报学进展,2020(1):235-278. 被引量：9
3曾金,张耀峰,黄新杰,黄廷海.面向用户评论的主题挖掘研究——以美团为例[J].情报科学,2022,40(11):78-84. 被引量：4
4包乾辉,李佳利,石淑珍,戴引,刘雪.基于DSLML的鸡蛋消费在线评论情感分析[J].农业机械学报,2021,52(S01):496-503. 被引量：3
5井世洁,邹利.“校园欺凌”的网络表达与治理——基于LDA主题模型的大数据分析[J].青少年犯罪问题,2020(6):60-68.
6王小芳,王瑞芳,张树功.基于最优化控制模型的文本主题域划分[J].吉林大学学报（理学版）,2009,47(4):769-776.
7龚书,瞿有利,田盛丰.基于语义的自动文摘研究综述[J].北京交通大学学报,2009,33(5):126-131. 被引量：4
8赵煜,蔡皖东,樊娜,刘念.采用并行遗传算法的文本分割研究[J].西安交通大学学报,2009,43(12):40-44. 被引量：1
9王朝飞,王凯.主题模型在数字图书馆Web服务中的应用[J].情报理论与实践,2010,33(2):118-120. 被引量：4
10张小平,周雪忠,黄厚宽,冯奇,陈世波.基于词相似性与CRP的主题模型[J].模式识别与人工智能,2010,23(1):72-76. 被引量：8

同被引文献420

1查明会,张红艳.习近平关于家庭教育重要论述的基本特征[J].中共云南省委党校学报,2021,22(2):36-42. 被引量：1
2胡勇军,韦婷婷,窦子欣,黄芸茵,梁锐成,常会友.广东刀剪产业转型升级技术发展路径研究——基于专利TRIZ分析[J].数据分析与知识发现,2020,4(2):101-109. 被引量：5
3唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：41
4余清臣.面向立德树人的当代中国家庭教育:挑战与治理[J].西北师大学报（社会科学版）,2021(1):118-125. 被引量：25
5韩正琪,刘小平,寇晶晶.基于Rao-Stirling指数和LDA模型的领域学科交叉主题识别——以纳米科技为例[J].情报科学,2020,38(2):116-124. 被引量：16
6刘振宇,李钦富,杨硕,邓应强,刘芬,赖新明,白雪珂.一种基于主动学习和多种监督学习的情感分析模型[J].中国电子科学研究院学报,2020,15(2):171-176. 被引量：2
7赵项,魏峰,白伊莎.用户需求驱动下的产品设计模型构建及应用[J].机械设计,2021,38(S01):56-61. 被引量：25
8李磊,李梓阁.基于LDA主题模型的自贸区治理政策文本聚类分析——以辽宁自贸区为例[J].吉首大学学报（社会科学版）,2021,42(2):23-34. 被引量：16
9赵长青.初论书法价值及实现[J].中国书法,2011(1):39-40. 被引量：1
10邓珞华.词频分析[J].武汉大学学报（人文科学版）,1987,41(1):113-120. 被引量：27

引证文献35

1杨秀璋,于小民,李娜,夏换.基于随机森林和LDA的论文自动分类及主题挖掘研究[J].计算机时代,2018(11):14-18. 被引量：3
2张涛,马海群.一种基于LDA主题模型的政策文本聚类方法研究[J].数据分析与知识发现,2018,2(9):59-65. 被引量：36
3马欣.主题模型的发展及应用研究[J].电脑知识与技术,2018,14(5X):16-18.
4杨秀璋.基于LDA模型和文本聚类的水族文献主题挖掘研究[J].现代计算机,2019,25(5):13-17. 被引量：16
5张明生,邓少灵.基于LDA主题模型的文本信息挖掘应用研究——以天猫小米官方旗舰店为例[J].现代商业,2019(7):29-30. 被引量：2
6曾庆田,胡晓慧,李超.融合主题词嵌入和网络结构分析的主题关键词提取方法[J].数据分析与知识发现,2019,3(7):52-60. 被引量：15
7张聪,易秀双,朱明浩,王兴伟.基于Spark的学术研究热点挖掘方法[J].计算机工程,2019,45(12):171-175. 被引量：1
8张鑫,文奕,许海云,刘忠禹.Prophet预测-修正的主题强度演化模型——以干细胞领域为实证[J].图书情报工作,2020,64(8):78-92. 被引量：9
9杨秀璋,夏换,于小民,杨琪,汪瑜斌.基于多视图融合的论文自动分类方法研究[J].现代电子技术,2020,43(8):120-124. 被引量：3
10毕达天,楚启环,曹冉.基于文本挖掘的消费者差评意愿的影响因素研究[J].情报理论与实践,2020,43(10):137-143. 被引量：18

二级引证文献197

1朱琳,马佳良.小镇青年的网络舆情生成及演化路径研究——基于微博数据的主题建模与情感分析[J].信息技术与管理应用,2023(4):105-119.
2刘洋,朱立芳.国外信息行为研究中的共情理论:现状与展望[J].知识管理论坛,2023(4):316-328.
3周婷玮.基于共现网络与情感分析的多平台消费者评论主题比较研究[J].知识管理论坛,2023(2):79-91. 被引量：2
4龙艺璇,伊惠芳.国内外公共政策文本分析中主题模型应用研究进展[J].知识管理论坛,2020(5):305-316. 被引量：2
5陆伟,罗卓然,李信.科技创新评价研究进展[J].情报学进展,2022(1):158-187. 被引量：2
6李磊,李梓阁.基于LDA主题模型的自贸区治理政策文本聚类分析——以辽宁自贸区为例[J].吉首大学学报（社会科学版）,2021,42(2):23-34. 被引量：16
7郭荣荣,闵素芹.“线上学习”舆情分析与在线教学提升策略[J].中国传媒大学学报（自然科学版）,2020,27(6):48-54. 被引量：2
8叶强,詹宝强,马笑晨,李永立.基于文本挖掘和多模块融合的金融数据分类分级方法[J].信息技术与管理应用,2022(1):120-133.
9倪志恒,杨盛菁.我国“养老服务”研究热点分析——基于文献计量方法[J].广西质量监督导报,2021(3):23-24.
10文淑华,曹议丹,王瑞锦,房翊翔,卢学能,杨珊,易黎,张翔.直播平台弹幕信息智能分析与识别系统设计与实现[J].实验技术与管理,2019,36(8):98-101. 被引量：2

1叶元.论茨维塔耶娃诗歌创作中的死亡主题[J].湖南大众传媒职业技术学院学报,2017,17(4):64-67.
2侯雲峰.融合评论主题信息的可解释推荐[J].现代计算机（中旬刊）,2018(1):12-14.
3刘丹,张玉红,闫相斌.在线评论的产品缺陷识别方法[J].黑龙江科技大学学报,2017,27(6):698-704. 被引量：3
4田青华,白瑞林,李杜.基于改进欧氏聚类的散乱工件点云分割[J].激光与光电子学进展,2017,54(12):310-318. 被引量：24
5刘豪.添加情境外衣注重直观操作——《乘加乘减混合运算》教学初探[J].考试周刊,2017,0(42):25-26.
6刘豪.添加情境外衣注重直观操作——《乘加乘减混合运算》教学初探[J].考试周刊,2017,0(44):5-5.
7尹平平.潘际銮:焊接航母火箭的开拓者[J].小康,2018,0(5):56-58.
8王晓飞.小学音乐课程评价模式的探讨与研究[J].美术文献,2017,0(5):112-114.
9杜君艳.歌词翻译让语法课堂“活”起来[J].高考,2017,0(21):91-91.
10李正宇,陈欢欢.统计流形学习中的文本度量方法[J].小型微型计算机系统,2018,39(3):515-519. 被引量：1

数据分析与知识发现

2018年第1期

浏览历史

内容加载中请稍等...

LDA模型的优化及其主题数量选择研究——以科技文献为例被引量：35

参考文献8

二级参考文献116

共引文献349

同被引文献420

引证文献35

二级引证文献197

相关作者

相关机构

相关主题

浏览历史

LDA模型的优化及其主题数量选择研究——以科技文献为例 被引量：35

参考文献8

二级参考文献116

共引文献349

同被引文献420

引证文献35

二级引证文献197

相关作者

相关机构

相关主题

浏览历史

LDA模型的优化及其主题数量选择研究——以科技文献为例被引量：35