基于频繁词网络的LDA最优主题个数选取方法被引量：6

Selection Method of LDA Optimal Topic Number Based on Frequent Word Network

下载PDF

导出

摘要 LDA(latent Dirichlet allocation,隐含狄利克雷分布)主题模型被广泛应用于大规模文档处理,通常用于主题提取、情感分析和文本降维等。这些模型使用类似期望最大算法从文档集合中提取低维语义分布,并将每一维分布有效结合,形成主题。在模型构建过程中,初始主题数K对迭代过程与结果非常重要。针对这一问题,根据文档聚类簇数(即社区个数)与文档集隐含主题数相一致的特点,提出了一种以频繁词集网络的社区划分个数用来指定LDA主题模型主题输入个数的方法。该方法对文档构建频繁词对,并以此为基础构建词共现网络,然后采用无监督社区划分算法对该词共现网络进行社区划分,并以划分的社区个数作为LDA主题模型的主题个数。实验结果表明,该方法可以自动化指定主题个数K,显著提升主题查准率和查全率,主题独立性更强。 LDA topic model is widely used in large-scale document processing and usually used for topic extraction,emotional analysis and text reduction. These models use the similar expectation maximum algorithm to extract the low-dimensional semantic distribution from the document collection,and effectively combine each dimension distribution to form the topic. In the model building process,the initial topic number K is very important for the iterative process and result. In order to solve this problem,according to the characteristics that the number of frequent words implied in the network community is consistent with the implied topics of document sets,we propose a method to specify the number of inputs for LDA topic model based on the number of community partition in the frequent word set network. This method builds frequent word pairs of documents,based on which the word co-occurrence network is constructed. And then,the unsupervised community partition algorithm is used to partition the co-occurrence network,and the number of communities is used as the number of topics in the LDA topic model. The experiment shows that this method can automatically specify the number of topic number K ,which significantly improves the precision and recall of topic and makes the independence of topic stronger.

作者李菲菲王移芝 LI Fei-fei;WANG Yi-zhi(School of Computer and Information Technology,Beijing Jiaotong University,Beijing 100044,China)

机构地区北京交通大学计算机与信息技术学院

出处《计算机技术与发展》 2018年第8期1-5,共5页 Computer Technology and Development

基金国家自然科学基金(K13A300050)

关键词隐含狄利克雷分布主题模型频繁词网络聚类社区划分 LDA topic model frequent word network clustering community partition

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献10

1王永恒,贾焰,杨树强.基于频繁词集聚类的海量短文分类方法[J].计算机工程与设计,2007,28(8):1744-1746. 被引量：6
2关鹏,王曰芬.科技情报分析中LDA主题模型最优主题数确定方法研究[J].现代图书情报技术,2016(9):42-50. 被引量：124
3曹娟,张勇东,李锦涛,唐胜.一种基于密度的自适应最优LDA模型选择方法[J].计算机学报,2008,31(10):1780-1787. 被引量：83
4邹晓辉,孙静.LDA主题模型[J].智能计算机与应用,2014,4(5):105-106. 被引量：17
5陈宝树,党齐民.Web数据挖掘中的数据预处理[J].计算机工程,2002,28(7):125-127. 被引量：25
6龙树全,赵正文,唐华.中文分词算法概述[J].电脑知识与技术,2009,5(4):2605-2607. 被引量：39
7刘则渊,尹丽春.国际科学学主题共词网络的可视化研究[J].情报学报,2006,25(5):634-640. 被引量：99
8刘志雄,贾彩燕.面向用户兴趣与社区关系的微博话题检测方法[J].智能系统学报,2016,11(3):294-300. 被引量：5
9刘绍海,刘青昆,谢福鼎,安娜.复杂网络基于局部模块度的社团划分方法[J].计算机工程与设计,2009,30(20):4708-4710. 被引量：6
10贺亮,李芳.基于话题模型的科技文献话题发现和趋势分析[J].中文信息学报,2012,26(2):109-115. 被引量：26

二级参考文献75

1冯志伟.当前自然语言处理发展的几个特点[J].暨南大学华文学院学报,2006(1):34-40. 被引量：15
2Watts D J, Strogatz S H.Collective dynamics of 'small-world' networks[J] .Nature, 1998,393(4):440-442.
3Barabosi A L, Albert R. Emergence of scaling in random networks[J].Science, 1999,286(5439):509-512.
4Albert R,Jeong H,Barabasi A L.Diameter of the world-wide web [J] .Nature, 1999,401:130-131.
5Newman MEJ.The structure and function of complex networks [Z].
6Newman MEJ, Girvan M. Finding and evaluating community structure in networks[J].Phys Rev E,2004,69(2):026113.
7Girvan M,Newman MEJ.Community structure in social and biological networks[C].Proc Natl Acad Sci,2001:7821-7826.
8Breiger R L,Boorman S A,Arabie EAn algorithm for cluster relations data with applications to social network analysis and comparison with multidimensional scaling[J] .Journal of Mathematical Psychology, 1975,12:328-383.
9Kernighan B W, Lin S. A efficient beuristic procedure for partitioning graphs [J]. Bell System Technical Journal, 1970, 49:291-307.
10Pothen A,Simon H,Liou K P.Partitioning sparse matrices with eigenvectors of graphs[J].SIAM J Matrix Anal Appl, 1990,11 (3): 430-452.

共引文献396

1陈琦,张君冬,郑婉婷,杨硕.基于LDA模型的中医药人工智能领域主题演化分析[J].世界科学技术-中医药现代化,2022,24(9):3315-3324. 被引量：10
2曾金,张耀峰,黄新杰,黄廷海.面向用户评论的主题挖掘研究——以美团为例[J].情报科学,2022,40(11):78-84. 被引量：7
3易明,秦涵,蒋武轩.融合标签概念空间及用户网络的语义社团发现研究[J].情报科学,2020,0(2):29-38.
4包乾辉,李佳利,石淑珍,戴引,刘雪.基于DSLML的鸡蛋消费在线评论情感分析[J].农业机械学报,2021,52(S01):496-503. 被引量：5
5井世洁,邹利.“校园欺凌”的网络表达与治理——基于LDA主题模型的大数据分析[J].青少年犯罪问题,2020(6):60-68.
6楚东晓,易木涵.基于在线评论构建面向博物馆的访客体验维度模型[J].包装工程,2024,45(S01):22-29.
7姜春林,杜维滨,李江波.CSSCI文献数据共现矩阵的软件实现[J].情报理论与实践,2008,31(6):937-940. 被引量：6
8王细薇,樊兴华,赵军.一种基于特征扩展的中文短文本分类方法[J].计算机应用,2009,29(3):843-845. 被引量：36
9郑春荣,俞红杰,黄文涛.复杂网络在图书馆的应用及个性化服务[J].浙江海洋学院学报（人文科学版）,2014,31(2):98-101.
10曾铭,俞俊生,刘绍华.一种用于社交网站的云安全敏感信息过滤模型[J].华中科技大学学报（自然科学版）,2012,40(S1):211-214. 被引量：4

同被引文献48

1曹娟,张勇东,李锦涛,唐胜.一种基于密度的自适应最优LDA模型选择方法[J].计算机学报,2008,31(10):1780-1787. 被引量：83
2王小芳,王瑞芳,张树功.基于最优化控制模型的文本主题域划分[J].吉林大学学报（理学版）,2009,47(4):769-776. 被引量：1
3崔凯,周斌,贾焰,梁政.一种基于LDA的在线主题演化挖掘模型[J].计算机科学,2010,37(11):156-159. 被引量：35
4单斌,李芳.基于LDA话题演化研究方法综述[J].中文信息学报,2010,24(6):43-49. 被引量：85
5徐戈,王厚峰.自然语言处理中主题模型的发展[J].计算机学报,2011,34(8):1423-1436. 被引量：236
6贺亮,李芳.基于话题模型的科技文献话题发现和趋势分析[J].中文信息学报,2012,26(2):109-115. 被引量：26
7王振振,何明,杜永萍.基于LDA主题模型的文本相似度计算[J].计算机科学,2013,40(12):229-232. 被引量：97
8李岩,韩斌,赵剑.基于短文本及情感分析的微博舆情分析[J].计算机应用与软件,2013,30(12):240-243. 被引量：22
9陈宝树,党齐民.Web数据挖掘中的数据预处理[J].计算机工程,2002,28(7):125-127. 被引量：25
10刘勘,袁蕴英.基于自动编码器的短文本特征提取及聚类研究[J].北京大学学报（自然科学版）,2015,51(2):282-288. 被引量：32

引证文献6

1张紫婷,王慧,张丽霞,刘利民.基于增量概率图模型的舆情演化分析方法[J].内蒙古工业大学学报（自然科学版）,2019,38(3):216-224.
2韩肖赟,侯再恩,孙绵.基于主题模型及其扩展的短文本算法评述[J].计算机应用与软件,2020,37(1):1-7. 被引量：3
3韩肖赟,侯再恩,孙绵.主题模型在短文本上的应用研究[J].计算机工程与科学,2020,42(1):144-152. 被引量：1
4董薇,庞峰,顾炜江.基于LDA模型的大规模文本挖掘算法研究[J].软件,2020,41(12):58-63. 被引量：2
5杨洋,江开忠,原明君,惠岚昕.新闻话题识别中LDA最优主题数选取研究[J].数据分析与知识发现,2022,6(11):72-78. 被引量：5
6韩迪.我国现代农业上市公司专利主题演化研究[J].企业改革与管理,2024(14):151-154.

二级引证文献11

1陈乐遥,洪磊,陈杨,王川,杨永舟,刘姝文.基于文本挖掘的公安院校公众号主题类型挖掘研究[J].计算机时代,2020(8):6-9. 被引量：2
2孟秋晴,熊回香.基于在线问诊文本信息的医生推荐研究[J].情报科学,2021,39(6):152-160. 被引量：12
3吴迪,黄竹韵,生龙,张梦甜,贾耀清.情感极性和影响函数的OBTM弹幕主题演化[J].计算机工程与设计,2021,42(10):2956-2961.
4李艳红,谢梦娜,王素格,李德玉.基于特征扩展的微博短文本流热点话题检测方法[J].数据采集与处理,2022,37(3):621-632. 被引量：1
5麦晓庆,张天湖,王亮,胡长武,王仙,史渊源.基于NLP的变电主设备缺陷文本自动化挖掘算法[J].信息技术,2022,46(9):151-156. 被引量：2
6刘滨,詹世源,刘宇,雷晓雨,杨雨宽,陈伯轩,刘格格,高歆,皇甫佳悦,陈莉.基于密度Canopy的评论文本主题识别方法[J].河北科技大学学报,2023,44(5):493-501. 被引量：1
7刘爱琴,郭少鹏,张卓星.基于LDA模型融合Catboost算法的文本自动分类系统设计与实现[J].国家图书馆学刊,2023,32(5):84-92. 被引量：2
8潘小宇,倪渊,金春华,张健.基于超平面-BERT-Louvain优化LDA模型的书法作品价值要素提取及指标体系构建[J].数据分析与知识发现,2023,7(10):109-118. 被引量：1
9魏忠,乐玥.基于LDA模型的在线评价物流主题挖掘及可视化分析[J].物流技术,2023,42(12):77-83.
10晋良海,王昕煜,张文,王抒情.“4·29”特别重大房屋倒塌事件舆情主题聚类及演化研究[J].安全与环境学报,2024,24(7):2787-2796.

1翟梦迪,吴思霈,刘雁娟.基于语义分析的微博推荐系统[J].计算机科学与应用,2016,6(9):531-538.
2邱先标,陈笑蓉.一种基于SA＿LDA模型的文本相似度计算方法[J].计算机科学,2018,45(B06):106-109. 被引量：4
3张宝庆,雷祖康.基于红外热像的传统砌体含水特征检测实验研究[J].华中建筑,2018,36(3):48-51. 被引量：1
4张研.“ながら(も)”的汉日转折复句对比与翻译[J].长江丛刊,2017,0(31):61-62.
5曲靖野,陈震,郑彦宁.基于主题模型的科技报告文档聚类方法研究[J].图书情报工作,2018,62(4):113-120. 被引量：16
6江雨燕,桂伟.基于受限玻尔兹曼机的分布式主题特征提取[J].计算机工程与应用,2017,53(23):108-112. 被引量：5
7关敏.汉语助词“着”语义在英语中的句法分布[J].海外英语,2018(7):203-204.
8杨荐.《欲望号街车》——纸月亮的沦毁[J].文化月刊（下旬刊）,2017,0(10):112-115.
9赵宇红,张梦书,陈杰.基于朋友社区路径预测的消息路由算法[J].内蒙古科技大学学报,2018,37(1):90-95.
10黄兴灏,宋余庆,陆虎.遗传社团划分算法揭示静息态fMRI社团结构[J].江苏科技大学学报（自然科学版）,2017,31(6):787-794.

计算机技术与发展

2018年第8期

浏览历史

内容加载中请稍等...

基于频繁词网络的LDA最优主题个数选取方法被引量：6

参考文献10

二级参考文献75

共引文献396

同被引文献48

引证文献6

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

基于频繁词网络的LDA最优主题个数选取方法 被引量：6

参考文献10

二级参考文献75

共引文献396

同被引文献48

引证文献6

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

基于频繁词网络的LDA最优主题个数选取方法被引量：6