基于联合非负矩阵分解的话题变迁检测方法被引量：1

Topic Change Detection Method Based on Joint Nonnegative Matrix Factorization

下载PDF

导出

摘要在大规模时序文档集中,异同话题缺乏从时序文档集中识别跟踪分析话题随时间变迁的能力。为此,提出一种面向时序文档语料库的话题变迁检测方法。该方法从时序文档语料库中发现相似话题和异同话题。利用改进的联合非负矩阵分解算法,从多个数据集中提取话题集合。为避免引入噪声话题,计算所有话题的话题熵,以获取优质话题,并通过运用词云和趋势图来分析话题变迁趋势。在20Newsgroups和LTN2011数据集上的实验结果表明,该方法可以有效地从时序文档集中发现异同话题,且提取的话题效果好、准确率高。 In large-scale temporal documents similarities and differences do not have the ability to identily topics from temporal documents and to track and analyze topics over time. To this end, a method of topic change detection for temporal document corpus is proposed. Similar topics and similarities and foundations are found in the temporal document corpus. Using the improved joint Nonnegative Matrix Factorization （NMF） algorithm, similarities and differences were found in the the timeseries document. To avoid the introduction of noise topics, by calculating the topic of all topic entropy, in order to obtain high-quality topics. Use the word cloud and trend graph to analyze the trend of topic change. Experimental results of two real data sets, 20Newsgroups and LTN2011 show that this method can effectively find similarities and differences from the tempord of documents, and the extraction topic is effect and the accuracy is high.

作者陈梦伟吕钊崔修涛

机构地区华东师范大学计算机科学与技术系上海长江计算机有限公司

出处《计算机工程》 CAS CSCD 北大核心 2018年第1期35-43,共9页 Computer Engineering

基金上海市科学技术委员会科研计划项目(16511102702) 上海市经济和信息化委员会项目(150643)

关键词联合非负矩阵分解话题模型时序异同话题优质话题话题变迁检测 Joint Nonnegative Matrix Factorization （NMF） topic model temporal similarities and differences topic high quality topic topic change detection

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1楚克明,李芳.基于LDA模型的新闻话题的演化[J].计算机应用与软件,2011,28(4):4-7. 被引量：29
2王鑫,李璐,王晓芳.基于Nystr?m谱聚类的词典学习[J].计算机工程与应用,2014,50(6):112-117. 被引量：3
3舒振球,赵春霞.基于局部学习的受限非负矩阵分解算法[J].华中科技大学学报（自然科学版）,2015,43(7):82-86. 被引量：5
4杜世强,石玉清,王维兰,马明.基于图正则化的半监督非负矩阵分解[J].计算机工程与应用,2012,48(36):194-200. 被引量：7

二级参考文献59

1Blei B D,Ng A,Jordan M I. Latent Dirichlet allocation [J]. Journal of Machine Learning Research, 2003 (3) :933 - 1022.
2Xuerui Wang, Andrew MeCallum. Topic over time: A Non-Markov Continuous-Time Model of Topical Trends [ C ]//ACM SIGKDD - 2006,424 - 433.
3David Hall, Daniel Jurafsky, Christopher D Manning. Studying the History of Ideas Using Topic Modeh [ C ]//Proceedings of the 2008 Conference on Empirical Methods in Natural Language Processing, 2008:363 - 371.
4David M Blei, John D Lafferty. Dynamic Topic Models[ C]//Proceod- ings of the 23^rd International Conference on Machine Learning. 2006: 113 - 120.
5Alsumait L, Barbara D, Domeniconi C. On-line LDA: adaptive topic models for mining text streams with applications to topic detection and tracking[C]//ICDM,2008.
6Griffiths T L, Steyvers M. Finding scientific topics [ C]//Proc Natl Acad Sci U S A, vol. 101 Suppl 1, 2004:5228-5235.
7Mark S,Tom G. Probabilistic Topic Models[ M]//T Landauer, D Mc- Namara, S Dennis, et al. Latent Semantic Analysis: A Road to Meaning. 2006.
8Xuan-Hieu Phan, Cam-Tu Nguyen. http://gibbslda, sourceforge, net/.
9Mei Q ,Zhai C. Discovering evolutionary theme patterns from test: an exploration of temporal text mining[ C ]//Proceeding of the eleventh ACM SIGKDD international conference on Konwledge discovery in data mining, 2005.
10Thomas Minka, John Lafferty. Expectation-Propagation for the Generative Aspect Model [ C ]//Uncertainty in Artificial Intelligence ( UAt), 2002.

共引文献40

1李保利,杨星.基于LDA模型和话题过滤的研究主题演化分析[J].小型微型计算机系统,2012,33(12):2738-2743. 被引量：29
2林萍,黄卫东.基于LDA模型的网络舆情事件话题演化分析[J].情报杂志,2013,32(12):26-30. 被引量：24
3黄卫东,陈凌云,吴美蓉.网络舆情话题情感演化研究[J].情报杂志,2014,33(1):102-107. 被引量：35
4李湘东,巴志超,黄莉.基于加权隐含狄利克雷分配模型的新闻话题挖掘方法[J].计算机应用,2014,34(5):1354-1359. 被引量：14
5周静,黄心汉.基于新迭代规则的稀疏CNMF人脸识别方法[J].华中科技大学学报（自然科学版）,2018,46(12):48-54. 被引量：7
6赵迎光,洪娜,安新颖.主题模型在主题演化方法中的应用研究进展[J].现代图书情报技术,2014(10):63-69. 被引量：9
7袁胜文.基于LDA模型的科技文献话题演化分析[J].计算机光盘软件与应用,2014,17(21):21-22.
8秦晓慧,乐小虬.基于LDA主题关联过滤的领域主题演化研究[J].现代图书情报技术,2015(3):18-25. 被引量：27
9胡学考,孙福明,李豪杰.基于稀疏约束的半监督非负矩阵分解算法[J].计算机科学,2015,42(7):280-284. 被引量：9
10林江豪,周咏梅,阳爱民,陈昱宏,陈晓帆.基于概率潜在语义分析的群体情绪演进分析[J].计算机应用,2015,35(10):2747-2751. 被引量：4

同被引文献6

1洪宇,张宇,刘挺,李生.话题检测与跟踪的评测及研究综述[J].中文信息学报,2007,21(6):71-87. 被引量：153
2徐建民,孙晓磊,吴树芳.结合时间信息的事件追踪的动态模型[J].计算机应用,2013,33(10):2807-2810. 被引量：2
3孙红光,高星,孙铁利,杨凤芹,彭杨,冯国忠.基于改进Single-Pass算法的网络新闻话题发现[J].吉林大学学报（理学版）,2018,56(1):114-118. 被引量：11
4刁洪祥.话题检测与跟踪关键技术研究[J].信息与电脑,2016,28(7):31-32. 被引量：1
5韩忠明,张梦玫,李梦琪,段大高,陈谊.面向复杂主题建模的流式层次狄里克雷过程[J].计算机学报,2019,42(7):1539-1552. 被引量：6
6张仰森,段宇翔,黄改娟,蒋玉茹.社交媒体话题检测与追踪技术研究综述[J].中文信息学报,2019,0(7):1-10. 被引量：18

引证文献1

1张帆,潘亚雄,胡勇.基于改进Single-Pass的新闻话题检测与追踪技术研究[J].信息安全研究,2020,6(5):396-403. 被引量：4

二级引证文献4

1袁志远,徐怀超,郭金顺,冯盼.基于大数据的网络舆情分析系统设计与实现[J].西藏科技,2020(12):76-80. 被引量：3
2侯博元,崔喆,谢欣冉.BERT-Single:半监督的话题检测与追踪方法[J].计算机应用,2022,42(S01):21-27. 被引量：1
3郭莹,薛涛,胡伟华.面向热点话题检测的增量文本聚类算法[J].计算机系统应用,2022,31(9):280-286. 被引量：2
4李崭,杜晓童,黄浩,任秋霖.基于MS-Cluster与Prompt-Learning话题检测与追踪技术[J].计算机科学与应用,2023,13(10):1918-1927.

1王侠林,左赞,周兰平,朱林,范红,孔祥阳,贺建峰.基于概率话题模型的微生物菌群结构研究[J].中国科学：生命科学,2017,47(11):1220-1234.
2余冲,李晶,孙旭东,傅向华.基于词嵌入与概率主题模型的社会媒体话题识别[J].计算机工程,2017,43(12):184-191. 被引量：13
3林丹,刘建明,谷志瑜.一种基于关键词的微博话题聚类算法[J].计算机应用与软件,2018,35(1):264-268. 被引量：7
4王建芳,刘冉东,刘永利.一种带偏置的非负矩阵分解推荐算法[J].小型微型计算机系统,2018,39(1):69-73. 被引量：7
5罗晓霞,司丰玮,罗香玉.大图结构特征对划分效果的影响[J].计算机应用,2018,38(1):1-5.
6江子特,赵辽英,邹佳林.基于Fan模型非负矩阵分解的光谱解混并行计算[J].计算机应用与软件,2017,34(12):96-100. 被引量：1
7刘英,姚志红,肖晶,詹煦旭,刘阳,任志强.2012—2016年益阳市中心医院大肠埃希菌耐药性变迁及其与抗菌药物用药频度、使用强度的相关性分析[J].中国医院用药评价与分析,2017,17(12):1692-1695. 被引量：10
8刘阳阳,张骏,高欣健,张旭东,高隽.基于卷积递归神经网络和核超限学习机的3D目标识别[J].模式识别与人工智能,2017,30(12):1091-1099. 被引量：5
9姚晟,汪杰,徐风,陈菊.不完备邻域粗糙集的不确定性度量和属性约简[J].计算机应用,2018,38(1):97-103. 被引量：16
10岳应娟,王旭,蔡艳平,刘渊,郑勇.内燃机优化VMD-CWD时频表征与BSNMF编码识别诊断方法[J].北京交通大学学报,2017,41(5):10-16. 被引量：1

计算机工程

2018年第1期

浏览历史

内容加载中请稍等...

基于联合非负矩阵分解的话题变迁检测方法被引量：1

参考文献4

二级参考文献59

共引文献40

同被引文献6

引证文献1

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于联合非负矩阵分解的话题变迁检测方法 被引量：1

参考文献4

二级参考文献59

共引文献40

同被引文献6

引证文献1

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于联合非负矩阵分解的话题变迁检测方法被引量：1