一种面向多文本集的部分比较性混合模型被引量：2

A Partial Comparative Mixture Model for Multi-collections Documents

下载PDF

导出

摘要针对当前主要的CTM模型只能分析公共话题的缺陷,提出一种PCCMix混合模型来实现跨文本集的话题分析.该模型把多个文本集中的话题划分为公共话题和文本集特有话题,首先根据文本数据建立这两类话题在所有词上的概率分布,再使用期望最大化算法进行模型的参数估计.实验结果表明,该模型不仅能够发现公共话题在不同文本集中的差异,而且能分析各文本集特有的话题.模型能更精确地对文本建模,具有良好的性能. State-of-the-art cross collections topic models suffer from major flaw that they can only analyze the common topics among document collections.We introduced a mixture model PCCMix （Partial comparative Cross Collections Mixture） for multi-collections CTM to detect both common topics and collection-special topics.PCCMix divides the two types of topics in document collections by estimating a probability distribution from the whole dataset in advance,and then trains the model by the Expectationmaximuzation algorithm （EM）.Experiment results show that PCCMix can analyze both common topics among collections and collection special topics.The PCCMix model is very effective and can model the document collections more precisely than the two main CTM models.

作者谭文堂王桢文殷风景葛斌肖卫东

机构地区国防科学技术大学信息系统工程重点实验室

出处《湖南大学学报（自然科学版）》 EI CAS CSCD 北大核心 2013年第11期101-107,共7页 Journal of Hunan University:Natural Sciences

基金国家自然科学基金资助项目(60903225) 湖南省自然科学基金资助项目(11JJ5044) 国防科学技术大学优秀研究生创新基金资助项目(S100502)

关键词概率分布比较性文本挖掘部分可比性 PCCMix模型混合模型 probability distributions comparative text mining partial comparative PCCMix（Partial comparative Cross Collections Mixture）model mixture model

分类号 TP39 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献18

1ZHAI C, VELIVELLI A, YU B. A cross-collection mixture mode for momparative text mining[C]//Proceedings of the KDD. Seattle: ACM, 2004z 743-748.
2PAUL M, GIRJU R. Cross-cultural analysis of Blogs and forums with mixed-collection topic models[C]// Proceedings of the Confer- enee on EMNLP. Singapore: ACL, 2009:1408-1417.
3PAUL M G. Comparative scientific research analysis with a language- independent cross-collection model[C]//Proceedings of SEPLN. Va- lencia, Spain, 2010:153-160.
4MEI Q, LIU C, SU H, etal. A probabilistie approach to spatiotem- poral theme pattern mining on weblogs[C]/ Proceedings of the WWW. Edinburgh: ACM, 2006: 533-542.
5MEI Q, ZHAI C. Discovering evolutionary theme patterns from text- An exploration of temporal text mining[C]// Proceedings of the KDD. Chicago: ACM, 2005.. 198-207.
6YIN Z, CAO L, HAN J, et al. Geographical topic discovery andcomparison[C]//Proceedings of the WWW. Hyderabad: ACM, 2011 : 247-256.
7DEERWESTER S, DUMAIS S, FURNAS G,et al. Indexing by la- tent semantic analysis[J]. Journal of the American Society for Irdor- l-nation Science,1990,41 : 391-407.
8HOFMANN T. Probabilistic latent semantic indexing[C]//Proceed- in.gs of SIGIR. New York: ACM, 1999:50-57.
9BLEI D M,NG A Y,JORDAN M I. Latent dirichlet allocation[J]. Journal of Machine Learning Research, 2003,3: 993-1022.
10M W, MCCALLUM A. Pachinko allocation: DAG-struetured mix- ture models of topic correlations[C]// Proceedings of the ICML. New York: ACM, 2006: 577-584.

同被引文献30

1张启蕊,张凌,董守斌,谭景华.训练集类别分布对文本分类的影响[J].清华大学学报（自然科学版）,2005,45(S1):1802-1805. 被引量：26
2张宁,贾自艳,史忠植.使用KNN算法的文本分类[J].计算机工程,2005,31(8):171-172. 被引量：96
3袁军鹏,朱东华,李毅,李连宏,黄进.文本挖掘技术研究进展[J].计算机应用研究,2006,23(2):1-4. 被引量：57
4苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：378
5张玉芳,彭时名,吕佳.基于文本分类TFIDF方法的改进与应用[J].计算机工程,2006,32(19):76-78. 被引量：120
6卢苇,彭雅.几种常用文本分类算法性能比较与分析[J].湖南大学学报（自然科学版）,2007,34(6):67-69. 被引量：31
7NASSIRTOUSSI A K, AGHANDZORGI S, WAH T Y, et al. Text mining for market prediction A systematic review[J]. Expert Systems with Applications, 2014, 41(16) : 7653--7670.
8ZHU F, PATUMCHAROENPOL P, ZHANG C, et al. Biomedical text mining and its applications in cancer research[J]. Journal of Bio- medical Informatics, 2013, 46(2): 200--211.
9XU X, CHENG X, TAN S, et al. Aspect level opinion mining of online customer reviews[J]. Communications, China, 2013, 10(3) .. 25- 41.
10SEBASTIANI F. Machine learning in automated text categorization [J]. ACM Computing Surveys (CSUR), 2002, 34(1): 1 -47.

引证文献2

1兰秋军,李卫康,刘文星.不同情境下中文文本分类模型的表现及选择[J].湖南大学学报（自然科学版）,2016,43(4):141-146. 被引量：4
2宋卓远,阚乾超,赵凯,陈镱尹,杨云帆,杨秀璋,罗子江.基于共词分析的国内文本挖掘研究[J].图书馆学刊,2021,43(4):104-111. 被引量：4

二级引证文献8

1张小平.周总理是中国少数民族语言广播事业的奠基人[J].中国广播电视学刊,2000(3):52-52. 被引量：1
2仉文岗,李红蕊,巫崇智,王林.基于RF和KNN的地下采场开挖稳定性评估[J].湖南大学学报（自然科学版）,2021,48(3):164-172. 被引量：6
3叶垚敏,雷后兴,张晓芹,林娜.基于CiteSpace的中药中黄曲霉素国内研究现状可视化分析[J].中国医药导报,2021,18(33):123-126. 被引量：2
4李攀攀,谢正霞,王赠凯,靳锐.开放互联网环境基于信息熵的信息传播影响力计算方法[J].电信科学,2022,38(4):90-100. 被引量：2
5方必基,刘彩霞.2011—2020年中国儿童肥胖研究的文献计量学分析[J].现代预防医学,2022,49(11):1992-1998. 被引量：2
6倪晓梅,王华伟,熊明兰,王峻洲.基于文本挖掘的民航事件风险评估[J].湖南大学学报（自然科学版）,2022,49(6):73-79. 被引量：6
7Chengfan Li,Lan Liu,Junjuan Zhao,Xuefeng Liu.LF-CNN:Deep Learning-Guided Small Sample Target Detection for Remote Sensing Classification[J].Computer Modeling in Engineering & Sciences,2022(4):429-444.
8杨芸,罗仕兰,吴云梅,任颖.基于CiteSpace的花椒挥发油国内研究现状可视化分析[J].食品与营养科学,2022,11(3):238-246.

1谭文堂,王桢文,殷风景,葛斌,肖卫东.一种面向多文本集的部分比较性LDA模型[J].计算机研究与发展,2013,50(9):1943-1953. 被引量：5
2李彩霞.基于Web的多维数据仓库建模方法研究[J].中国科技信息,2006(02A):20-20. 被引量：1
3黄淑东,李圣翠.如何实现校园一卡通高效的运行管理研究[J].计算机光盘软件与应用,2013,16(24):120-121. 被引量：1
4王方,成颖,柯青.基于混合模型的文本聚类研究综述[J].情报学报,2015,34(5):536-548.
5刘海峰,苏展,刘守生.一种基于词频信息的改进CHI文本特征选择[J].计算机工程与应用,2013,49(22):110-114. 被引量：24
6李庆忠,赵培英,郑永清,王海洋.Web数据的数据仓库化模型[J].计算机工程与应用,2003,39(9):198-201. 被引量：5
7唐晓丽,白宇,张桂平,蔡东风.一种面向聚类的文本建模方法[J].山西大学学报（自然科学版）,2014,37(4):595-600. 被引量：8
8龙银杏,阳许军.用向量空间模型对运营商投诉文本建模的研究[J].信息技术,2016,40(12):121-124. 被引量：1
9杨新武,李森,刘椿年.基于BP网络的中文文本分类技术[J].微计算机应用,2008,29(3):31-36. 被引量：2
10程广东,秦一方.基于新浪微博API的话题分析系统[J].山东交通学院学报,2015,23(4):78-86. 被引量：1

湖南大学学报（自然科学版）

2013年第11期

浏览历史

内容加载中请稍等...

一种面向多文本集的部分比较性混合模型被引量：2

参考文献18

同被引文献30

引证文献2

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

一种面向多文本集的部分比较性混合模型 被引量：2

参考文献18

同被引文献30

引证文献2

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

一种面向多文本集的部分比较性混合模型被引量：2