基于MapReduce的并行PLSA算法及在文本挖掘中的应用被引量：7

MapReduce Based Parallel Probabilistic Latent Semantic Analysis for Text Mining

下载PDF

导出

摘要 PLSA(Probabilistic Latent Semantic Analysis)是一种典型的主题模型。复杂的建模过程使其难以处理海量数据,针对串行PLSA难以处理海量数据的问题,该文提出一种基于MapReduce计算框架的并行PLSA算法,能够以简洁的形式和分布式的方案来解决大规模数据的并行处理问题,并把并行PLSA算法运用到文本聚类和语义分析的文本挖掘应用中。实验结果表明该算法在处理较大数据量时表现出了很好的性能。 PLSA（（Probabilistie Latent Semantic Analysis） is a typical topic model. To enable a distributed computation of PLSA for the ever-increasing large datasets, a parallel PLSA algorithm based on MapReduce is proposed in this paper. Applied in text clustering and semantic analysis, the algorithm is demonstrated by the experiments for s its scalability in dealing with large datasets.

作者李宁罗文娟庄福振何清史忠植

机构地区中国科学院计算技术研究所智能信息处理重点实验室中国科学院大学河北大学数学与计算机学院机器学习与计算智能重点实验室

出处《中文信息学报》 CSCD 北大核心 2015年第2期79-86,共8页 Journal of Chinese Information Processing

基金国家自然科学基金(61175052 61203297 61035003) 国家863高技术研究发展计划(2014AA012205 2013AA01A606 2012AA011003)

关键词概率主题模型 MAPREDUCE 并行语义分析 probabilistic latent semantic analysis MapReduce text clustering semantic analysis

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献21

1宋晓雷,王素格,李红霞,李德玉.基于概率潜在语义分析的词汇情感倾向判别[J].中文信息学报,2011,25(2):89-93. 被引量：15
2Blei D M, Jordan M I. Modeling annotated data[C]//Proceedings of the 26th Annual International ACM SI-GIR Conference on Research and Development in Infor-mation Retrieval. Los Alamitos: IEEE Computer Soci-ety, 2003: 127-134.
3Monay F, Gatica-Perez D. Modeling semantic aspectsfor cross-media image indexing [J]. IEEE Transac-tions on Pattern Analysis and Machine Intelligence,2007, 29(10): 1802-1817.
4Li Z-X,Shi Z-P,Liu X,et al. Automatic image anno-tation with continuous PLSA[C]//Proceedings of the35th IEEE International Conference on Acoustics,Speech and Signal Processing. Los Alamitos: IEEEComputer Society, 2010: 806-809.
5Mark Steyvers. Probabilistic Topic Models[C]//Pro-ceedings of Latent Semantic Analysis: A Road toMeaning. Laurence Erlbaum,2007 :420-440.
6Scott CD, Susan TD,Thomas KL,et al. Indexing bylatent semantic analysis [J]. Journal of the AmericanSociety for Information Science, 1990,41(6) :391-407.
7Hofmann T. Probabilistic Latent Semantic Analysis[C]//Proceedings of 15th Conference on Uncertaintyin Artificial Intelligence, San Francisco: Morgan Kauf-mann. 1999 : 289-296.
8Hofmann T. Unsupervised learning by probabilistic la-tent semantic analysis [J]. Machine Learning,2001,42(1): 177-196.
9张玉芳,朱俊,熊忠阳.改进的概率潜在语义分析下的文本聚类算法[J].计算机应用,2011,31(3):674-676. 被引量：14
10Hong C, Chen W,Zheng W, et al. Parallelizationand characterization of probabilistic latent semantic a-nalysis [ C ^//Proceedings of Parallel Processing,2008.ICPP'08. 37th International Conference on.IEEE,2008: 628-635.

二级参考文献123

1陈浩,何婷婷,姬东鸿.基于k-means聚类的无导词义消歧[J].中文信息学报,2005,19(4):10-16. 被引量：16
2朱嫣岚,闵锦,周雅倩,黄萱菁,吴立德.基于HowNet的词汇语义倾向计算[J].中文信息学报,2006,20(1):14-20. 被引量：326
3徐琳宏,林鸿飞,杨志豪.基于语义理解的文本倾向性识别机制[J].中文信息学报,2007,21(1):96-100. 被引量：122
4金千里,赵军,徐波.弱指导的统计隐含语义分析及其在跨语言信息检索中的应用[C]//全国第七届计算语言学联合学术会议.北京:清华大学,2003-08-01:527-533.
5WANG ZAN, TSIM Y C, YEUNG W S, et al. Probabilistic Latent Semantic Analysis (PLSA) in bibliometric analysis for technology forecasting [ J]. Journal of Technology Management and Innovation, 2007, 41(6): 11-24.
6HOFMANN T. Unsupervised learning by probabilistic latent seman- tic analysis [ J]. Machine Learning, 2001, 42(1/2) : 177 - 196.
7PETERSEN B, WINTER O, HANSEN L K. On the slow conver- gence of EM and VBEM in low-noise linear models [ J]. Neural Computation, 2005, 17(9): 1921-1926.
8AZADI T El, ALMASGANJ F. Using backward elimination with a new model order reduction algorithm to select best double mixture model for document [ J]. Expert Systems with Applications, 2009, 36(7) : 10485 - 10493.
9TIPPING M, BISHOP C M. Probabilistic principal component anal- ysis [J]. Journal of the Royal Statistical Society, Series B, 1999, 61(3): 611-622.
10DING C H Q. A similarity-based probability model for latent seman- tic indexing [ C]// Proceedings on the 22nd Annual International ACM SIGIR Conference on Research and Development in Informa- tion Retrieval. Berkeley: ACM Press, 1999:194-198.

共引文献125

1吴英杰,李军莲,孙海霞,王蕾,陈颖.基于著者共现的CBM机构名称规范研究[J].医学信息学杂志,2019,40(12):48-53. 被引量：3
2李春妍,王勇.个性化服务中用户兴趣聚类算法研究[J].信息技术,2007,31(10):77-80. 被引量：3
3庞秀丽,冯玉强,姜维.电子商务个性化文档推荐技术研究[J].中国管理科学,2008,16(S1):581-586. 被引量：10
4张云,冯博琴,麻首强,刘连梦.蚁群-遗传融合的文本聚类算法[J].西安交通大学学报,2007,41(10):1146-1150. 被引量：15
5王晓东,郭雷,方俊,杨宁,邓涛.一种基于本体的抽象度可调文档聚类[J].计算机工程与应用,2007,43(29):172-175. 被引量：3
6王凌峰.基于构成要素的聚类算法[J].统计与决策,2007,23(19):26-28. 被引量：1
7谷波,李济洪,刘开瑛.基于COSA算法的中文文本聚类[J].中文信息学报,2007,21(6):65-70. 被引量：9
8丘志宏,宫雷光.利用上下文提高文本聚类的效果[J].中文信息学报,2007,21(6):109-115. 被引量：9
9索红光,王玉伟.一种用于文本聚类的改进k-means算法[J].山东大学学报（理学版）,2008,43(1):60-64. 被引量：34
10蔡荣太,王延杰.矢量聚类及其在稀疏分量分析中的应用[J].计算机工程,2008,34(5):8-10.

同被引文献75

1李慧娟.大数据食物链、信息聚类系统、定制解决方案——汤森路透商业模式比较分析[J].编辑之友,2015(2):79-84. 被引量：3
2万小丽,朱雪忠.专利价值的评估指标体系及模糊综合评价[J].科研管理,2008,29(2):185-191. 被引量：221
3宋鹏,廉继红.ETL技术在复杂数据迁移项目中的应用[J].西安工程大学学报,2008,22(4):493-497. 被引量：12
4何涛.使用ETL工具Kettle实现图书馆联盟信息系统数据集成[J].科学咨询,2009(21):47-48. 被引量：15
5孙玉艳,张文德.企业专利量化评估系统的设计与实现[J].现代图书情报技术,2009(11):64-68. 被引量：3
6于飞,丁华福,姜伦.Web日志挖掘中数据预处理技术的研究[J].计算机技术与发展,2010,20(5):47-50. 被引量：9
7王海翔.Oracle数据库软件研究[J].现代商贸工业,2010,22(11):357-358. 被引量：6
8李寿山,黄居仁.基于Stacking组合分类方法的中文情感分类研究[J].中文信息学报,2010,24(5):56-61. 被引量：43
9宋晓雷,王素格,李红霞,李德玉.基于概率潜在语义分析的词汇情感倾向判别[J].中文信息学报,2011,25(2):89-93. 被引量：15
10李乔,郑啸.云计算研究现状综述[J].计算机科学,2011,38(4):32-37. 被引量：433

引证文献7

1刘中.海量图书关键词特征检索定位优化仿真研究[J].计算机仿真,2016,33(9):422-425. 被引量：5
2谢铁,郑啸,张雷,王修君.基于并行化递归神经网络的中文短文本情感分类[J].计算机应用与软件,2017,34(3):205-211. 被引量：11
3陆泉,张良韬.处理流程视角下的大数据技术发展现状与趋势[J].信息资源管理学报,2017,7(4):17-28. 被引量：9
4赵逸智,张云峰.大数据环境下文本信息挖掘系统设计[J].现代电子技术,2018,41(1):125-128. 被引量：22
5杨媛,马旭,陈琛.一种多层次分布式网络数据挖掘方法的改进[J].科学技术与工程,2018,18(1):298-303. 被引量：4
6包清临,柴华奇,赵嵩正,王吉林.采用机器学习算法的技术机会挖掘模型及应用[J].上海交通大学学报,2020,54(7):705-717. 被引量：4
7许戈静.大数据环境下网络舆情文本挖掘技术研究[J].湖北第二师范学院学报,2020,37(9):103-108.

二级引证文献55

1张艳菊.海量图书检索中的模糊目标确定技术[J].现代电子技术,2017,40(13):137-140. 被引量：2
2于芳.考虑图书馆图书供应需求的采购算法研究[J].现代电子技术,2017,40(15):163-166. 被引量：1
3刘雪飞,苟全登.图书馆海量书目光学字符特征的分类技术[J].激光杂志,2017,38(9):154-158. 被引量：2
4赵振营.图书馆图书信息用户快速自动查阅仿真研究[J].计算机仿真,2017,34(9):432-434. 被引量：5
5李纲,马亚雪,巴志超.基于价值链的数据管理理论思考[J].信息资源管理学报,2018,8(1):9-18. 被引量：10
6冯璐.图书馆阅读需求资源利用率优化管理仿真[J].计算机仿真,2018,35(3):271-274. 被引量：2
7付淇.社会化短文本及其技术研究[J].景德镇学院学报,2018,33(2):113-117.
8王冠,郭育.水中目标信息智能识别方法研究[J].数字海洋与水下攻防,2018,1(3):69-75. 被引量：1
9任君,王建华,王传美,王建祥.基于正则化LSTM模型的股票指数预测[J].计算机应用与软件,2018,35(4):44-48. 被引量：35
10张鹏程,贾旸旸.一种基于多层感知器的动态区域联合短时降水预报方法[J].计算机应用与软件,2018,35(11):153-158. 被引量：13

1张玉芳,张洪,熊忠阳,李文田.结合概率潜在语义分析的文本谱聚类方法研究[J].计算机工程与应用,2011,47(36):134-136.
2吴启明,阮忠.基于PLSA的个性化Web信息检索系统[J].软件导刊,2008,7(8):149-151.
3赵伟.基于并行计算的概率潜在语义分析算法研究[J].安徽职业技术学院学报,2014,13(3):1-3. 被引量：2
4Masaharu Kato,Tetsuo Kosaka,Akinori Ito,Shozo Makino.Fast and robust training of a probabilistic latent semantic analysis model by the parallel learning and data segmentation[J].通讯和计算机（中英文版）,2009,6(5):28-35.
5陈琳,卢湖川.基于ML-pLSA模型的目标识别算法[J].电子与信息学报,2011,33(12):2909-2915. 被引量：1
6蒋铭初,潘志松,尤峻.基于PLSA主题模型的多标记文本分类[J].数据采集与处理,2016,31(3):541-547. 被引量：5
7郭乐新,金泰松,李玲玲.基于融合SIFT特征和二次聚类视觉词典生成的场景分类方法[J].厦门大学学报（自然科学版）,2013,52(2):196-201. 被引量：2
8谭论正,夏利民,彭东亮.基于SURP模型的物品推荐[J].信息与控制,2014,43(1):37-42.
9谭论正,夏利民,黄金霞,夏胜平.基于pLSA模型的人体动作识别[J].国防科技大学学报,2013,35(5):102-108. 被引量：4
10胡正平,戎怡.基于EICS-LBP与统计边缘主色对的场景分类算法[J].系统工程与电子技术,2011,33(4):919-924.

中文信息学报

2015年第2期

浏览历史

内容加载中请稍等...

基于MapReduce的并行PLSA算法及在文本挖掘中的应用被引量：7

参考文献21

二级参考文献123

共引文献125

同被引文献75

引证文献7

二级引证文献55

相关作者

相关机构

相关主题

浏览历史

基于MapReduce的并行PLSA算法及在文本挖掘中的应用 被引量：7

参考文献21

二级参考文献123

共引文献125

同被引文献75

引证文献7

二级引证文献55

相关作者

相关机构

相关主题

浏览历史

基于MapReduce的并行PLSA算法及在文本挖掘中的应用被引量：7