利用并行GPU对分层分布式狄利克雷分布算法加速被引量：2

Accelerating hierarchical distributed latent Dirichlet allocation algorithm by parallel GPU

下载PDF

导出

摘要分层分布式狄利克雷分布(HD-LDA)算法是一个对潜在狄利克雷分布(LDA)进行改进的基于概率增长模型的文本分类算法,与只能在单机上运行的LDA算法相比,可以运行在分布式框架下,进行分布式并行处理。Mahout在Hadoop框架下实现了HD-LDA算法,但是因为单节点算法的计算量大,仍然存在对大数据分类运行时间太长的问题。而大规模文本集合分散到多个节点上迭代推导,单个节点上文档集合的推导仍是顺序进行的,所以处理大规模文本集合时仍然需要很长时间才能完成全部文本的分类。为此,提出将Hadoop与图形处理器(GPU)相结合,将单节点文本集合的推导过程转移到GPU上运行,实现单节点多个文档并行推导,利用多台并行的GPU对HD-LDA算法进行加速。应用结果表明,使用该方法能使分布式框架下的HD-LDA算法对大规模文本集合处理达到7倍的加速比。 Hierarchical Distributed Latent Dirichlet Allocation （HD-LDA）, a popular topic modeling technique for exploring collections, is an improved Latent Dirichlet Allocation （LDA） algorithm running in distributed environment. Mahout has realized HD-LDA algorithm in the framework of Hadoop. However the algorithm processed the whole documents of a single node in sequence, and the execution time of the HD-LDA program was very long when processing a large amount of documents. A new method was proposed to combine Hadoop with Graphic Processing Unit （GPU） to solve the above problem when transferring the computation from CPU to GPU. The application results show that combining the Hadoop with GPU which processes many documents in parallel can decrease the execution time of HD-LDA program greatly and achieve seven times speedup.

作者温腊芮建武何婷婷郭亮

机构地区中国科学院软件研究所基础软件国家工程研究中心中国科学院大学

出处《计算机应用》 CSCD 北大核心 2013年第12期3313-3316,3330,共5页 journal of Computer Applications

基金国家科技支撑计划项目(2011BAH14B02) 核高基重大专项(2012ZX01039-004) 中国科学院知识创新工程重要方向项目(KGCX2-YW-174) 新闻出版重大科技工程项目(GAPP-ZDKJ-ZK/23)

关键词分层分布式狄利克雷分布潜在狄利克雷分布文本分类分布式框架并行图形处理器 Hierarchical Distributed Latent Dirichlet Allocation （HD-LDA） Latent Dirichlet Allocation （LDA） textclassification distributed environment parallel Graphic Processing Unit （GPU）

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献12

1BLEI D M, NG A Y, JORDAN M I. Latent Dirichlet allocation [ J]. Journal of Machine Learning Research, 2003, 3(4/5) : 993 - 1022.
2NEWMAN D, ASUNCION A, SMYT1A P, st al. Distributed infer- ence for latent Dirichlet allocation [ C]//NIPS 2007: Proceedings of the 2007 Twenty-First Annual Conference on Neural Information Pro- cessing System. IS. 1.]: NIPS, 2007:1081-1085.
3CHEN W-Y, CHU J-C, LUAN J, et al. Collaborative filtering for orkut communities: discovery of user latent behavior [C]// WWW '09: Proceedings of the 18th International Conference on World Wide Web. New York: ACM, 2009:68l -690.
4WANG Y., BA1 H J, STANTON M, et al. PLDA: Parallel Latent Dirichlet Allocation for large-scale applications [ C]// AAIM '09: Proceedings of the 5th International Conference on Algorithmic As- pects in Information and Management. Berlin: Springer-Verlag, 2009:301-314.
5MASADA T, HAMADA T, SHIBATA Y, et al. Accelerating col- lapsed variational Bayesian inference for latent Dirichlet allocation with Nvidia CUDA cnmpatible devices [ C]// IEA/AIE '09: Pro- ceedings of the 22nd International Conterence on Industrial, Engi- neering and Other Applications of Applied Intelligent Systems: Next- Generation Applied Intelligence, LNCS 5579. Berlin: Springer-Ver- lag, 2009:491-500.
6YAN F, XU N, QI Y. Parallel inference for latent Dirichlet alloca- tion on graphics processing units [ C]// NIPS 2009: Proceedings of the 2009 22nd Annual Conference on Neural Information Processing System. [S.I. ]: NIPS, 2009:2134 -2142.
7LU M, BAI G, LUO Q, et al. Accelerating topic model training on a single machine [ C]// APWeb'13: Proceedings of the 2013 Fif- teenth International Asia-Pacific Web Conference, LNCS 7808. Berlin: Springer-Verlag, 2013:184-195.
8JIANG Y J, WEN H L, GAO Z C. A method of accelerating LDA program with GPU [ C] // ICNDC 2012: Proeeedings of the 2012 Third International Conference on Networking and Distributed Com- puting. Washington, DC: IEEE Computer Society, 2012:26-29.
9姚全珠,宋志理,彭程.基于LDA模型的文本分类研究[J].计算机工程与应用,2011,47(13):150-153. 被引量：56
10董元元,陈基漓,唐小侠.基于潜在狄利克雷分配模型和互信息的无监督特征选取法[J].计算机应用,2012,32(8):2250-2252. 被引量：3

二级参考文献21

1苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：386
2伍建军,康耀红.文本分类中特征降维方式的研究[J].海南大学学报（自然科学版）,2007,25(1):62-66. 被引量：4
3Deerwester S,Dumais S T A.lndexing by latent semantic analysis[J] Journal of the Society for Information Science,1990,41(6).
4Blei D,Ng A,Jordan M.Latent dirichlet allocation[J].Journal of Machine Learning Research,2003,3(4/5).
5Griffiths T L,Steyvers M.Finding scientific topics[J].PNAS,2004,101(1).
6Chang Chih-Chung,Lin Chih-Jen.LIBSVM:A library for support vector machine[EB/OL].(2001).http://www.csie.ntu.edu.tw/～cjlin/libsvm.
7SALTON G，WONG A, YANG C S. A vector space model for automatic indexing[J].Communications of ACM，1975，18(11)：613-620.
8DASGUPTA A,DRINEAS P,HARB B,et al.Feature selection methods for text classification[C] // KDD '07:Proceedings of the 13th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York:ACM,2007:230-239.
9BAKUS J, KAMEL M S. Higher order feature selection for text classification[J].Knowledge and Information Systems, 2006, 9(4): 468-491.
10LIU HUAWEN, SUN JIGUI, LIU LEI, et al. Feature selection with dynamic mutual information[J].Pattern Recognition,2009,42(7):1330-1339.

共引文献57

1孟旭,谢靖,李春旺.基于核心主题特征的作者身份识别研究[J].知识管理论坛,2023(5):351-364.
2贺喜,蒋建春,丁丽萍,王永吉,廖晓峰.基于LDA模型的主机异常检测方法[J].计算机应用与软件,2012,29(8):1-4. 被引量：5
3李冬睿,李梅.基于潜在狄利克雷分配的图像多层视觉表示方法[J].计算机应用,2013,33(8):2310-2312.
4吴晓萍,赵学靖,乔辉,刘东梅,王志.基于LASSO-SVM的软件缺陷预测模型研究[J].计算机应用研究,2013,30(9):2748-2751. 被引量：16
5王振振,何明,杜永萍.基于LDA主题模型的文本相似度计算[J].计算机科学,2013,40(12):229-232. 被引量：97
6邵洲,张晖.基于完全稀疏主题模型的多文档自动摘要[J].计算机工程与设计,2014,35(3):1032-1036. 被引量：1
7李湘东,廖香鹏,黄莉.LDA模型下书目信息分类系统的研究与实现[J].现代图书情报技术,2014(5):18-25. 被引量：12
8谈成访,汪材印.基于LDA模型的新闻话题分类研究[J].电脑知识与技术,2014(6):3795-3797. 被引量：1
9孙梅,王超.大容量内存系统的管理[J].电脑知识与技术,2014(6):3821-3823.
10张永军,刘金岭,马甲林.中文短信文本信息流中多话题的分类抽取[J].现代图书情报技术,2014(7):101-106. 被引量：2

同被引文献7

1赵毅,朱鹏,迟学斌,牛铁,曹宗雁.浅析高性能计算应用的需求与发展[J].计算机研究与发展,2007,44(10):1640-1646. 被引量：30
2余楚礼,肖迎元,尹波.一种基于Hadoop的并行关联规则算法[J].天津理工大学学报,2011,27(1):25-28. 被引量：13
3卢风顺,宋君强,银福康,张理论.CPU/GPU协同并行计算研究综述[J].计算机科学,2011,38(3):5-9. 被引量：95
4张圣.一种基于云计算的关联规则Apriori算法[J].通信技术,2011,44(6):141-143. 被引量：25
5陈光鹏,杨育彬,高阳,商琳.一种基于MapReduce的频繁闭项集挖掘算法[J].模式识别与人工智能,2012,25(2):220-224. 被引量：18
6葛澎.分布式计算技术概述[J].微电子学与计算机,2012,29(5):201-204. 被引量：14
7杨泽民.数据挖掘中关联规则算法的研究[J].软件,2013,34(11):71-72. 被引量：29

引证文献2

1邹小波,詹敏.基于Spark的并行化主题模型算法研究[J].电脑知识与技术（过刊）,2017,23(3X):17-18.
2瞿诗齐,刘少江,倪伟传,余庆茂.基于Hadoop平台的GPU集群加速Apriori算法[J].计算机工程,2018,44(11):14-18. 被引量：4

二级引证文献4

1李文航,余恒奇.基于Hadoop平台的数据分析和应用[J].微型电脑应用,2019,35(11):134-136. 被引量：1
2吕立新,杨帆.基于Apriori算法与MapReduce优化模型的并行式数据聚类方法[J].九江学院学报（自然科学版）,2022,37(4):65-67. 被引量：4
3周燕,肖莉.基于改进关联聚类算法的网络异常数据挖掘[J].计算机工程与设计,2023,44(1):108-115. 被引量：12
4吴春旭,贾银山,于红绯.一种Apriori算法的高效实现方法及其应用[J].辽宁石油化工大学学报,2023,43(2):78-85.

1黄浩军,王胜清.一种基于维基百科的文本表示方法[J].计算机工程与应用,2015,51(14):127-130. 被引量：1
2吕超镇,姬东鸿,吴飞飞.基于LDA特征扩展的短文本分类[J].计算机工程与应用,2015,51(4):123-127. 被引量：49
3李改,李磊.基于双向主题模型的协同过滤算法[J].中山大学学报（自然科学版）,2013,52(5):68-72. 被引量：2
4王春龙,张敬旭.基于LDA的改进K-means算法在文本聚类中的应用[J].计算机应用,2014,34(1):249-254. 被引量：21
5李晓毅,徐兆棣,孙笑微.贝叶斯网络的参数学习研究[J].沈阳农业大学学报,2007,38(1):125-128. 被引量：20
6陈广福,蔡国永,林航,王瑞丽,刘国宾.多Agent系统中基于狄利克雷分布的信任模型[J].计算机工程,2011,37(14):128-130. 被引量：1
7赵爱华,刘培玉,郑燕.基于LDA的新闻话题子话题划分方法[J].小型微型计算机系统,2013,34(4):732-737. 被引量：18
8温光玉,唐雁,吴梦蝶,黄智兴.基于图像上下文语义信息的场景分类方法[J].四川大学学报（自然科学版）,2013,50(6):1223-1229. 被引量：3
9葛琳,季新生,卫红权,江涛.基于LDA模型的在线网络信息内容安全事件分类[J].四川大学学报（工程科学版）,2014,46(3):70-79. 被引量：4
10唐黎哲,冯大为,李东升,李荣春,刘锋.以LDA为例的大规模分布式机器学习系统分析[J].计算机应用,2017,37(3):628-634. 被引量：5

计算机应用

2013年第12期

浏览历史

内容加载中请稍等...

利用并行GPU对分层分布式狄利克雷分布算法加速被引量：2

参考文献12

二级参考文献21

共引文献57

同被引文献7

引证文献2

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

利用并行GPU对分层分布式狄利克雷分布算法加速 被引量：2

参考文献12

二级参考文献21

共引文献57

同被引文献7

引证文献2

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

利用并行GPU对分层分布式狄利克雷分布算法加速被引量：2