基于并行计算的文本分类技术被引量：4

Text classification based on parallel computing

下载PDF

导出

摘要针对传统文本分类方法对于海量数据分类速度慢精度差等问题,将并行计算应用到文本分类领域,设计了一套基于MapReduce的并行化文本分类框架,结合Bagging算法思想提出了支持向量机的并行训练方法,并在Hadoop云计算平台上进行了实验,实验结果表明该分类方法具有较快的分类速度和较高的分类精度。 In order to improve the performance of traditional text classification technique for massive data, this paper applied parallel computing to the field of text classification, designed a parallel text classification framework based on MapReduce, proposed a parallel Support Vector Machine （SVM） training method combining with Bagging algorithm and conducted experiments on Hadoop. The experiment results show that the proposed method is superior to other classification methods in terms of classification accuracy and classification speed.

作者赵喆向阳王继生

机构地区同济大学电子与信息工程学院神华集团有限责任公司

出处《计算机应用》 CSCD 北大核心 2013年第A02期60-62,66,共4页 journal of Computer Applications

基金国家自然科学基金资助项目(71171148) 国家863计划项目(2012AA062206) 国家科技支撑计划项目(2012BAD35B01) 上海市科技创新计划项目(11DZ1501703)

关键词文本分类并行计算支持向量机 MAPREDUCE text classification parallel computing Support Vector Machine （SVM） MapReduce

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献12

1DEAN J, GHEMAWAT S. MapReduce: simplified data processingon large clusters [ C] // Proceedings of the 6th Symposium on Oper-ating Systems Design and Implementation. San Francisco, CA,USA: USENIX Association, 2004: 137-149.
2张东礼,汪东升,郑纬民.基于VSM的中文文本分类系统的设计与实现[J].清华大学学报（自然科学版）,2003,43(9):1288-1291. 被引量：16
3YANG Y,PEDERSEN J 0. A comparative study on feature selec-tion in text categorization [ C]// Proceedings of the Fourteenth Inter-national Conference on Machine Learning. San Francisco: MorganKaufmann, 1997: 412 -420.
4FORMAN G. An extensive empirical study of feature selection met-rics for text classification[ J]. Machine Learning Research, 2003,3(1):1289 -1305.
5CORTES C,VAPNIK V. Support-vector networks [ J]. MachineLearning, 1995, 20(3):273 -297.
6VAPNIK V. The nature of the statistical learning theory [ M]. NewYork; Springer, 1999.
7黄陳.支持向量机核函数的研究[D].苏州:苏州大学,2008.
8OSUNA E,FREUND R,GIROSI F. Training support vector ma-chines: an application to face detection [ C] // Proceedings of the1997 IEEE Computer Society Conference on Computer Vision andPattern Recognition. Washington, DC: IEEE Computer Society,1997: 130-136.
9SCHOLKOPF B, BURGES C,SMOLA A J. Advances in kernelmethods - support vector learning [ M]. Cambridge: MIT Press,1999:185 -208.
10LI H G, WU G Q. K-means clustering with bagging and MapReducef CJ// Proceedings of the 2011 44th Hawaii International Conferenceon System Sciences. Washington, DC: IEEE Computer Society,2011: 1 -8.

二级参考文献8

1YANG Yiming, LIU Xin, A re-examination of text categorization methods [EB/OL]. http: //citeseer. nj. nec.com/yang99reexamination. html, 1999.
2Cohen W W, Singer Y. Context-sensitive learning methods for text categorization [EB/OL], http: //citeseer. nj. nec.com/cohen96contextsensitive, html, 1996.
3David D. Lewis, Training algorithms for linear text classifier[EB/OL]. http: //citeseer. nj. nec. com/lewis96training.html, 1996,.
4Salton G, Wang A, Yang C S. A vector space model for automatic indexing [J]. Communication of ACM, 1975,18(11): 613 - 620 .
5Salton G, Buekley C. Term weighting approaches in automatic text retrieval [J]. Information Processing and Management, 1988, 24(5): 513-523.
6鲁松,李晓黎,白硕,王实.文档中词语权重计算方法的改进[J].中文信息学报,2000,14(6):8-13. 被引量：120
7庞剑锋,卜东波,白硕.基于向量空间模型的文本自动分类系统的研究与实现[J].计算机应用研究,2001,18(9):23-26. 被引量：293
8李勇,桑艳艳.网络文本数据分类技术与实现算法[J].情报学报,2002,21(1):21-26. 被引量：29

共引文献17

1李小红,许少华.基于模糊向量和BP网络的Web文本自动分类方法[J].福建电脑,2006,22(2):94-95. 被引量：2
2张春元,康耀红,伍小芹.Web新闻自动采集发布系统的设计与实现[J].计算机技术与发展,2009,19(9):250-252. 被引量：7
3陈晶.基于lattice的语音文档分类[J].大众科技,2010,12(1):55-56. 被引量：1
4奉国和.文本分类性能评价研究[J].情报杂志,2011,30(8):66-70. 被引量：38
5罗兴军,白晓波.基于事件驱动模型的搜索引擎设计[J].电脑知识与技术,2011,7(10):6866-6868.
6刘勇,王志亮,黄玉龙.GPU平台上大规模文本分类的研究[J].计算机工程与应用,2012,48(8):141-143. 被引量：2
7廖开际,杨彬彬.基于加权语义网的文本相似度计算的研究[J].情报杂志,2012,31(7):182-186. 被引量：10
8何莹.空间数据索引方法研究[J].建材与装饰（下旬）,2012(9):135-136.
9郑瑞娟,张仰森.基于概念的Web文本分类方法及实现[J].北京信息科技大学学报（自然科学版）,2013,28(2):77-81.
10吴斌,施燕,朱娅加.精准推送在“虚拟公司”团队组织形式教学法项目库中的应用与研究[J].科技广场,2014(4):41-46.

同被引文献39

1庄东,陈英.基于加权近似支持向量机的文本分类[J].清华大学学报（自然科学版）,2005,45(S1):1787-1790. 被引量：16
2孙晋文,肖建国.基于SVM的中文文本分类反馈学习技术的研究[J].控制与决策,2004,19(8):927-930. 被引量：16
3朱远平,戴汝为.基于SVM决策树的文本分类器[J].模式识别与人工智能,2005,18(4):412-416. 被引量：24
4Dean J,Ghemawat S.MapReduce:simplified data processing on large clusters[J].Communications of the ACM,2008,51(1):107-113.
5Sebastiani F.Machine learning in automated text categorization[J].ACM Computing Surveys,2002,34(1):1-47.
6Wang Jinlin,Chen Xi,Zhou Kefa,et al.Parallel research of sequential pattern data mining algorithm[C] //Proc of International Conference on Computer Science and Software Engineering.[S.l.] :IEEE Press,2008:348-353.
7Kruengkrai C,Jaruskulchai C.A parallel learning algorithm for text classification[C] //Proc of the 8th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.[S.l.] :ACM Press,2002:201-206.
8Gil-Garcí A R,Badía-Contelles J M,Pons-Porrata A.Parallel nearest neighbour algorithms for text categorization[M] //Euro-Par Parallel Processing.Berlin:Springer,2007:328-337.
9White T.Hadoop:the definitive guide[M].[S.l.] :OReilly Media Inc,2009.
10McCallum A,Nigam K.A comparison of event models for naive Bayes text classification[C] //Proc of AAAI/ ICML Workshop on Learning for Text Categorization.1998:41-48.

引证文献4

1何敏,武德安,吴磊.基于MapReduce的平均多项朴素贝叶斯文本分类[J].计算机应用研究,2016,33(1):115-117. 被引量：5
2张杰,陈怀新.基于归一化词频贝叶斯模型的文本分类方法[J].计算机工程与设计,2016,37(3):799-802. 被引量：10
3黄永毅,龚垒.基于主动学习的交互式支持向量机文本分类学习方法[J].电子技术与软件工程,2016(14):168-168. 被引量：2
4鲍琪琪,孙超仁.一种应用于智能分诊的改进朴素贝叶斯方法[J].现代医院,2024,24(3):424-427. 被引量：1

二级引证文献18

1周建,高晓东.基于特征权重的词条匹配系统研究与实现[J].南通大学学报（自然科学版）,2017,16(3):15-19.
2龚静,黄欣阳.基于k最近邻和改进TF-IDF的文本分类框架[J].计算机工程与设计,2018,39(5):1340-1344. 被引量：10
3周云成,许童羽,邓寒冰.基于NB和CHI值的农业文本分类方法[J].江苏农业科学,2018,46(17):219-223. 被引量：4
4文武,李培强.基于K中心点和粗糙集的KNN分类算法[J].计算机工程与设计,2018,39(11):3389-3394. 被引量：8
5田桂,谢凯.LSTM-RBM-NMS模型下的视频人脸检测方法研究[J].电脑知识与技术,2019,15(2):176-177. 被引量：1
6刘康炜,万剑华,靳熙芳.基于故障树的事故分类方法[J].计算机系统应用,2019,28(6):130-134.
7李川,张少茹.基于用户特定特征及内容的景点推荐模型研究[J].计算机与数字工程,2019,47(10):2492-2495. 被引量：2
8张燕.基于朴素贝叶斯的英语成绩预测模型构建研究[J].自动化技术与应用,2019,38(10):67-69. 被引量：5
9谢卫红,杨超波,朱郁筱,李忠顺,蒋瞰阳.网络舆情监控算法研究与分析[J].科技管理研究,2019,39(22):197-205. 被引量：8
10孙梦楠,刘少华,刘京城.顾及空间各向异性的IDW插值算法[J].计算机工程与设计,2020,41(4):983-987. 被引量：5

1孙成刚,李峥,唐冬冬,李翔,滕红.基于GPU的高性能并行计算应用[J].电子信息对抗技术,2012,27(2):69-73. 被引量：8
2金弟,薛中州,杨俊.面向地震资料处理的集群系统设计与实现[J].计算机系统应用,2010,19(5):19-23. 被引量：1
3夏胜平,刘建军,袁振涛,虞华,张乐锋,郁文贤.基于集群的集中调度式RSOM并行训练方法[J].系统工程与电子技术,2007,29(3):459-463.
4邹永强,王尔玉.DNN并行计算框架[J].程序员,2013(6):37-39.
5胡浩民,马德云.基于层次遗传算法的RBF神经网络并行训练方法研究[J].福建电脑,2005,21(4):5-6. 被引量：1
6王正群,陈世福,陈兆乾.并行学习神经网络集成方法[J].计算机学报,2005,28(3):402-408. 被引量：36
7刘泽燊,潘志松.基于Spark的并行SVM算法研究[J].计算机科学,2016,43(5):238-242. 被引量：17
8郝晓云,范玉妹.Linux机群并行应用监控系统[J].计算机时代,2002(12):16-18.
9郝晓云,范玉妹,谷海峰,郭潞.Linux机群并行应用监控系统[J].计算机工程与设计,2003,24(7):59-62. 被引量：4
10窦文,贾焰,王怀民,邹鹏.基于对端重叠网络的通用大规模计算资源共享环境的构造[J].计算机学报,2004,27(1):21-31. 被引量：21

计算机应用

2013年第A02期

浏览历史

内容加载中请稍等...

基于并行计算的文本分类技术被引量：4

参考文献12

二级参考文献8

共引文献17

同被引文献39

引证文献4

二级引证文献18

相关作者

相关机构

相关主题

浏览历史

基于并行计算的文本分类技术 被引量：4

参考文献12

二级参考文献8

共引文献17

同被引文献39

引证文献4

二级引证文献18

相关作者

相关机构

相关主题

浏览历史

基于并行计算的文本分类技术被引量：4