基于Hadoop平台的海量文本分类的并行化被引量：35

Parallel Text Categorization of Massive Text Based on Hadoop

下载PDF

导出

摘要文本分类是信息检索与数据挖掘的研究热点与核心技术,近年来得到了广泛的关注和快速的发展。近来年随着文本数据呈指数增长,要有效地管理这些数据,就必须在分布式环境下用有效的算法来处理这些数据。在Ha-doop分布式平台下实现了一简单有效的文本分类算法——TFIDF分类算法,即一种基于向量空间模型的分类算法,它用余弦相似度得到分类结果。在两个数据集上做了实验,结果表明,这一并行化算法在大数据集上很有效并可以在实际领域中得到良好的应用。 In recent years,there have been extensive studies and rapid progresses in automatic text categorization,which is one of the hotspots and key techniques in the information retrieval and data mining field.In recent years,as the text data grows exponentially,to effectively manage the large storage of data,we must use efficient algorithm to process it in the distributed environment.In this paper,we implemented a simple and effective text categorization algorithm on hadoop——TFIDF classifier,an algorithm based on vector space model,cosine similarity was applied as the metrics.The experiments on two datasets show that the parallel algorithm is effective on large storage of data and can be applied in practical application field.

作者向小军高阳商琳杨育彬

机构地区南京大学计算机科学与技术系

出处《计算机科学》 CSCD 北大核心 2011年第10期184-188,共5页 Computer Science

基金国家自然科学基金项目(61035003 60875011) 科技部国际科技合作计划项目(2010DFA11030) 江苏省自然科学基金项目(BK2010054)资助

关键词文本分类并行化海量数据 HADOOP Text categorization Parallelization Massive data Hadoop

分类号 N532 [自然科学总论]

引文网络
相关文献

参考文献23

1Sebastiani F. Text Categorization[Z]. Encyclopedia of Database Technologies and Applications. 2005..683-687.
2Joachims T. A Probabilistic Analysis of the Rocchio Algorithm with TF1DF for Text Categorization[C]//Proceedings of the Fourteenth International Conference on Machine Learning. Morgan Kaufmann Publishers Inc. San Francisco, CA, USA, 1997.
3Yang Y. An Evaluation of Statistical Approaches to Text Categorization[J]. Journal of Information Retrieval, 1999, 1 (1/2) :67-88.
4Rocchio J J Jr. Relevance Feedback in Information Retrieval [M]. Salton G, ed. The SMART Retrieval System: Experiments in Automatic Document Processing. Prentice-Hall, Inc. , Englewood Cliffs, New Jersey, 1971 : 313-323.
5Tzeras K, Hartmann S. Automatic Indexing Based on Bayesian Inference Networks[C]//Proc. 16th ACM Int. SIGIR Conference. 1993: 22-34.
6Masand B, Lino G, Waltz D. Classifying News Stories Using Memory Based Reasoning[C]//15th ACM SIGIR Conference. 1992:59-65.
7Apte C, Damerau F, Weiss S. Automated Learning of Decision Rules for Text Categorization[J]. ACM Trans. on Information Systems, 1994,12(3) : 233-251.
8Joachims T. Text Categorization with Support Vector Machines:Learning with Many Relevant Features [C]//Proc. 10th European Conference on Machine Learning (ECML). 1998:137-142.
9Salton G, Buckley C. Term Weighting Approaches in Automatic Text Retrieval [J]. Information Processing and Management, 1988,24(5) :513-523.
10Kruengkrai C, Jaruskulchai C. A Parallel Leaming Algorithm for Text Classification[C]//Proceedings of the eighth ACM SIGKDD international conference on Knowledge discovery and data mining. 2002:201-206.

二级参考文献12

1魏红宁.基于SPRINT方法的并行决策树分类研究[J].计算机应用,2005,25(1):39-41. 被引量：18
2Michael Miller姜进磊,孙瑞志,向勇等译.云计算[M].北京:机械出版社.2009.
3Jeffrey Dean, Sanjay Ghemawat. MapReduce: Symplified Date Processing on Large Clusters[J]. New York:ACM,2008, 51(1):107-113.
4韩家炜,坎伯.数据挖掘概念与技术[M].北京:机械工业出版社.2008.
5John Shafer, Rakesh Agrawal,Manish Mehta. SPRINT:A Scalable Parallel Classifier for Data Mining [C].U.S:IBM Almaden Research Center,1996:544-555.
6于蕾,刘大有,高滢,田野.改进SPRINT算法及其在分布式环境下的研究[J].吉林大学学报（理学版）,2008,46(6):1119-1124. 被引量：5
7曹素青,曾伏虎,曹焕光.一个中文文本自动分类数学模型[J].情报学报,1999,18(1):27-32. 被引量：18
8朱华宇,孙正兴,张福炎.一个基于向量空间模型的中文文本自动分类系统[J].计算机工程,2001,27(2):15-17. 被引量：45
9苏伟峰,李绍滋,李堂秋.一个基于概念的中文文本分类模型[J].计算机工程与应用,2002,38(6):193-195. 被引量：17
10解冲锋,李星.基于序列的文本自动分类算法[J].软件学报,2002,13(4):783-789. 被引量：35

共引文献61

1王新福.基于数据分析技术的人才成长规律研究[J].产业科技创新,2019(1):80-81.
2常娟.针对短文本数据的自动分类方法比较研究[J].消费导刊,2008,0(4):177-178.
3石淼磊,苏璞睿,冯登国.Web浏览器历史数据自动分类取证系统[J].计算机应用,2006,26(10):2427-2429. 被引量：3
4李荣艳,金鑫,王春辉,郑宁,别荣芳.一种新的中文文本分类算法[J].北京师范大学学报（自然科学版）,2006,42(5):501-505. 被引量：6
5孟杰,耿正,严莉莉,张燕平.覆盖算法在文本分类中的应用[J].计算机技术与发展,2007,17(7):183-185. 被引量：1
6汪前进,施珺.文档相似度量算法的研究与应用[J].淮海工学院学报（自然科学版）,2007,16(3):28-31. 被引量：2
7李国慧.Web数据挖掘研究[J].电脑知识与技术,2008(2):592-594. 被引量：2
8冀胜利,李波.基于SVM的中文文本分类算法[J].重庆工学院学报（自然科学版）,2008,22(7):84-87. 被引量：5
9陈建丽.基于XML的Web文本数据挖掘模型构建[J].电脑与电信,2008(9):63-64.
10吴春颖,王士同.一种改进的KNN Web文本分类方法[J].计算机应用研究,2008,25(11):3275-3277. 被引量：9

同被引文献324

1崔杰,李陶深,兰红星.基于Hadoop的海量数据存储平台设计与开发[J].计算机研究与发展,2012,49(S1):12-18. 被引量：141
2张石磊,武装.一种基于Hadoop云计算平台的聚类算法优化的研究[J].计算机科学,2012,39(S2):115-118. 被引量：29
3郭朝鹏,王智,韩峰,张一川,宋杰.HaoLap:基于Hadoop的海量数据OLAP系统[J].计算机研究与发展,2013,50(S1):378-383. 被引量：5
4柴彦威,郭文伯.中国城市社区管理与服务的智慧化路径[J].地理科学进展,2015,34(4):466-472. 被引量：81
5李善平,尹奇韡,胡玉杰,郭鸣,付相君.本体论研究综述[J].计算机研究与发展,2004,41(7):1041-1052. 被引量：273
6张宁,贾自艳,史忠植.使用KNN算法的文本分类[J].计算机工程,2005,31(8):171-172. 被引量：96
7张治木,蔡寅峰.基于TIN和格网的DEM表面建模的比较[J].铜业工程,2005(2):8-10. 被引量：9
8曹卫星,朱艳,田永超,姚霞,刘小军.数字农作技术研究的若干进展与发展方向[J].中国农业科学,2006,39(2):281-288. 被引量：55
9刘务华,罗铁坚,王文杰.文本聚类算法的质量评价[J].中国科学院研究生院学报,2006,23(5):640-646. 被引量：7
10崔小燕.Linux集群系统分析[J].西安邮电学院学报,2006,11(5):103-106. 被引量：13

引证文献35

1李艳平,徐雅斌,陈俊伊.搜索服务中基于云计算的垃圾网页识别研究[J].华中科技大学学报（自然科学版）,2012,40(S1):249-253.
2张广弟,汪秀兵,胡亚磊.基于hadoop的DEM格网建立研究[J].科技视界,2012(28):95-95. 被引量：1
3王博,陈莉君.Hadoop远程过程调用机制的分析和应用[J].西安邮电学院学报,2012,17(6):74-77. 被引量：10
4赵伟燕,王静宇.基于MapReduce编程模型的TFIDF算法研究[J].微型机与应用,2013,32(4):71-73.
5赵青松,陈林,孙波,朱艳,姜海燕.基于Hadoop的云环境下作物生长模型算法的实现与测试[J].农业工程学报,2013,29(8):179-186. 被引量：11
6陈湘涛,张超,韩茜.基于Hadoop的并行共享决策树挖掘算法研究[J].计算机科学,2013,40(11):215-221. 被引量：6
7田祎,刘爱军,李巍.基于本体的Deep Web查询接口语义扩展[J].荆楚理工学院学报,2013,28(4):33-36.
8王静宇,赵伟燕.基于Hadoop平台的TFIDF算法并行化研究[J].计算机工程与科学,2014,36(6):1018-1022. 被引量：2
9余传明,原赛,王峰,安璐.大数据环境下文本情感分析算法的规模适配研究:以Twitter为数据源[J].图书情报工作,2019,63(4):101-111. 被引量：13
10王彦明.近年来Hadoop国内研究进展[J].现代情报,2014,34(8):14-19. 被引量：2

二级引证文献131

1苏韦,李景文,刘华尧,张海英,欧阳云.基于MapReduce的时空数据模型设计方法[J].测绘与空间地理信息,2013,36(7):41-44. 被引量：4
2孙韩林.一种基于云计算的网络流量分析系统结构[J].西安邮电大学学报,2013,18(4):75-79. 被引量：7
3陈联诚,胡月明,张飞扬,段文杰,余平祥.农产品安全追溯系统的云计算技术性能提升设计[J].农业工程学报,2013,29(24):268-274. 被引量：19
4黄取治.动态云模型大规模数据挖掘算法[J].长春工业大学学报,2014,35(3):305-308. 被引量：2
5杨晓雁,甘琳梅.基于Hadoop的NoSQL非关系型数据库安全研究[J].微型电脑应用,2018,34(12):43-45. 被引量：1
6余攀,邹承俊.基于物联网技术的成都地区智能温室云服务平台设计[J].农业网络信息,2014(7):49-53. 被引量：5
7李帆,何洪林,任小丽,张黎,路倩倩,于贵瑞.基于MapReduce的空间敏感性分析并行算法设计[J].地球信息科学学报,2014,16(6):874-881. 被引量：5
8赵文硕,谢萍,王颖,李彦,廖一鸣.基于并行共享挖掘算法的电力负荷预测[J].计算机与数字工程,2015,43(2):178-182. 被引量：1
9马依努尔.麦麦提依明.大数据及其在桥梁工程中应用的探析[J].江西建材,2015(10):162-162. 被引量：2
10凌文婧,郑丽敏.基于Hadoop的食品安全预警系统架构[J].食品安全导刊,2015(6):64-66. 被引量：1

1余永红,向小军,商琳.并行化的情感分类算法的研究[J].计算机科学,2013,40(6):206-210. 被引量：4
2赵俊杰,谢飞.基于段落相似度的论文抄袭判定[J].电脑与电信,2008(8):22-23. 被引量：2
3王辉,张成锁,卓呈祥.一种改进的相对熵特征选择方法[J].计算机工程,2011,37(10):167-169. 被引量：1
4赵玉鹏.论机器学习[J].安阳工学院学报,2011,10(4):34-36.
5康立山,陈毓屏.极度并行算法发展动态[J].自然杂志,1992,15(12):899-905.
6陈辉.文本分类技术及其在网络信息服务中的应用[J].中国科技信息,2004(19):32-33.
7赖苏,熊忠阳,江帆,唐蓉君.利用改进的多项式核函数支持向量机进行文本分类[J].重庆大学学报（自然科学版）,2012,35(S1):41-45. 被引量：2
8新术语[J].百科知识,2010(4):37-37.
9孙家昶.并行化:大型科学工程计算的重要趋势[J].自然杂志,1992,15(8):569-573. 被引量：2
10周风杰,宝胜.人与自然关系中几个焦点问题的评析[J].渤海大学学报（哲学社会科学版）,2004,26(4):1-4. 被引量：1

计算机科学

2011年第10期

浏览历史

内容加载中请稍等...

基于Hadoop平台的海量文本分类的并行化被引量：35

参考文献23

二级参考文献12

共引文献61

同被引文献324

引证文献35

二级引证文献131

相关作者

相关机构

相关主题

浏览历史

基于Hadoop平台的海量文本分类的并行化 被引量：35

参考文献23

二级参考文献12

共引文献61

同被引文献324

引证文献35

二级引证文献131

相关作者

相关机构

相关主题

浏览历史

基于Hadoop平台的海量文本分类的并行化被引量：35