Spark平台下的高效Web文本分类系统的研究被引量：7

RESEARCH ON EFFICIENT WEB TEXT CLASSIFICATION SYSTEM BASED ON SPARK

下载PDF

导出

摘要针对KNN分类算法在面对海量Web文本处理情况时在单机上训练和测试效率低下的问题,提出基于Hadoop分布式平台以及Spark并行计算模型的无中间结果输出的改进型Web文本分类系统。同时为了充分利用Spark的迭代计算能力,在文本向量化阶段,在传统TFIDF文本特征加权算法的基础上充分考虑特征项在类内和类间的信息分布,提出一种改进的特征加权算法。实验结果表明,该文本分类系统结合Spark计算模型在提高文本预处理、文本向量化以及KNN文本分类算法的性能上有着优异的表现。 In order to solve the problem of low efficiency of KNN classification algorithm in training and test on a single computer when facing the situation of processing massive Web texts,we proposed an improved Web text classification system without intermediate result output,which is based on Hadoop distributed platform and Spark parallel computing model. Meanwhile,in order to take full advantage of the computing power of Spark in iterative computation,at the stage of text vectorisation and on the basis of the traditional text feature weighting algorithm of TFIDF,we made the full consideration on the information distribution of the feature items within class and between class and proposed an improved feature weighting algorithm. Experimental results showed that this Web text classification system,in combination with Spark computing model,has excellent performance in improving text preprocessing,text vectorisation and the performance of KNN text classification algorithm.

作者李涛刘斌

机构地区南京工业大学计算机科学与技术学院

出处《计算机应用与软件》 CSCD 2016年第11期33-36,共4页 Computer Applications and Software

关键词 KNN TFIDF 文本分类 HADOOP SPARK KNN TFIDF Text classification Hadoop Spark

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献10

1张玉芳,彭时名,吕佳.基于文本分类TFIDF方法的改进与应用[J].计算机工程,2006,32(19):76-78. 被引量：120
2程克非,张聪.基于特征加权的朴素贝叶斯分类器[J].计算机仿真,2006,23(10):92-94. 被引量：40
3丁振国,黎靖,张卓.一种改进的基于神经网络的文本分类算法[J].计算机应用研究,2008,25(6):1639-1641. 被引量：4
4李学明,李海瑞,薛亮,何光军.基于信息增益与信息熵的TFIDF算法[J].计算机工程,2012,38(8):37-40. 被引量：48
5彭凯,汪伟,杨煜普.基于余弦距离度量学习的伪K近邻文本分类算法[J].计算机工程与设计,2013,34(6):2200-2203. 被引量：19
6刘文军,郑国义,张小琼.基于粗糙集与统计学习理论的样本分类算法[J].模糊系统与数学,2015,29(1):183-190. 被引量：2
7王煜,王正欧.基于模糊决策树的文本分类规则抽取[J].计算机应用,2005,25(7):1634-1637. 被引量：13
8李蓉,叶世伟,史忠植.SVM-KNN分类器——一种提高SVM分类精度的新方法[J].电子学报,2002,30(5):745-748. 被引量：133
9李荣陆,胡运发.基于密度的kNN文本分类器训练样本裁剪方法[J].计算机研究与发展,2004,41(4):539-545. 被引量：98
10李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：95

二级参考文献95

1郭昭辉,刘绍翰,武港山.基于神经网络的中文文本分类中的特征选择技术[J].计算机应用研究,2006,23(7):161-164. 被引量：8
2刘文军,谷云东,李洪兴.基于相似度的样本分类算法(英文)[J].模糊系统与数学,2006,20(5):112-116. 被引量：1
3张海龙,王莲芝.自动文本分类特征选择方法研究[J].计算机工程与设计,2006,27(20):3840-3841. 被引量：45
4刘文军,谷云东,李洪兴.基于加权综合的分类算法(英文)[J].模糊系统与数学,2007,21(1):128-136. 被引量：2
5龚静,周经野.一种基于多重因子加权的文本特征项权值计算方法[J].计算技术与自动化,2007,26(1):81-83. 被引量：10
6[1]D D Lewis. Naive (Bayes) at forty: The independence assumption in information retrieval. In: The 10th European Conf on Machine Learning(ECML98), New York: Springer-Verlag, 1998. 4～15
7[2]Y Yang, X Lin. A re-examination of text categorization methods. In: The 22nd Annual Int'l ACM SIGIR Conf on Research and Development in Information Retrieval, New York: ACM Press, 1999
8[3]Y Yang, C G Chute. An example-based mapping method for text categorization and retrieval. ACM Trans on Information Systems, 1994, 12(3): 252～277
9[4]E Wiener. A neural network approach to topic spotting. The 4th Annual Symp on Document Analysis and Information Retrieval (SDAIR 95), Las Vegas, NV, 1995
10[5]R E Schapire, Y Singer. Improved boosting algorithms using confidence-rated predications. In: Proc of the 11th Annual Conf on Computational Learning Theory. Madison: ACM Press, 1998. 80～91

共引文献546

1杨捷,范美位,罗成臣,张思路.面向电力工单文本的服务失误识别[J].云南大学学报（自然科学版）,2020,42(S02):32-37. 被引量：1
2田栩冉,马笑笑,李玉海.我国文献资源保障体系论文主题识别与演化分析[J].知识管理论坛,2021(6):303-314.
3葛志,常青,江山,柯文俊,杜泽峰.典型软件的故障仿真和预测方法[J].计算机应用研究,2020,37(S01):230-234.
4万磊,佟鑫,盛明伟,秦洪德,唐松奇.Softmax分类器深度学习图像分类方法应用综述[J].导航与控制,2019,0(6):1-9. 被引量：55
5姚学恒,张萍,闫立伟,操诚.基于机器学习的企业秘密文档自动分类方法[J].产业与科技论坛,2020,19(7):44-45.
6李秀茹,王晓,李朋朋,李绪红,罗安.Word2vec和支持向量机的POI自动分类方法[J].测绘科学,2022,47(6):195-203. 被引量：4
7郑凌铭,舒胜文,陈彬,吴涵,黄建业,钱健.强台风环境下基于格点化和支持向量机的10 kV杆塔受损量预测方法[J].高电压技术,2020,46(1):42-51. 被引量：11
8赵向军,路梅.垃圾邮件过滤算法研究[J].徐州师范大学学报（自然科学版）,2006,24(4):52-55. 被引量：1
9王淑盛,徐正光,刘黄伟,王志良,史立峰.改进的K近邻方法在岩性识别中的应用[J].地球物理学进展,2004,19(2):478-480. 被引量：13
10施洁斌.基于支持向量机的文本自动分类试验研究[J].现代图书情报技术,2004(7):27-29.

同被引文献49

1张铭锋,李云春,李巍.垃圾邮件过滤的贝叶斯方法综述[J].计算机应用研究,2005,22(8):14-19. 被引量：23
2周炎涛,唐剑波,王家琴.基于信息熵的改进TFIDF特征选择算法[J].计算机工程与应用,2007,43(35):156-158. 被引量：28
3奉国和.文本分类性能评价研究[J].情报杂志,2011,30(8):66-70. 被引量：37
4陶永才,薛正元,石磊.基于MapReduce的贝叶斯垃圾邮件过滤机制[J].计算机应用,2011,31(9):2412-2416. 被引量：14
5杨润芝,马强,李德泉,郑波.内存转发模型在CIMISS数据收发系统中的应用[J].应用气象学报,2012,23(3):377-384. 被引量：21
6任永功,杨荣杰,尹明飞,马名威.基于信息增益的文本特征选择方法[J].计算机科学,2012,39(11):127-130. 被引量：31
7曾青华,袁家斌,张云洲.基于Hadoop的贝叶斯过滤MapReduce模型[J].计算机工程,2013,39(11):57-60. 被引量：3
8何清,李宁,罗文娟,史忠植.大数据下的机器学习算法综述[J].模式识别与人工智能,2014,27(4):327-336. 被引量：312
9郝璇.基于Apache Flume的分布式日志收集系统设计与实现[J].软件导刊,2014,13(7):110-111. 被引量：15
10裔传俊,刘亮.采用边缘分类和平均偏差比较的分形图像编码[J].计算机应用与软件,2015,32(2):211-214. 被引量：4

引证文献7

1马建国,杨金山,赵静,赵秀云.综合物探在宾州浸出油厂找水的应用[J].黑龙江水利科技,2000,28(2):64-65.
2柴宁,吴毅坚,赵文耘.基于数据特性的Spark任务性能优化[J].计算机应用与软件,2018,35(1):52-58. 被引量：2
3刘萍.基于Hadoop与Spark的高校校园大数据平台研究[J].软件工程,2018,21(5):15-18. 被引量：9
4刘月峰,张亚斌,苑江浩.云环境下NB算法的垃圾邮件过滤研究[J].微电子学与计算机,2018,35(8):60-63. 被引量：4
5石敏,卢丹海,秦婷.基于大数据的高校学生分析与服务平台的研究[J].信息技术,2019,43(2):5-10. 被引量：10
6金燕,黄杰.基于信息熵与词长信息改进的TFIDF算法[J].浙江工业大学学报,2021,49(2):203-209. 被引量：9
7黄志,苏传程,苏晓红.大数据环境下Spark性能优化分析研究与应用[J].气象科技,2022,50(1):51-58. 被引量：7

二级引证文献41

1黄涛,高丽婷.基于Spark的实时数据采集与处理[J].河北建筑工程学院学报,2022,40(4):176-179. 被引量：4
2蒋永丛.计算机信息安全技术研究综述[J].新一代信息技术,2022,5(6):126-128.
3严梓奇,刘凯,金焱,周昌,刘俊含,覃炳发.桂电e点高校服务平台营销策略研究——以食堂订餐的高效校园服务为例[J].山东青年,2019(5):151-152.
4吴庭天,田蜜,陈宗铸,雷金睿,陈小花,李苑菱,黄绪壮.基于Hadoop的森林资源信息平台研究[J].热带林业,2019,47(1):43-47. 被引量：3
5张海涛.高校校园大数据系统设计[J].电子测试,2019,30(9):66-67. 被引量：1
6赵俊先,喻剑.基于RDD非序列化本地存储的Spark存储性能优化[J].计算机科学,2019,46(5):143-149. 被引量：3
7胡江婧,曹双双.基于JAVA的课程设计管理系统的设计与开发[J].科技创新与应用,2019,9(16):80-82. 被引量：1
8邹军,毕丹宏,胡宗贤,刘俊.高校大数据建设与应用研究[J].电信快报（网络与通信）,2019(10):44-46. 被引量：1
9王玉.大数据时代Hadoop和Spark技术研究[J].品牌研究,2020,0(4):88-90. 被引量：4
10李子乾.云计算中垃圾邮件识别的机器学习算法[J].自动化技术与应用,2020,39(5):88-95.

1李卓君.Web文本挖掘技术探析[J].现代商贸工业,2011,23(23):327-328. 被引量：1
2吕佳.基于改进分类模型的文本分类系统实现[J].重庆师范大学学报（自然科学版）,2009,26(2):79-83. 被引量：3
3刘子良,田永先.一种文本分类数据挖掘的技术[J].计算机与信息技术,2006(8):22-23.
4施聪莺,徐朝军,杨晓江.TFIDF算法研究综述[J].计算机应用,2009,29(B06):167-170. 被引量：217
5高金勇,徐朝军,冯奕竸.基于迭代的TFIDF在短文本分类中的应用[J].情报理论与实践,2011,34(6):120-122. 被引量：2
6李学明,李海瑞,薛亮,何光军.基于信息增益与信息熵的TFIDF算法[J].计算机工程,2012,38(8):37-40. 被引量：48
7段莹.支持向量机在文本分类中的应用[J].计算机与数字工程,2012,40(7):87-88. 被引量：9
8陈晓桦,杨桃栏.向量化中的分段处理[J].计算机学报,1989,12(8):635-637.
9姚克荣.向量化中数据依赖关系的强化[J].计算机学报,1990,13(6):436-440. 被引量：1
10李加庆,刘燕.浅析R语言并行计算在大数据分析中的应用[J].电子测试,2016,27(12):91-92. 被引量：3

计算机应用与软件

2016年第11期

浏览历史

内容加载中请稍等...

Spark平台下的高效Web文本分类系统的研究被引量：7

参考文献10

二级参考文献95

共引文献546

同被引文献49

引证文献7

二级引证文献41

相关作者

相关机构

相关主题

浏览历史

Spark平台下的高效Web文本分类系统的研究 被引量：7

参考文献10

二级参考文献95

共引文献546

同被引文献49

引证文献7

二级引证文献41

相关作者

相关机构

相关主题

浏览历史

Spark平台下的高效Web文本分类系统的研究被引量：7