基于Spark与词语相关度的KNN文本分类算法被引量：3

KNN Text Classification Based on Word Relatedness and Spark Framework

下载PDF

导出

摘要针对K-最近邻(KNN)分类算法在当前大数据背景下分类效率降低、分类效果不理想的问题,提出了一种基于Spark框架与词语相关度优化的高效KNN文本分类算法。在相似度计算过程中,采用词语相关度将文本词语间的关系考虑在内,对分类算法相似度计算进行优化,从而提高文本分类的准确度;依托Spark计算框架的内存处理机制,实现文本分类的并行化,从而提高KNN文本分类算法的处理效率,同时在并行化过程中建立类别-距离向量,以进一步加快文本分类的处理速度。实验结果表明,Spark框架下基于词语相关度的KNN文本分类算法在保证分类效果的基础上大大提高了分类效率,较Hadoop平台有较好的加速比,可有效地对大数据进行分类处理。 In viewof the problem that K-nearest neighbor(KNN) classification algorithm is not satisfactory and inefficient under the big data background,we put forward a highly efficient algorithm of KNN based on Spark framework and word relatedness.In the calculation of the similarity,taking into the relationship between the words account by using the word relatedness,the similarity calculation of the classification algorithm is optimized to improve the accuracy of the text classification.We rely on the in-memory mechanism of Spark to realize the parallelization of text categorization,so as to rise the efficiency of KNN text categorization algorithm. At the same time,the class-distance vector is established to further speed up the processing of text categorization in the calculation.The experiments showthat the proposed parallel algorithm could shorten the classification time on the basis of ensuring the classification effect. And it has better speedup,which can effectively classify the big data.

作者于苹苹倪建成韦锦涛曹博姚彬修

机构地区曲阜师范大学信息科学与工程学院曲阜师范大学软件学院

出处《计算机技术与发展》 2018年第3期87-92,共6页 Computer Technology and Development

基金国家自然科学基金(61402258) 山东省本科高校教学改革研究项目(2015M102) 校级教学改革研究项目(jg05021*)

关键词 K-最近邻词语相关度 SPARK 并行化计算 KNN word relatedness Spark parallel computing

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1王小林,陆骆勇,邰伟鹏.基于信息熵的新的词语相似度算法研究[J].计算机技术与发展,2015,25(9):119-122. 被引量：3
2苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：387
3王邦军,李凡长,张莉,于剑,何书萍.基于改进协方差特征的李-KNN分类算法[J].模式识别与人工智能,2014,27(2):173-178. 被引量：8
4范恒亮,成卫青.一种基于关联分析的KNN文本分类方法[J].计算机技术与发展,2014,24(6):71-74. 被引量：4
5王秀利.基于K最近邻文本分类的伪装入侵检测[J].小型微型计算机系统,2014,35(12):2650-2654. 被引量：3
6李正杰,黄刚.基于Hadoop平台的SVM_KNN分类算法的研究[J].计算机技术与发展,2016,26(3):75-79. 被引量：7
7梁喜涛,顾磊.中文分词与词性标注研究[J].计算机技术与发展,2015,25(2):175-180. 被引量：48

二级参考文献75

1王建会,王洪伟,申展,胡运发.一种实用高效的文本分类算法[J].计算机研究与发展,2005,42(1):85-93. 被引量：20
2李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：95
3吴健,吴朝晖,李莹,邓水光.基于本体论和词汇语义相似度的Web服务发现[J].计算机学报,2005,28(4):595-602. 被引量：218
4宋玲,马军,连莉,张志军.文档相似度综合计算研究[J].计算机工程与应用,2006,42(30):160-163. 被引量：43
5张海营.全二分快速自动分词算法构建[J].现代图书情报技术,2007(4):52-55. 被引量：6
6李峰,李芳.中文词语语义相似度计算——基于《知网》2000[J].中文信息学报,2007,21(3):99-105. 被引量：106
7HanJ,KamberM.数据挖掘概念与技术[M].范明,孟小峰,译.北京:机械工业出版社,2005:21-95.
8Rosenfeld A, Vanderburg G. Coarse-Fine Template Matching. IEEE Trans on Systems, Man and Cybernetics, 1977, 7(2) : 104-107.
9runelli R, Poggio T. Face Recognition: Features versus Templates. IEEE Trans on Pattern Analysis and Machine Intelligence, 1993, 15 ( 10) : 1042-1052.
10Maree R, Geurts P, Piater J, et at. Random Subwindows for Robust Image Classification / / Proc of the IEEE Conference on Computer Vision and Pattern Recognition. San Diego, USA, 2005, 1: 34-40.

共引文献453

1唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：43
2李林,刁磊,唐詹,柏召,周晗,郭旭超.基于BERT_Stacked LSTM的农业病虫害问句分类方法[J].农业机械学报,2021,52(S01):172-177. 被引量：6
3姚学恒,张萍,闫立伟,操诚.基于机器学习的企业秘密文档自动分类方法[J].产业与科技论坛,2020,19(7):44-45.
4周丰,殷丽丽,沈琼,杨怀光.基于word2vec的瓶装水线上评论智能分析[J].包装工程,2022,43(S01):48-55. 被引量：1
5张小艳,李强.基于SVM的分类方法综述[J].科技信息,2008(28):344-345. 被引量：23
6王辉,左万利,袁华.一种基于质心与本体的文本分类方法[J].计算机研究与发展,2007,44(z2):6-11. 被引量：3
7徐燕,李锦涛,王斌,孙春明,张森.不均衡数据集上文本分类的特征选择研究[J].计算机研究与发展,2007,44(z2):58-62. 被引量：20
8袁志坚,贾焰.基于误差反馈的高速Web文本流快速近似分类[J].计算机研究与发展,2007,44(z3):13-17.
9贾志洋,高炜,王勇刚.结合信息检索技术的半监督文本分类方法[J].苏州大学学报（自然科学版）,2012,28(1):34-39. 被引量：1
10陈思,钱铭宇,刘昌明.文本分类技术研究进展[J].电脑编程技巧与维护,2009(S1):22-24.

同被引文献13

1徐镜善,王凯,袁哲明.多维时间序列因变量的快速定阶及其害虫发生量预测[J].湖南农业科学,2013(10):64-67. 被引量：2
2孙丛苇,班晓琳,文鹏卓,戴冕,李兰芝.基于支持向量回归预测气象因子对苎麻产量的影响研究[J].湖南农业科学,2013(11):66-69. 被引量：2
3李哈滨,王政权,王庆成.空间异质性定量研究理论与方法[J].应用生态学报,1998,9(6):651-657. 被引量：364
4刘喜平.小菜蛾的发生规律及预测预报[J].湖南农业科学,2011(7):97-99. 被引量：5
5孙朴,胥德梅.气象因子对水稻纹枯病的预测模型研究[J].安徽农业科学,2013,41(23):9873-9874. 被引量：4
6程圣军,黄庆成,刘家锋,唐降龙.一种改进的ML-kNN多标记文档分类方法[J].哈尔滨工业大学学报,2013,45(11):45-49. 被引量：4
7张兆扬,陈征,李朋彦,吕果,于建军.现代烟草农业背景下的烟农专业合作社发展浅析[J].湖南农业科学,2015(6):96-99. 被引量：8
8刘卓然,胡杨,刘骊,冯旭鹏,刘利军,黄青松.基于标签相似度的不良信息多标签分类方法[J].计算机应用研究,2016,33(4):989-992. 被引量：8
9巢进,张战泓,田峰,田茂成,朱三荣,陈前锋,左晖.烟草黑胫病防控技术研究进展[J].湖南农业科学,2016,0(8):120-122. 被引量：7
10郭绪坤,范冰冰.一种朴素贝叶斯文本分类算法的分布并行实现[J].计算机应用与软件,2016,33(11):240-243. 被引量：5

引证文献3

1郭赛,吴伶.基于气象因子的烟草普通花叶病毒非线性预测模型[J].湖南农业科学,2019,0(6):101-105. 被引量：3
2童坤,钮焱,李军.基于距离贪心策略的灰狼特征选择算法研究[J].计算机与数字工程,2020,48(4):759-762.
3潘俊辉,王辉,张强,王浩畅.一种在MapReduce下实现的KNN改进算法[J].重庆科技学院学报（自然科学版）,2021,23(1):70-72. 被引量：2

二级引证文献5

1陈代明,江其朋,张世渠,廖帮红,龚杰,谭茜,秦平伟.影响烟草青枯病发生的关键气象因子分析[J].植物医生,2020,33(1):39-44. 被引量：7
2谢裕睿,苗晟,张铄,董建娥.基于残差神经网络的烟草病害识别研究[J].现代计算机,2020,26(30):27-31. 被引量：8
3马召贵.基于改进KNN的不均衡信息文本分类算法[J].信息与电脑,2023,35(12):85-87.
4冉渝澳,金亚波,王振国,成鑫,孙佳照,罗建钦.烟草靶斑病预测模型构建及数字化应用研发[J].植物医学,2024,3(4):40-49.
5王耐东,王雅君,张昕晨,程胜明.基于Hadoop的产品大数据分布式存储优化[J].计算机科学与应用,2021,11(5):1503-1511. 被引量：1

1王智广,刘泽泓,陈思远,李聪莹,连远锋.粒子滤波目标跟踪研究[J].内蒙古师范大学学报（自然科学汉文版）,2017,46(5):656-660.
2徐龙阳.基于机器学习的室内定位方法综述[J].电脑知识与技术,2018,14(1):217-219. 被引量：4
3赵志鹏,张海超.基于Spark大数据平台的风功率预测模型研究[J].电力大数据,2017,20(12):1-3. 被引量：2
4王雪丽,宋启祥.基于BP神经网络的文本分类算法研究与设计[J].通化师范学院学报,2018,39(2):70-73. 被引量：5
5贡振华.分层教学法在高中体育教学中的有效运用[J].吉林教育,2017,0(46):95-95.
6张凯.智能变电站二次设备检修处理机制分析探讨[J].军民两用技术与产品,2017,0(16):161-161.
7马圆,田思佳,冯巍,梁志刚,崔春蕾,郭秀花.基于肺部PET/CT图像不同纹理特征的K最近邻分类器[J].北京生物医学工程,2018,37(1):57-61. 被引量：4
8滕正福.电气二次回路常见的故障及处理机制[J].中国设备工程,2018(6):38-39. 被引量：2
9赵宝文,徐华.基于MapReduce的并行MRACO-PAM聚类算法[J].计算机工程与科学,2017,39(10):1801-1806. 被引量：4
10读编往来①[J].临床口腔医学杂志,2018,34(2):84-84.

计算机技术与发展

2018年第3期

浏览历史

内容加载中请稍等...

基于Spark与词语相关度的KNN文本分类算法被引量：3

参考文献7

二级参考文献75

共引文献453

同被引文献13

引证文献3

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于Spark与词语相关度的KNN文本分类算法 被引量：3

参考文献7

二级参考文献75

共引文献453

同被引文献13

引证文献3

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于Spark与词语相关度的KNN文本分类算法被引量：3