基于Hadoop的维吾尔文文本分类被引量：1

Uygur text classification based on Hadoop

下载PDF

导出

摘要针对维吾尔文组词算法在文本分类中的分类性能不高,以及处理海量数据困难等问题,提出一种改进维吾尔文组词算法(DM),并设计一种基于Hadoop和改进维吾尔文组词算法的文本分类模型。对文本进行分段式处理,对每段分别采用DM组词算法,利用MapReduce编程模型实现该算法的并行化设计,结合Mahout贝叶斯分类算法进行文本分类,实验结果表明,该模型具有较好的分类结果。 Aiming at the problem of classification performance of Uighur group word algorithm in text classification and the difficulties of dealing with massive data,an improved Uyghur group word algorithm（DM）was proposed,and a text classification model based on Hadoop and improved Uygur group word group was proposed.The text was segmented and the DM group word algorithm was used for each segment,and the MapReduce programming model was used to realize the parallel design of the algorithm.The Mahout Bayesian classification algorithm was used to classify the text.Experimental data show that the proposed model has good classification results.

作者艾比布拉.阿不拉马振哈力旦.阿布都热依木吴冰冰 Aibibula·Abula, MA Zhen, Halidan· Abudureyimu, WU Bing-bing(School of Electrical Engineering, Xinjiang University, Urumqi 830047, Chin)

机构地区新疆大学电气工程学院

出处《计算机工程与设计》北大核心 2018年第8期2500-2504,共5页 Computer Engineering and Design

基金新疆维吾尔自治区自然科学基金项目(2016D01C048)

关键词 Hadoop分布式系统文本分类维吾尔文 DM组词算法 Mahout分布式项目贝叶斯分类算法 Hadoop distributed system text categorization Uighur DM group word algorithm Mahout distributed project Bayesian classification algorithm

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1张群,王红军,王伦文.基于词条属性聚类的文本特征选择算法[J].计算机应用研究,2017,34(2):369-372. 被引量：4
2阿力甫.阿不都克里木,李晓.基于TextRank算法和互信息相似度的维吾尔文关键词提取及文本分类[J].计算机科学,2016,43(12):36-40. 被引量：8
3阿丽亚.艾尔肯,哈力旦.阿布都热依木,何燕,吴冰冰.基于深度置信网络的维吾尔文垃圾短信分类技术研究[J].计算机工程与科学,2016,38(10):2134-2139. 被引量：6
4吐尔地.托合提,艾克白尔.帕塔尔,艾斯卡尔.艾木都拉.语义词特征提取及其在维吾尔文文本分类中的应用[J].中文信息学报,2014,28(4):140-144. 被引量：15
5朱倩,钱立.基于Mahout的推荐系统的分析与设计[J].科技通报,2013,29(6):35-36. 被引量：11
6何燕,哈力旦.阿布都热依木,阿丽亚.艾尔肯,吴冰冰.一种新的维吾尔文文本分类特征选择方法[J].河南科技大学学报（自然科学版）,2016,37(3):42-46. 被引量：1

二级参考文献49

1伍洋,钟鸣,姜艳,李石君.面向审计领域的短文本分类技术研究[J].微电子学与计算机,2015,32(1):5-10. 被引量：7
2孙茂松,肖明,邹嘉彦.基于无指导学习策略的无词表条件下的汉语自动分词[J].计算机学报,2004,27(6):736-742. 被引量：37
3费洪晓,康松林,朱小娟,谢文彪.基于词频统计的中文分词的研究[J].计算机工程与应用,2005,41(7):67-68. 被引量：68
4贺敏,龚才春,张华平,程学旗.一种基于大规模语料的新词识别方法[J].计算机工程与应用,2007,43(21):157-159. 被引量：24
5王思力,王斌.基于双字耦合度的中文分词交叉歧义处理方法[J].中文信息学报,2007,21(5):14-17. 被引量：17
6陈嘉恒.Hadoop实战[M].北京:机械工业出版社,201l:292.
7Haralambos Marmanis,Dmitry Babenko.Algorithms of In- telligent Web.北京:电子工业出版社,2011:75.
8Rui Maximo Esteves,Chunming Rong.Using Mahout for clustering Wikipedia's latest articles - A comparison between K-means and fuzzy c-means in the cloud [C]// IEEE computer society,2011,Third IEEE International Conference on Cloud Computing Technology and Science, 2011:565-569.
9Lin ma,Haihong E,Ke Xu.The Design and Implementation of Distributed Mobile Points of Interest (POI) Based on Mahout[J].Pervasive Computing and Applications(ICPCA), 2011:99-104.
10Furnkranz J.A Study Using N-gram Features for Text Categorization[R].Technical Report:TR-98-30,http://www.ai.univie.ac.at/cgi-bin/tr-online? number +98-30,1998.

共引文献39

1李建平.手法治疗骶髂关节错缝52例[J].按摩与导引,2000,16(3):52-53.
2涂新莉,刘波,林伟伟.大数据研究综述[J].计算机应用研究,2014,31(6):1612-1616. 被引量：164
3韩怀梅,李淑琴.基于Mahout的个性化推荐系统架构[J].北京信息科技大学学报（自然科学版）,2014,29(4):51-54. 被引量：6
4朱倩.浅谈基于Mahout推荐引擎的构建[J].数字技术与应用,2015,33(4):44-45. 被引量：3
5高献卫,师智斌.基于Mahout的新用户推荐算法的设计与实现[J].计算机工程与科学,2015,37(8):1444-1449. 被引量：3
6赵越,李红.极大似然优化EM算法的汉语分词认知模型[J].科技通报,2016,32(4):178-181. 被引量：2
7朱倩.浅谈Mahout技术在智慧城市中的应用[J].内江科技,2016,37(4):69-70.
8如先姑力.阿布都热西提,贺一峰,亚森.艾则孜.基于文本分类的维吾尔文数字取证研究[J].现代电子技术,2016,39(10):9-13. 被引量：1
9伍文源,曾水玲,蒋天保.湘西方块苗文图像的预处理方法[J].吉首大学学报（自然科学版）,2016,37(3):24-27. 被引量：1
10吴冰冰,哈力旦.阿布都热依木,阿丽亚.艾尔肯,何燕.人工鱼群优化的维吾尔文文本特征选择方法[J].河南科技大学学报（自然科学版）,2016,37(6):46-50. 被引量：1

同被引文献8

1何敏,武德安,吴磊.基于MapReduce的平均多项朴素贝叶斯文本分类[J].计算机应用研究,2016,33(1):115-117. 被引量：5
2王波,王怀彬,张超.基于MapReduce的频繁模式挖掘算法的优化[J].天津理工大学学报,2018,34(1):6-11. 被引量：4
3陈凯,黄英来,高文韬,赵鹏.一种基于属性加权补集的朴素贝叶斯文本分类算法[J].哈尔滨理工大学学报,2018,23(4):69-74. 被引量：14
4雷建云,彭媛,孙翀,帖军.一种社交网络环境下并行短文本查询算法[J].中南民族大学学报（自然科学版）,2018,37(3):123-128. 被引量：2
5吕国,肖瑞雪,白振荣,孟凡兴.大数据挖掘中的MapReduce并行聚类优化算法研究[J].现代电子技术,2019,42(11):161-164. 被引量：19
6臧艳辉,赵雪章,席运江.Spark框架下利用分布式NBC的大数据文本分类方法[J].计算机应用研究,2019,36(12):3705-3708. 被引量：6
7廖彬,张陶,于炯,黄静莱,国冰磊,刘炎.多MapReduce作业协同下的大数据挖掘类算法资源效率优化[J].计算机应用研究,2020,37(5):1321-1325. 被引量：31
8吴皋,李明,周稻祥,岳俊宏,肖福龙.基于深度集成朴素贝叶斯模型的文本分类[J].济南大学学报（自然科学版）,2020,34(5):436-442. 被引量：14

引证文献1

1江奇峰.基于MapReduce的分布式云计算数据挖掘方法[J].景德镇学院学报,2021,36(6):106-108. 被引量：1

二级引证文献1

1唐闻.云计算技术在网络数据库平台建设中的应用[J].信息与电脑,2023,35(21):176-178.

计算机工程与设计

2018年第8期

浏览历史

内容加载中请稍等...

基于Hadoop的维吾尔文文本分类被引量：1

参考文献6

二级参考文献49

共引文献39

同被引文献8

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于Hadoop的维吾尔文文本分类 被引量：1

参考文献6

二级参考文献49

共引文献39

同被引文献8

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于Hadoop的维吾尔文文本分类被引量：1