基于云计算Hadoop平台的文本挖掘预处理方法被引量：1

Preprocessing Method of Text Mining Based on Hadoop Platform

下载PDF

导出

摘要随着信息社会的快速发展,网络数据正在指数级地增长,其中大部分都是文本数据.如何在有限的时间内完成大规模的文本数据挖掘分析,已成为当前的热点研究问题.文本预处理是整个挖掘过程中最耗时的环节,分布式并行处理可以缩短该过程的挖掘时间.设计分析了基于云计算Hadoop平台的文本预处理MapReduce并行化过程,并对预处理的Map函数和Reduce函数进行了详细介绍.通过实验证明,和单节点运行相比,改进后的并行化方法具有更好的性能. With the rapid development of information society, network data increase exponentially, and most of the network data exist in the form of text. It is a rescarch hotspot to mining and analyze the massive text data within the limited time. The text preprocessing is the longest step in the whole mining, and distributed parallel processing can shorten the pretreatment time. The MapReduce parallel improvement of the preprocessing was designd and analysed based on the Hadoop platform, and Map function and Reduce function were depicted in detail. The experiment results show that the improved parallel execution has better performance compared with the single node.

作者张爱科 ZHANG Aike(Liuzhou Vocational and Technical College, Liuzhou 545006, Chin)

机构地区柳州职业技术学院

出处《上海工程技术大学学报》 CAS 2017年第2期115-119,共5页 Journal of Shanghai University of Engineering Science

基金广西教育厅科研资助项目(201204LX593) 广西中青年教师基础能力提升资助项目(KY2016LX516)

关键词云计算 HADOOP平台文本挖掘文本预处理分布式并行处理 cloud computing Hadoop platform text mining~ text preprocessing distributedparallel processing

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1张洋.云计算发展现状及趋势分析[J].中国新通信,2013,15(10):41-41. 被引量：2
2郑晓刚,韩立新,白书奎,曾晓勤.一种组合型中文分词方法[J].计算机应用与软件,2012,29(7):26-28. 被引量：11
3周茜,赵明生,扈旻.中文文本分类中的特征选择研究[J].中文信息学报,2004,18(3):17-23. 被引量：165
4刘云峰 ,齐欢 ,HU Xiang'en ,CAI Zhiqiang ,代建民 .基于潜在语义空间维度特性的多层文档聚类[J].清华大学学报（自然科学版）,2005(S1):1783-1786. 被引量：11

二级参考文献16

1刘云峰,齐欢,代建民,王小平.中文信息的潜在语义分析[J].华南理工大学学报（自然科学版）,2004,32(z1):107-111. 被引量：5
2黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：249
3Yang Yiming,Pederson J O.A Comparative Study on Feature Selection in Text Categorization [A].Proceedings of the 14th International Conference on Machine learning[C].Nashville:Morgan Kaufmann,1997:412-420.
4Y.Yang.Noise reduction in a statistical approach to text categorization[A].Proceedings of the 18th Ann Int ACM SIGIR Conference on Research and Development in Information Retrieval(SIGIR95)[C].Seattle:ACM Press,1995:256-263.
5Thorsten Joachims,Text Categorization with Support Vector Machines:Learning with Many Relevant Features[A],In:European Conferrence on Machine Learning (ECML)[C].Berlin:Springer,1998,137-142.
6Mlademnic,D.,Grobelnik,M.Feature Selection for unbalanced class distribution and Nave Bayees[A].Proceedings of the Sixteenth International Conference on Machine Learning[C].Bled:Morgan Kaufmann,1999:258-267.
7梁久祯兰东俊扈旻.基于先验知识的网页特征压缩与线性分类器设计[A]..第十二届全国神经计算学术大会论文集[C].北京:人民邮电出版社,2002.494-501.
8詹姆斯,普雷斯.贝叶斯统计学原理、模型及应用[M].北京:中国统计出版社,1992.
9Rabiner L R, Juang B H. An introduction to hidden Markov models [ J]. IEEE ASSP Mag, 1986,3 ( 1 ) :4 - 16.
10Jurafsky D, Martin J H. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguisticsand Speech Recognition [ M ]. USA : Prentice Hall, 2000.

共引文献183

1王细薇,樊兴华,赵军.一种基于特征扩展的中文短文本分类方法[J].计算机应用,2009,29(3):843-845. 被引量：36
2蒋宗礼,李宪雷,徐学可.基于主题Hub值的元搜索[J].北京工业大学学报,2009,35(3):397-402. 被引量：1
3黄健刚.基于J2ME的手机垃圾短信过滤器的研究[J].魅力中国,2009(26):169-170.
4尤晶晶.基于贝叶斯的垃圾邮件过滤优化算法[J].烟台职业学院学报,2008(2):80-83.
5王荣荣.全局和局部特征提取相融合的中文文本特征提取方法研究[J].河北北方学院学报（自然科学版）,2013,29(3):35-38.
6常娟.针对短文本数据的自动分类方法比较研究[J].消费导刊,2008,0(4):177-178.
7翟东海,王佳君,聂洪玉,崔静静.基于互信息的热点词发现和突发性话题检测研究[J].西藏大学学报（社会科学版）,2013,28(4):82-87. 被引量：2
8赵世奇,张宇,刘挺,陈毅恒,黄永光,李生.基于类别特征域的文本分类特征选择方法[J].中文信息学报,2005,19(6):21-27. 被引量：21
9陈涛,谢阳群.文本分类中的特征降维方法综述[J].情报学报,2005,24(6):690-695. 被引量：79
10廖莎莎,江铭虎.中文文本分类中基于概念屏蔽层的特征提取方法[J].中文信息学报,2006,20(3):22-28. 被引量：12

同被引文献5

1化柏林.知识抽取中的停用词处理技术[J].现代图书情报技术,2007(8):48-51. 被引量：39
2邢彪,根绒切机多吉.基于jieba分词搜索与SSM框架的电子商城购物系统[J].信息与电脑,2018,30(7):104-105. 被引量：17
3曹军.Google的PageRank技术剖析[J].情报杂志,2002,21(10):15-18. 被引量：70
4李娜娜,刘培玉,刘文锋,刘伟童.基于TextRank的自动摘要优化算法[J].计算机应用研究,2019,36(4):1045-1050. 被引量：17
5宗成庆.中文信息处理研究现状分析[J].语言战略研究,2016,1(6):19-26. 被引量：16

引证文献1

1齐翌辰,王森淼,赵亚慧.基于深度学习的中文抽取式摘要方法应用[J].科教导刊,2019,0(14):69-70. 被引量：1

二级引证文献1

1谭金源,刁宇峰,杨亮,祁瑞华,林鸿飞.基于BERT-SUMOPN模型的抽取-生成式文本自动摘要[J].山东大学学报（理学版）,2021,56(7):82-90. 被引量：9

1王智钢,王池社,马青霞.分布式并行关联规则挖掘算法研究[J].计算机应用与软件,2013,30(10):113-115. 被引量：13
2刘超,徐雅斌,武装.微博社区快速发现方法[J].计算机科学与探索,2015,9(9):1100-1107. 被引量：1
3张军,刘文杰.关联规则中基于模糊遗传算法的研究与改进挖掘技术[J].现代电子技术,2017,40(14):23-25. 被引量：6
4李鹏,杨杰,牛欢.二自由度机器人模糊滑模位置控制及仿真[J].青岛大学学报（工程技术版）,2017,32(2):102-107. 被引量：1
5彭慧胜.彭慧胜:成才之道贵在独立思考[J].教学管理与教育研究,2017,2(10):128-128.
6Lin Xia,Dong Zou,Jian Sang,Xingjian Xu,Hongyan Yin,Mengwei Li,Shuangyang Wu,Songnian Hu,Lili Hao,Zhang Zhang.Rice Expression Database(RED)：An integrated RNA-Seq-derived gene expression database for rice[J].Journal of Genetics and Genomics,2017,44(5):235-241. 被引量：16
7彭晨伟,巴继东.基于交通大数据的智能信息服务平台[J].计算机系统应用,2017,26(7):97-103. 被引量：9
8龚霞.如何加强高校艺术设计类《3DSmax》基础教学中实践性应对更宽泛的实践要求[J].中国校外教育,2017(6):73-73.
9黄小红,赵逢禹.软件故障定位关键技术研究综述[J].软件导刊,2017,16(7):205-209. 被引量：4
10顾士星.团树传播算法在贝叶斯网络攻击图中概率计算分析[J].软件导刊,2017,16(7):174-178. 被引量：1

上海工程技术大学学报

2017年第2期

浏览历史

内容加载中请稍等...

基于云计算Hadoop平台的文本挖掘预处理方法被引量：1

参考文献4

二级参考文献16

共引文献183

同被引文献5

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于云计算Hadoop平台的文本挖掘预处理方法 被引量：1

参考文献4

二级参考文献16

共引文献183

同被引文献5

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于云计算Hadoop平台的文本挖掘预处理方法被引量：1