-
题名基于Hadoop云计算平台的海量文本处理研究
被引量:11
- 1
-
-
作者
张学亮
陈金勇
陈勇
-
机构
中国电子科技集团公司第五十四研究所
-
出处
《无线电通信技术》
2014年第1期54-57,共4页
-
基金
国家部委基金资助项目
-
文摘
针对海量文本数据处理,为实现快速文本处理响应,缩短海量数据为辅助决策提供服务的时间,基于Hadoop云计算平台,建立HDFS分布式文件系统存储海量文本数据集,通过文本词频利用MapReduce原理建立分布式索引,以分布式数据库HBase存储关键词索引,并提供实时检索,实现对海量文本数据的分布式并行处理。实验结果表明,Hadoop框架为大规模数据的分布式并行处理提供了很好的解决方案。
-
关键词
海量文本处理
HADOOP
HDFS
HBASE
MAPREDUCE
分布式并行处理
-
Keywords
large-scale text processing
Hadoop
HDFS
HBase
MapReduce
distributed parallel processing
-
分类号
TP319
[自动化与计算机技术—计算机软件与理论]
-