基于分布式系统的大数据随机抽样算法的实现被引量：1

下载PDF

导出

摘要 Hadoop是当前处理大数据环境的一套生态系统,按照层次结构为节点内的HDFS,根据该FS特性编写的RPC,Map Reduce框架,Yarn管理系统,其中各层次可细分或进行全层次结构的整合,如HBase关注于数据存储方向,使用其中HDFS和RPC通讯对键值对数据进行转换并实现分布式存储,Spark关注于数据高速运算,通过高速缓存内存直接向上作用于RPC的机制和Yarn对资源的管理进行实时的分布式计算。该文根据在大数据中的快速进行有需求抽样的需求,对存储于HDFS中的大规模非结构化数据,RPC机制,及Map Reduce中Map模块做深入研究。

作者王磐李勋张涛

机构地区公安部第三研究所

出处《电脑知识与技术（过刊）》 2016年第7X期9-11,共3页 Computer Knowledge and Technology

基金国家信息安全专项项目(发改办高技[2015]289号)

关键词 HADOOP 大数据随机抽样

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献6

1白永超,付伟,辛阳.??基于Hadoop和Nutch的分布式搜索引擎研究与仿真(A)第十九届全国青年通信学术年会论文集(C)2014
2李超越,徐国胜.??Hadoop公平调度算法的改进(A)第十九届全国青年通信学术年会论文集(C)2014
3Jeffrey Dean,Sanjay Ghemawat.MapReduce[J]. Communications of the ACM . 2008 (1)
4Sanjay Ghemawat,Howard Gobioff,Shun-Tak Leung.The Google file system[J].ACM SIGOPS Operating Systems Review.2003(5)
5ADAMS A,JACOBS D,DOLSON J,et al.The frankencamera:an experimental platform for computational photography. ACMSIGGRAPH 2010 . 2010
6李建江,崔健,王聃,严林,黄义双.MapReduce并行编程模型研究综述[J].电子学报,2011,39(11):2635-2642. 被引量：187

二级参考文献45

1宁焕生,张瑜,刘芳丽,刘文明,渠慎丰.中国物联网信息服务系统研究[J].电子学报,2006,34(B12):2514-2517. 被引量：151
2J Dean,S Ghemawat.MapReduce:Simplified data processing on large clusters[J].Communications of the ACM,2008,51(1):107-113.
3J L Wagener.High performance fortran[J].Computer Standards & Interfaces,Elsevier,1996,18(4):371-377.
4W Gropp,E Lusk,et al.Using MPI:Portable Parallel Programming with the Message Passing Interface[M].Cambridge:MIT Press,1999.1-350.
5A Geist,A Beguelin,et al.PVM:Parallel Virtual Machine:A Users' Guide and Tutorial for Networked Parallel Computing[M].Cambridge:MIT Press,1995.1-299.
6A Verma,N Zea,et al.Breaking the mapreduce stage barrier .Proc of IEEE International Conference on Cluster Computing .Los Alamitos:IEEE Computer Society,2010.235-244.
7H C Yang,A Dasdan,et al.Map-Reduce-Merge:Simplified relational data processing .Proc of ACM SIGMOD International Conference on Management of Data .New York:ACM,2007.1029-1040.
8S V Valvag,D Johansen.Oivos:Simple and efficient distributed data processing .Proc of IEEE International Conference on High Performance Computing and Communications .Piscataway:IEEE,2008.113-122.
9Z Vrba,P Halvorsen,et al.Kahn process networks are a flexible alternative to mapreduce .Proc of IEEE International Conference on High Performance Computing and Communications .Piscataway:IEEE,2009.154-162.
10Apache hadoop .http://lucene.apache.org/hadoop/,2010-10-15/2010-12-28.

共引文献202

1桂智明,向宇,李玉鉴.基于出租车轨迹的并行城市热点区域发现[J].华中科技大学学报（自然科学版）,2012,40(S1):187-190. 被引量：22
2亢丽芸,王效岳,白如江.MapReduce原理及其主要实现平台分析[J].现代图书情报技术,2012(2):60-67. 被引量：17
3李建敦,彭俊杰,张武.云存储中一种基于布局的虚拟磁盘节能调度方法[J].电子学报,2012,40(11):2247-2254. 被引量：10
4许丞,刘洪,谭良.Hadoop云平台的一种新的任务调度和监控机制[J].计算机科学,2013,40(1):112-117. 被引量：52
5应毅,任凯,刘正涛.基于云计算技术的数据挖掘[J].微电子学与计算机,2013,30(2):161-164. 被引量：20
6应毅,任凯,曹阳.基于改进的MapReduce模型的Web挖掘[J].科学技术与工程,2013,21(5):1205-1209. 被引量：10
7肖淇,秦云川,阳王东,李肯立.一种基于MapReduce的防火墙策略冲突并行化检测及消解模型[J].计算机科学,2013,40(3):50-54. 被引量：6
8赵青松,陈林,孙波,朱艳,姜海燕.基于Hadoop的云环境下作物生长模型算法的实现与测试[J].农业工程学报,2013,29(8):179-186. 被引量：11
9吴建军.网络舆情的云计算监测模式分析与实现[J].电讯技术,2013,53(4):476-481. 被引量：4
10宋杰,郝文宁,陈刚,靳大尉,赵水宁.基于MapReduce的分布式ETL体系结构研究[J].计算机科学,2013,40(6):152-154. 被引量：9

同被引文献3

1秦磊,熊巍,田茂再.大数据下Leverage重要性抽样方法的稳健改进[J].统计研究,2016,33(8):101-105. 被引量：8
2晏振,戴晓文,田茂再.基于杠杆值大数据集抽样的异常点诊断[J].数理统计与管理,2016,35(5):794-802. 被引量：14
3任正伟,孙小雁,王丽娜,王骞,徐明迪,张茂胜.基于简单随机抽样的大数据可信性验证方法[J].电子学报,2017,45(10):2484-2490. 被引量：4

引证文献1

1李晨露.大数据下广义线性模型的参数估计算法[J].系统科学与数学,2020,40(5):927-940. 被引量：2

二级引证文献2

1JING Lida,ZHANG Ji-Feng.LS-Based Parameter Estimation of DARMA Systems with Uniformly Quantized Observations[J].Journal of Systems Science & Complexity,2022,35(3):748-765.
2潘登,李莉莉.基于两步子抽样算法的贷款额影响因素研究[J].青岛大学学报（自然科学版）,2023,36(4):133-138.

1姜腊林.基于RPC的分布网络应用程序设计[J].计算机工程与科学,1997,19(4):78-82. 被引量：2
2周笑波,汲化,谢立.基于PVM的分布计算的研究[J].计算机学报,1997,20(6):551-555. 被引量：7
3严伟,龚正虎.UNIX RPC机制实现技术的研究[J].计算机工程与科学,1995,17(4):55-61.
4罗玉军.随机抽样改进算法及其实现[J].电脑与信息技术,2008,16(6):27-28. 被引量：1
5鲍伟,张崇巍,徐玉华,汪木兰.基于图像理解的移动机器人定位问题研究[J].合肥工业大学学报（自然科学版）,2010,33(4):510-513.
6严伟,王绿园.UNIX System V RPC机制的应用[J].微型计算机,1996,16(2):5-9.
7张龙波,李战怀,余敏,蒋芸.带权值数据流滑动窗口随机抽样算法的改进[J].计算机工程与应用,2007,43(25):18-20. 被引量：3
8王军锋,贾建华,申志伟.一种改进的随机抽样算法[J].电脑与信息技术,2006,14(2):63-65. 被引量：4
9刘春阳,张泽浩,柳长安,吴华.基于数据扩展的动态贝叶斯网络预测方法[J].华中科技大学学报（自然科学版）,2015,43(S1):81-83 87. 被引量：1
10何炎祥,孙祥胜,陈燕涛.实现RPC的一种方法[J].小型微型计算机系统,1995,16(1):37-41.

电脑知识与技术（过刊）

2016年第7X期

浏览历史

内容加载中请稍等...

基于分布式系统的大数据随机抽样算法的实现被引量：1

参考文献6

二级参考文献45

共引文献202

同被引文献3

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于分布式系统的大数据随机抽样算法的实现 被引量：1

参考文献6

二级参考文献45

共引文献202

同被引文献3

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于分布式系统的大数据随机抽样算法的实现被引量：1