期刊文献+
共找到242篇文章
< 1 2 13 >
每页显示 20 50 100
Design and development of real-time query platform for big data based on hadoop 被引量:1
1
作者 刘小利 Xu Pandeng +1 位作者 Liu Mingliang Zhu Guobin 《High Technology Letters》 EI CAS 2015年第2期231-238,共8页
This paper designs and develops a framework on a distributed computing platform for massive multi-source spatial data using a column-oriented database(HBase).This platform consists of four layers including ETL(extract... This paper designs and develops a framework on a distributed computing platform for massive multi-source spatial data using a column-oriented database(HBase).This platform consists of four layers including ETL(extraction transformation loading) tier,data processing tier,data storage tier and data display tier,achieving long-term store,real-time analysis and inquiry for massive data.Finally,a real dataset cluster is simulated,which are made up of 39 nodes including 2 master nodes and 37 data nodes,and performing function tests of data importing module and real-time query module,and performance tests of HDFS's I/O,the MapReduce cluster,batch-loading and real-time query of massive data.The test results indicate that this platform achieves high performance in terms of response time and linear scalability. 展开更多
关键词 big data massive data storage real-time query HADOOP distributed computing
下载PDF
Big data storage technologies: a survey 被引量:17
2
作者 Aisha SIDDIQA Ahmad KARIM Abdullah GANI 《Frontiers of Information Technology & Electronic Engineering》 SCIE EI CSCD 2017年第8期1040-1070,共31页
There is a great thrust in industry toward the development of more feasible and viable tools for storing fast-growing volume, velocity, and diversity of data, termed 'big data'. The structural shift of the storage m... There is a great thrust in industry toward the development of more feasible and viable tools for storing fast-growing volume, velocity, and diversity of data, termed 'big data'. The structural shift of the storage mechanism from traditional data management systems to NoSQL technology is due to the intention of fulfilling big data storage requirements. However, the available big data storage technologies are inefficient to provide consistent, scalable, and available solutions for continuously growing heterogeneous data. Storage is the preliminary process of big data analytics for real-world applications such as scientific experiments, healthcare, social networks, and e-business. So far, Amazon, Google, and Apache are some of the industry standards in providing big data storage solutions, yet the literature does not report an in-depth survey of storage technologies available for big data, investigating the performance and magnitude gains of these technologies. The primary objective of this paper is to conduct a comprehensive investigation of state-of-the-art storage technologies available for big data. A well-defined taxonomy of big data storage technologies is presented to assist data analysts and researchers in understanding and selecting a storage mecha- nism that better fits their needs. To evaluate the performance of different storage architectures, we compare and analyze the ex- isling approaches using Brewer's CAP theorem. The significance and applications of storage technologies and support to other categories are discussed. Several future research challenges are highlighted with the intention to expedite the deployment of a reliable and scalable storage system. 展开更多
关键词 big data big data storage NoSQL databases distributed databases CAP theorem SCALABILITY Consistency-partition resilience Availability-partition resilience
原文传递
Expert recommendation on collection,storage,annotation,and management of data related to medical artificial intelligence
3
作者 Yahan Yang Ruiyang Li +17 位作者 Yifan Xiang Duoru Lin Anqi Yan Wenben Chen Zhongwen Li Weiyi Lai Xiaohang Wu Cheng Wan Wei Bai Xiucheng Huang Qiang Li Wenrui Deng Xiyang Liu Yucong Lin Pisong Yan Haotian Lin Chinese Association of Artificial Intelligence Medical Artificial Intelligence Branch of Guangdong Medical Association 《Intelligent Medicine》 CSCD 2023年第2期144-149,共6页
Medical artificial intelligence(AI)and big data technology have rapidly advanced in recent years,and they are now routinely used for image-based diagnosis.China has a massive amount of medical data.However,a uniform c... Medical artificial intelligence(AI)and big data technology have rapidly advanced in recent years,and they are now routinely used for image-based diagnosis.China has a massive amount of medical data.However,a uniform criteria for medical data quality have yet to be established.Therefore,this review aimed to develop a standardized and detailed set of quality criteria for medical data collection,storage,annotation,and management related to medical AI.This would greatly improve the process of medical data resource sharing and the use of AI in clinical medicine. 展开更多
关键词 Artificial intelligence big data Intelligent medicine data collection data storage data annotation data management
原文传递
面向湍流大数据的高效存储与访问关键技术研究
4
作者 程文迪 张晓 +5 位作者 潘兆辉 赵友军 孙晨光 单学强 金雨展 赵晓南 《大数据》 2024年第4期3-20,共18页
随着测量技术和数值模拟技术的发展,数据驱动的湍流研究成为该领域的新研究方法。我国已建立了多个风洞实验室和多个超算中心来模拟湍流,这些研究积累了大量的湍流数据,但是国内没有集中的湍流数据管理平台,耗资巨大的实验和仿真数据难... 随着测量技术和数值模拟技术的发展,数据驱动的湍流研究成为该领域的新研究方法。我国已建立了多个风洞实验室和多个超算中心来模拟湍流,这些研究积累了大量的湍流数据,但是国内没有集中的湍流数据管理平台,耗资巨大的实验和仿真数据难以实现交流和共享。湍流数据具有数据量大、维度高、精度高和多源异构等特点,其存储、访问与管理存在数据集成困难、数据访问低效和存储效率低等问题。设计了一个面向航空、航天和航海典型流动问题的湍流大数据分布式存储系统TDFS。结合湍流大数据的访问特点,在TDFS中设计了新的元数据组织方式和数据访问接口。实验结果表明,与HDFS和GlusterFS相比,TDFS分别实现了54.38%和57.7%的接口响应速度提升。同时,为了降低湍流大数据的存储开销,设计了基于HDF5的副本延迟压缩机制,相比原有的副本存储方式,节省了34%的存储空间。 展开更多
关键词 湍流大数据 分布式存储系统 副本延迟压缩 性能优化
下载PDF
云计算技术在计算机大数据分析中的运用 被引量:2
5
作者 汪虎 《科技资讯》 2024年第6期7-9,共3页
互联网和信息技术的快速发展,大量的数据被产生和积累,这些数据往往具有高维、高速和多样的特点,传统的数据处理技术已无法有效处理和分析这些海量数据,因此大数据分析技术应运而生。基于云计算技术的弹性计算能力、高效的储存和数据管... 互联网和信息技术的快速发展,大量的数据被产生和积累,这些数据往往具有高维、高速和多样的特点,传统的数据处理技术已无法有效处理和分析这些海量数据,因此大数据分析技术应运而生。基于云计算技术的弹性计算能力、高效的储存和数据管理功能、实现分布式计算和并行处理,提出云计算技术在计算机大数据分析中的具体应用,分别是构建高效的数据处理模型、创建计算机网络分析模块、打造易于读取的数据储存平台、实现安全扫描和链路加密,进而保证大数据的收集、处理和分析都能更高效。 展开更多
关键词 云计算技术 大数据分析 数据储存 分布式计算
下载PDF
基于智能技术的仓储系统设计 被引量:1
6
作者 梁川 陈雪军 《佳木斯大学学报(自然科学版)》 CAS 2024年第3期44-48,共5页
传统仓储管理模式存在存取效率低、土地利用率低、出错几率高和人力成本高等诸多问题。研究致力于设计一种智能仓储系统。智能仓储系统利用物联网、大数据、人工智能等技术将仓储以及物流管理自动化和智能化。智能仓储系统可以通过优化... 传统仓储管理模式存在存取效率低、土地利用率低、出错几率高和人力成本高等诸多问题。研究致力于设计一种智能仓储系统。智能仓储系统利用物联网、大数据、人工智能等技术将仓储以及物流管理自动化和智能化。智能仓储系统可以通过优化仓库运作流程、减少人力成本、提高工作效率、降低操作风险等方式帮助仓储企业提高其运营能力和竞争力。智能供应链协同是智能工厂非常重要的组成部分,其中智能仓储立库是智能供应链的基础,能够有效降低生产成本、提升生产效率、重塑生产方式。 展开更多
关键词 智能仓储 物联网 大数据 管理系统
下载PDF
基于逆向运算法的海量大数据安全存储方法
7
作者 王卓瑜 王磊 +2 位作者 陆婷 苏亮 孙婷 《兵工自动化》 北大核心 2024年第7期23-26,共4页
为解决传统大数据安全存储方法存在的加解密时间长与存储速率低的问题,提出一种基于逆向运算法的海量大数据安全存储方法。通过AES算法中查询表模块、密匙扩展模块及加解密模块的功能设计实现大数据的加密处理;设计一种用于存储加密数... 为解决传统大数据安全存储方法存在的加解密时间长与存储速率低的问题,提出一种基于逆向运算法的海量大数据安全存储方法。通过AES算法中查询表模块、密匙扩展模块及加解密模块的功能设计实现大数据的加密处理;设计一种用于存储加密数据的海量大数据分层存储模型,在加密数据的读取中,通过逆向运算法恢复数据,实现海量大数据的安全存储;搭建Hadoop集群测试环境测试设计方法的加密性能与存储性能。测试结果表明:该方法的加密与解密时间均低于20 s,影像数据存储速度高于580 MB/s,语音数据存储速度高于916 MB/s,能有效缩短大数据存储的加解密时间,提高多类资源的存储速度。 展开更多
关键词 逆向运算法 分布式传感器 海量大数据 安全存储 Rabin指纹算法
下载PDF
分布式存储模式下的数据错误检测方法综述
8
作者 范帅 李晓军 +1 位作者 姚俊萍 王印铭 《中国电子科学研究院学报》 2024年第3期281-295,共15页
数据错误检测是数据质量保证的重要环节,直接关系到数据全生命周期分析结果的可信度。随着云边端数据中心架构应用领域及范围的逐渐扩大,以及网络节点存储计算能力的提升,数据分布式本地存储日益普遍,传统数据集中式存储模式下的数据错... 数据错误检测是数据质量保证的重要环节,直接关系到数据全生命周期分析结果的可信度。随着云边端数据中心架构应用领域及范围的逐渐扩大,以及网络节点存储计算能力的提升,数据分布式本地存储日益普遍,传统数据集中式存储模式下的数据错误检测方法难以适应数据分布式存储模式。基于此,开展分布式存储模式下的数据错误检测方法综述,在数据错误检测问题描述与分类基础上,从技术原理、模型方法、主要进展等角度,对基于传统分布式学习的数据错误检测方法、基于联邦学习框架的数据错误检测方法进行总结分析,比较了二者之间的区别及联系,并展望提出领域相关潜在研究机会及关注问题,为开展分布式存储模式下的数据错误检测及相关研究提供借鉴和参考。 展开更多
关键词 分布式存储 数据错误检测 传统机器学习 联邦学习
下载PDF
调控云架构下的长短期电网运维行为大数据防泄露分布式存储仿真
9
作者 马煜 杨晨辉 隋雨杉 《微型电脑应用》 2024年第7期153-156,167,共5页
为了实现大数据安全体系,对边界安全、访问控制和授权、数据保护、审计和监控提供支持,增强大数据存储的稳定性与安全性,提出调控云架构下的长短期电网运维行为大数据防泄露分布式存储仿真。构建长短期电网运维行为大数据防泄露分布式... 为了实现大数据安全体系,对边界安全、访问控制和授权、数据保护、审计和监控提供支持,增强大数据存储的稳定性与安全性,提出调控云架构下的长短期电网运维行为大数据防泄露分布式存储仿真。构建长短期电网运维行为大数据防泄露分布式存储的调控云架构,采用网格技术构建大数据的分布式存储结构,对网格信息进行分级与调度,通过分类并处理冗余数据降低冗余数据对分布式存储的影响,并采用密度演化结合数据特征压缩的存储方法,实现长短期电网运维行为的数据分布式存储;调控云架构的云安全加密部分通过调控云架构初始化、密钥产生、明文信息加密、密文分布式存储,防止分布式存储大数据泄露。实验结果表明:该方法存储性能好,数据上传速度快,存储过程稳定,能够保证存储数据安全性及计算机系统负载均衡。 展开更多
关键词 云架构 电网运维行为 大数据防泄漏 分布式存储 密度演化 冗余数据
下载PDF
基于大数据技术的非关系型数据库分布式存储方法研究
10
作者 韩烨 《信息与电脑》 2024年第4期166-168,共3页
在当今信息时代,数据的复杂性不断增加,传统的关系型数据库在大规模数据存储和处理方面面临着挑战。非关系型数据库(Not Only SQL,NoSQL)作为一种新的存储和处理数据的方法,受到了广泛关注,并在分布式存储领域取得了显著的成就。文章重... 在当今信息时代,数据的复杂性不断增加,传统的关系型数据库在大规模数据存储和处理方面面临着挑战。非关系型数据库(Not Only SQL,NoSQL)作为一种新的存储和处理数据的方法,受到了广泛关注,并在分布式存储领域取得了显著的成就。文章重点探讨基于大数据技术的非关系型数据库分布式存储方法,并通过实验进行评估,发现其在可扩展性和安全性方面具有优势,可以为相关研究提供参考。 展开更多
关键词 大数据技术 非关系型数据库 分布式存储 数据存储方法 数据处理
下载PDF
计算机工程中的数据处理与有效存储策略分析
11
作者 孟泓羽 《集成电路应用》 2024年第8期422-423,共2页
阐述大数据技术的特点。介绍数据处理的方法、工具以及应用场景,包括数据采集、清洗与预处理、数据挖掘与分析。探讨分布式存储系统、数据库管理系统、数据压缩和优化策略的应用。
关键词 大数据技术 数据清洗 数据挖掘 分布式存储系统
下载PDF
面向大数据的分布式存储与访问优化框架
12
作者 马洒 尹孟洋 《通信电源技术》 2024年第7期225-227,共3页
文章针对大数据时代的存储与访问挑战,提出一种面向大数据的分布式存储与访问优化框架。提出总体框架设计,明确了分布式存储与访问系统的整体架构和功能模块。针对数据存储问题,研究了数据压缩和存储技术的优化方法,以提高存储效率和数... 文章针对大数据时代的存储与访问挑战,提出一种面向大数据的分布式存储与访问优化框架。提出总体框架设计,明确了分布式存储与访问系统的整体架构和功能模块。针对数据存储问题,研究了数据压缩和存储技术的优化方法,以提高存储效率和数据可靠性。针对分布式访问问题,研究了基于负载均衡的数据访问优化方法,以提高系统的整体性能和吞吐量。通过分析和讨论,探讨了方法的特点和改进空间,为分布式存储与访问技术的进一步研究提供了参考。 展开更多
关键词 大数据 分布式存储 小波变换 负载均衡
下载PDF
云计算技术在计算机大数据分析中的应用
13
作者 孔维洋 孔超民 《移动信息》 2024年第4期316-318,共3页
文中针对大规模数据处理和分析中的高成本和计算复杂性问题,探讨了云计算技术的应用策略。首先,介绍了云计算的核心架构及其在大数据存储与管理中的优势,如分布式存储和弹性伸缩能力。其次,分析了云计算在大数据处理和计算中的作用,特... 文中针对大规模数据处理和分析中的高成本和计算复杂性问题,探讨了云计算技术的应用策略。首先,介绍了云计算的核心架构及其在大数据存储与管理中的优势,如分布式存储和弹性伸缩能力。其次,分析了云计算在大数据处理和计算中的作用,特别是对数据处理的高性能计算需求和复杂的分析任务。最后,探讨了云计算环境中大数据分析工具和技术的集成以及如何通过这些集成的工具实现更高效和成本效益更高的数据分析。在处理大规模数据分析中应用云计算技术,能显著降低成本,提高数据处理速度和分析效率,为企业和研究机构提供强大的数据处理和分析能力。 展开更多
关键词 云计算 大数据分析 数据存储与管理 数据处理
下载PDF
基于分布式架构的遥感大数据平台设计与实现
14
作者 李成 《长江信息通信》 2024年第8期114-118,共5页
随着遥感技术能力的日益增强,遥感数据呈现出多元化和海量化,以致产生遥感大数据的存储管理、可视化和挖掘应用问题,导致数据“存而无用”。围绕遥感数据体量巨大、管理标准不统一、计算吞吐密集、应用门槛高的问题,提出一种用于多源海... 随着遥感技术能力的日益增强,遥感数据呈现出多元化和海量化,以致产生遥感大数据的存储管理、可视化和挖掘应用问题,导致数据“存而无用”。围绕遥感数据体量巨大、管理标准不统一、计算吞吐密集、应用门槛高的问题,提出一种用于多源海量遥感数据及基本空间数据的存储管理、计算分析、可视化服务的一体式解决方案,即通过“存储-计算”一体化的分布式软硬件架构,搭建BS与CS混合模式下分布式架构的遥感大数据平台。 展开更多
关键词 遥感大数据 “存储-计算”一体化 分布式架构 BS与CS混合模式
下载PDF
支持大数据管理的NoSQL系统研究综述 被引量:195
15
作者 申德荣 于戈 +2 位作者 王习特 聂铁铮 寇月 《软件学报》 EI CSCD 北大核心 2013年第8期1786-1803,共18页
针对大数据管理的新需求,呈现出了许多面向特定应用的NoSQL数据库系统.针对基于key-value数据模型的NoSQL数据库的相关研究进行综述.首先,介绍了大数据的特点以及支持大数据管理系统面临的关键技术问题;然后,介绍了相关前沿研究和研究挑... 针对大数据管理的新需求,呈现出了许多面向特定应用的NoSQL数据库系统.针对基于key-value数据模型的NoSQL数据库的相关研究进行综述.首先,介绍了大数据的特点以及支持大数据管理系统面临的关键技术问题;然后,介绍了相关前沿研究和研究挑战,其中典型的包括系统体系结构、数据模型、访问方式、索引技术、事务特性、系统弹性、动态负载均衡、副本策略、数据一致性策略、基于flash的多级缓存机制、基于MapReduce的数据处理策略和新一代数据管理系统等;最后给出了研究展望. 展开更多
关键词 NOSQL key-value存储 大数据管理
下载PDF
面向大数据分析的分布式文件系统关键技术 被引量:75
16
作者 周江 王伟平 +3 位作者 孟丹 马灿 古晓艳 蒋杰 《计算机研究与发展》 EI CSCD 北大核心 2014年第2期382-394,共13页
大数据时代的来临使数据分析和处理能力成为数据中心和互联网公司日益倚重的技术手段.信息规模的扩大和数据结构的多样化,使海量数据存储成为大数据分析研究的热点.传统的分布式文件系统在扩展性、可靠性和数据访问性能等方面难以满... 大数据时代的来临使数据分析和处理能力成为数据中心和互联网公司日益倚重的技术手段.信息规模的扩大和数据结构的多样化,使海量数据存储成为大数据分析研究的热点.传统的分布式文件系统在扩展性、可靠性和数据访问性能等方面难以满足新形势下的需求.设计并实现了一个面向大数据分析、专为大规模集群应用的分布式文件系统Clover.该系统采用基于目录划分和一致性Hash映射的名字空间管理方法,解决了元数据扩展性问题;通过改进的两阶段提交协议,保证了多元数据服务器下分布式元数据操作的一致性;提出了基于共享存储池的高可用机制,通过热备和全局状态恢复机制提高了元数据的可靠性.评测结果表明,Clover的元数据处理能力随服务器的数量线性增长,增加单个服务器的元数据操作性能平均提升了5.13%~159.32%.由于名字空间管理和分布式事务的开销,多元数据服务器会导致复杂操作的性能下降,但是这种下降的幅度很小(小于10%).与HDFS相比,Clover的文件读写带宽与之接近,并能够保证在元数据服务器失效后文件系统快速恢复,适合于构建高可扩展和高可用的存储系统. 展开更多
关键词 大数据 海量数据存储 分布式文件系统 元数据可扩展性 高可用性
下载PDF
基于Hadoop的海量农业数据资源管理平台 被引量:34
17
作者 杨锋 吴华瑞 +2 位作者 朱华吉 张海辉 孙想 《计算机工程》 CAS CSCD 北大核心 2011年第12期242-244,共3页
使用传统分布式数据库架构存储和管理海量农业数据存在资源效率不高及存储能力不足的问题,为此,在Hadoop的基础上研究海量农业数据资源组织存储与检索技术,提出基于Hadoop的大文件分块存储方法和海量农业数据资源检索方法。测试及实践... 使用传统分布式数据库架构存储和管理海量农业数据存在资源效率不高及存储能力不足的问题,为此,在Hadoop的基础上研究海量农业数据资源组织存储与检索技术,提出基于Hadoop的大文件分块存储方法和海量农业数据资源检索方法。测试及实践结果表明,该方法为构建海量农业数据资源管理平台提供了支持,实现了海量农业数据资源高效的组织和管理。 展开更多
关键词 海量农业数据 管理平台 分布式存储 元数据 资源检索
下载PDF
智能配用电大数据存储架构设计 被引量:68
18
作者 葛磊蛟 王守相 瞿海妮 《电力自动化设备》 EI CSCD 北大核心 2016年第6期194-202,共9页
针对智能配用电数据海量、高维度、多源异构等特点,提出一种大数据存储的三层管理框架设计方案。首先,对智能配用电数据组成进行分类划分。然后,提出智能配用电数据存储的资源层、元数据层和实际数据层的三层管理框架,在资源管理层,应... 针对智能配用电数据海量、高维度、多源异构等特点,提出一种大数据存储的三层管理框架设计方案。首先,对智能配用电数据组成进行分类划分。然后,提出智能配用电数据存储的资源层、元数据层和实际数据层的三层管理框架,在资源管理层,应用虚拟化技术、负载均衡和资源调度完成对物理资源的管理;在元数据管理层,使用数据预处理技术对智能配用电的元数据进行分类,采用中间件技术完成XML元数据仓库管理;在实际数据管理层,利用NoSQL技术,通过Map和Reduce的有效结合,完成海量数据的分层分区快速存储。最后,在实验室环境下对该设计方案进行初步的应用,验证了所设计方案能够对结构化、半结构化和非结构化数据进行统一存储,可为智能配用电大数据技术的应用提供基础支撑作用。 展开更多
关键词 大数据 海量数据 框架设计 智能配用电 数据处理 存储
下载PDF
基于PCM的大数据存储与管理研究综述 被引量:28
19
作者 吴章玲 金培权 +1 位作者 岳丽华 孟小峰 《计算机研究与发展》 EI CSCD 北大核心 2015年第2期343-361,共19页
大数据已经成为当前学术界和工业界的一个研究热点.但由于计算机系统架构的限制,大数据存储与管理在性能、能耗等方面均面临着巨大的挑战.近年来,一种新型存储介质——相变存储器(phase Change Memory,PCM)——凭着其非易失、字节可寻... 大数据已经成为当前学术界和工业界的一个研究热点.但由于计算机系统架构的限制,大数据存储与管理在性能、能耗等方面均面临着巨大的挑战.近年来,一种新型存储介质——相变存储器(phase Change Memory,PCM)——凭着其非易失、字节可寻址、读取速度快、低能耗等诸多优点,为计算机存储体系结构和数据管理设计带来了新的技术变革前景,也为大数据存储和管理带来了新的契机.PCM既是一种非易失存储介质,同时又具备了内存的字节可寻址和高速随机访问特性,模糊了主存和外存的界限,有望突破原有的存储体系架构,实现更高性能的存储与数据管理.概述了PCM存储器的发展现状;总结了目前基于PCM的持久存储技术和基于PCM的主存系统等方面的研究进展;并讨论了PCM在多个领域的应用现状.最后,给出了基于PCM的大数据存储与管理研究的若干未来发展方向,从而为构建新型存储架构下的大数据存储与管理技术提供有价值的参考. 展开更多
关键词 相变存储器 主存系统 混合主存 大数据管理 大数据存储
下载PDF
气象大数据存储体系设计与实现 被引量:24
20
作者 徐拥军 何文春 +1 位作者 刘媛媛 王琦 《电子测量技术》 2020年第22期19-25,共7页
为满足天气预报、气候预测、决策服务和公众服务等气象业务对海量气象数据存储与服务的需求,实现气象业务集约化的目标。基于业务数据应用特征,结合多种分布式存储技术,设计了一套气象大数据存储体系。通过规范数据存储结构,利用数据同... 为满足天气预报、气候预测、决策服务和公众服务等气象业务对海量气象数据存储与服务的需求,实现气象业务集约化的目标。基于业务数据应用特征,结合多种分布式存储技术,设计了一套气象大数据存储体系。通过规范数据存储结构,利用数据同步、分级存储以及数据服务接口等方面的关键技术,解决了气象数据在分布式异构存储技术间的统一管理和服务的问题。经过应用实践证明,气象大数据存储系统存储能力达到了30 PB,数据分级管理流程高效,数据统一服务响应时效在1 s以内,具备直接支撑气象业务的能力。 展开更多
关键词 分布式存储 气象大数据 数据同步 分级存储 数据统一服务
下载PDF
上一页 1 2 13 下一页 到第
使用帮助 返回顶部