期刊文献+
共找到590篇文章
< 1 2 30 >
每页显示 20 50 100
超大规模数据处理中并行计算技术的应用研究 被引量:1
1
作者 杨多海 《科技创新与应用》 2024年第17期181-184,共4页
随着人工智能和大数据时代的到来,超大规模数据处理成了一个重要的研究领域。该文主要探讨并行计算技术在超大规模数据处理中的应用,首先详细阐述并行计算和超大规模数据处理的基本理论与概念,特别是并行计算的编程模型与工具,最后通过... 随着人工智能和大数据时代的到来,超大规模数据处理成了一个重要的研究领域。该文主要探讨并行计算技术在超大规模数据处理中的应用,首先详细阐述并行计算和超大规模数据处理的基本理论与概念,特别是并行计算的编程模型与工具,最后通过分析并行计算在搜索引擎、气象预报和金融分析等中的实际案例,阐述并行计算技术在超大规模数据处理中的实际应用。 展开更多
关键词 并行计算技术 大规模数据处理 编程模型与工具 实际案例 具体应用
下载PDF
MapReduce模型在大规模数据并行挖掘中的应用
2
作者 唐婧 杜微 周翼 《智能物联技术》 2024年第2期38-42,共5页
MapReduce并行编程模型通过定义良好的接口和运行支持库,能够自动并行执行大规模计算任务,隐藏底层实现细节,降低并行编程的难度。系统阐述MapReduce的基本工作原理及其工作流程,以TeraSort算法为例,针对其存在的问题,提出动态数据分区... MapReduce并行编程模型通过定义良好的接口和运行支持库,能够自动并行执行大规模计算任务,隐藏底层实现细节,降低并行编程的难度。系统阐述MapReduce的基本工作原理及其工作流程,以TeraSort算法为例,针对其存在的问题,提出动态数据分区和数据压缩等优化建议。研究成果表明,优化后的TeraSort算法能够显著缩短数据处理时间,优化系统的吞吐量,并改善资源分配的均衡性。 展开更多
关键词 MAPREDUCE 大规模数据 并行挖掘 TeraSort
下载PDF
基于三阶张量的大规模数据谱聚类集成算法
3
作者 仵匀政 杜韬 +2 位作者 周劲 陈迪 王心耕 《大数据》 2024年第3期133-148,共16页
为了降低大规模数据谱聚类计算负担,进一步提高聚类的准确性和鲁棒性,提出了一种基于三阶张量的大规模数据谱聚类集成算法。首先,提出一种混合代表最近邻近似方法构造数据间的稀疏亲和子矩阵;然后将稀疏亲和子矩阵表示为二部图,通过图... 为了降低大规模数据谱聚类计算负担,进一步提高聚类的准确性和鲁棒性,提出了一种基于三阶张量的大规模数据谱聚类集成算法。首先,提出一种混合代表最近邻近似方法构造数据间的稀疏亲和子矩阵;然后将稀疏亲和子矩阵表示为二部图,通过图分割的方法得到初步聚类结果;最后,提出三阶张量集成方法,将多个聚类结果进行融合,得到最终的聚类结果。在大规模的真实数据集和合成数据集上验证,相较经典的谱聚类算法、聚类集成算法以及近年来对其改进的算法,该算法表现出更优异的性能。 展开更多
关键词 数据聚类 大规模数据 谱聚类 三阶张量 聚类集成
下载PDF
云计算环境下大规模数据存储技术分析
4
作者 李纪鑫 《信息记录材料》 2024年第1期188-190,共3页
在大规模数据存储中,云计算技术的应用受到广泛重视。分析了云计算环境下大规模数据存储技术的应用价值,并提出了蒙特卡洛(Monte Carlo, MC)算法、并行高级加密标准(advanced encryption standard, AES)算法、双链存储模型、关系数据库... 在大规模数据存储中,云计算技术的应用受到广泛重视。分析了云计算环境下大规模数据存储技术的应用价值,并提出了蒙特卡洛(Monte Carlo, MC)算法、并行高级加密标准(advanced encryption standard, AES)算法、双链存储模型、关系数据库技术的数据存储和查询方法。经过研究结果显示,采用云计算大规模数据存储技术,提升数据存储的弹性扩展性能,具有高可用性和容错性、安全和隐私保护性、数据分析和挖掘等价值,能够明显改善数据存储和处理的效果。 展开更多
关键词 云计算环境 大规模数据 存储技术
下载PDF
数据挖掘算法在大规模数据集上的高性能计算实现与效果评估
5
作者 曾小莉 陈凤 《数字技术与应用》 2024年第9期192-194,共3页
本文以“数据挖掘算法在大规模数据集上的高性能计算实现与效果评估”为主题,针对当今大规模数据集背景下,数据挖掘算法在计算性能方面面临的挑战,提出了一种高效的计算实现方法,并对其在实际应用中的效果进行了评估。文章从算法层面入... 本文以“数据挖掘算法在大规模数据集上的高性能计算实现与效果评估”为主题,针对当今大规模数据集背景下,数据挖掘算法在计算性能方面面临的挑战,提出了一种高效的计算实现方法,并对其在实际应用中的效果进行了评估。文章从算法层面入手,通过优化算法结构和设计,提升了算法在大规模数据集上的计算效率,同时基于高性能计算平台,对优化后的算法进行了实际部署,确保了其在大规模数据集上能够快速、稳定地运行。通过对多个真实场景的数据集进行实验验证,充分评估了所提方法在不同应用场景下的性能表现,验证了其在大规模数据集上具有显著的计算效果。 展开更多
关键词 大规模数据 高性能计算 数据挖掘算法 真实场景 计算性能 效果评估 计算效果 优化算法
下载PDF
基于量子计算的输变电系统大规模数据处理与智能决策研究
6
作者 朱锴杰 闵景业 施磊 《电气技术与经济》 2024年第9期328-330,共3页
随着电力系统发展,输变电系统的数据处理与决策日益复杂,传统方法难以满足需求。因此,本研究引入量子计算,利用其强大的并行计算能力和高效优化算法,应对大规模数据处理挑战。针对输变电特点,提出基于量子计算的智能决策方法。该方法能... 随着电力系统发展,输变电系统的数据处理与决策日益复杂,传统方法难以满足需求。因此,本研究引入量子计算,利用其强大的并行计算能力和高效优化算法,应对大规模数据处理挑战。针对输变电特点,提出基于量子计算的智能决策方法。该方法能高效处理海量数据,准确识别系统故,并提供优化决策方案。此外,文章还探讨了量子计算在电力系统负荷预测、电网规划等领域的应潜力。实验结果表明,量子计算在处理输变电大规模数据时优势明显,能提高数据处理的准确性和效率,为电力系统的稳定运行和智能化管理提供支持,为输变电大规模数据处理与智能决策提供新的解决方案,奠定了量子计算在电力系统中的应用基础。 展开更多
关键词 量子计算 输变电系统 大规模数据处理 智能决策 并行计算
下载PDF
基于云计算的大规模数据分析与处理
7
作者 刘国华 《微型计算机》 2024年第4期43-45,共3页
伴随着互联网及大数据技术的飞速发展,云计算已逐渐成为当今社会广泛关注的热点,云计算为海量数据的存储、处理及分析提供了全新的解决方案。本文着重探讨了基于云计算的大规模数据分析与处理技术,深入剖析了云计算在数据处理领域的优... 伴随着互联网及大数据技术的飞速发展,云计算已逐渐成为当今社会广泛关注的热点,云计算为海量数据的存储、处理及分析提供了全新的解决方案。本文着重探讨了基于云计算的大规模数据分析与处理技术,深入剖析了云计算在数据处理领域的优势与应用背景,并对面临的挑战与解决方案进行了详尽阐述。本文意在为大数据时代的发展提供有益的借鉴与启示,以助力云计算与大数据领域的创新与发展。 展开更多
关键词 云计算 大规模数据 数据分析 数据处理
下载PDF
基于云计算的大规模数据处理算法优化分析
8
作者 沈毅 《集成电路应用》 2024年第6期116-117,共2页
阐述提升数据算法运行速度的策略,介绍基于云计算技术的大规模数据处理算法,包括数据处理算法分类、大规模数据处理算法特点。针对云计算环境下数据处理挑战,提出算法优化方案。
关键词 云计算 大规模数据处理 算法优化 数据处理效率
下载PDF
软件测试中大规模数据爬取和测试方法研究
9
作者 毛怡明 《电脑编程技巧与维护》 2024年第3期94-96,103,共4页
大规模数据测试已成为现代软件开发领域不可或缺的一部分。研究强调了数据爬取技术的关键作用,以获取大规模数据用于测试。首先,选择合适的数据源,然后开发或配置数据爬取工具,以有效地收集数据,最后,进行数据清洗和预处理,包括:去噪、... 大规模数据测试已成为现代软件开发领域不可或缺的一部分。研究强调了数据爬取技术的关键作用,以获取大规模数据用于测试。首先,选择合适的数据源,然后开发或配置数据爬取工具,以有效地收集数据,最后,进行数据清洗和预处理,包括:去噪、数据格式化和标准化,以确保测试数据的质量和一致性。测试数据生成是测试的关键组成部分,可通过随机选择样本或数据驱动方法生成测试用例。在性能测试方面,负载测试和性能分析辅助评估软件在大规模数据集下的性能。安全性测试涵盖恶意数据攻击模拟和漏洞扫描,以确保应用程序的安全性。综合而言,大规模数据测试策略必须综合考虑性能、正确性和安全性,以确保软件在应对大规模数据时的稳定性和可靠性。 展开更多
关键词 大规模数据测试 数据爬取 测试数据生成 性能测试
下载PDF
针对高速数据流的大规模数据实时处理方法 被引量:95
10
作者 亓开元 赵卓峰 +1 位作者 房俊 马强 《计算机学报》 EI CSCD 北大核心 2012年第3期477-490,共14页
以实时传感数据和历史感知数据为基础的各类计算需求逐渐成为当前物联网应用建设中的关键,如何实现基于高速数据流和大规模历史数据的实时计算成为数据处理领域的新挑战.现有批处理方式的MapReduce大规模数据处理技术难以满足此类计算... 以实时传感数据和历史感知数据为基础的各类计算需求逐渐成为当前物联网应用建设中的关键,如何实现基于高速数据流和大规模历史数据的实时计算成为数据处理领域的新挑战.现有批处理方式的MapReduce大规模数据处理技术难以满足此类计算的实时要求.文中结合城市车辆数据的实时采集与处理应用,在理论和实践分析的基础上,提出了一种针对高速数据流的大规模数据实时处理方法,并对方法中的本地阶段化流水线、中间结果缓存等关键技术瓶颈进行了改进.其中,根据系统参数控制阶段化流水线,使CPU得到了充分、有效利用;通过改造内外存数据结构、读写策略和替换算法,优化了本地中间结果的高并发读写性能.实验表明,上述方法可以显著提升大规模历史数据上数据流处理的实时性和可伸缩性. 展开更多
关键词 数据流处理 大规模数据处理 MAPREDUCE 物联网 数据 云计算
下载PDF
云计算模型在铁路大规模数据处理中的应用 被引量:22
11
作者 刘真 刘峰 +2 位作者 张宝鹏 马飞 高石玉 《北京交通大学学报》 CAS CSCD 北大核心 2010年第5期14-19,共6页
对铁路行业的计算资源、数据处理进行了特征分析.探讨了云计算模型中的虚拟化技术在铁路计算资源整合及MapReduce编程模型在大规模数据处理中的应用模式.采用Hadoop开源平台和Intel的虚拟化管理平台Tashi,提出和实现了基于云计算技术的... 对铁路行业的计算资源、数据处理进行了特征分析.探讨了云计算模型中的虚拟化技术在铁路计算资源整合及MapReduce编程模型在大规模数据处理中的应用模式.采用Hadoop开源平台和Intel的虚拟化管理平台Tashi,提出和实现了基于云计算技术的铁路数据处理框架模型,并通过大规模的货票数据处理实例验证了框架模型的可扩展性和高效性. 展开更多
关键词 云计算 虚拟化 MAPREDUCE 大规模数据处理
下载PDF
一个面向大规模数据库的数据挖掘系统 被引量:28
12
作者 钱卫宁 魏藜 +2 位作者 王焱 钱海蕾 周傲英 《软件学报》 EI CSCD 北大核心 2002年第8期1540-1545,共6页
数据挖掘融合了数据库技术、人工智能和统计学,是目前的研究热点.为了能够集成当前数据挖掘的主要技术并使它们协同工作,在进行数据挖掘基本算法研究的基础上研制开发了一个数据挖掘系统——Golden-Eye.系统实现了在数据挖掘研究中的一... 数据挖掘融合了数据库技术、人工智能和统计学,是目前的研究热点.为了能够集成当前数据挖掘的主要技术并使它们协同工作,在进行数据挖掘基本算法研究的基础上研制开发了一个数据挖掘系统——Golden-Eye.系统实现了在数据挖掘研究中的一些最新成果,集成了泛化、数据清洗这两个数据准备操作以及关联规则发现、例外规则发现、时序模式发现、分类器构造、聚类分析等基本数据挖掘操作,并实现了对挖掘操作的基本管理和结果的图形化显示.整个框架设计充分体现了系统的完整性、协调性和高效性:自底向上将存储控制模块、数据预处理模块、挖掘操作模块、挖掘库管理模块有机地结合在一起,在底层实现了对包括中间结果在内的数据的统一管理,在上层为用户提供了可视化的界面.实验结果表明,该系统能够在大规模数据库上成功地完成用户所指定的数据挖掘操作. 展开更多
关键词 大规模数据 数据挖掘系统 数据预处理 存储控制 知识发现
下载PDF
一种解决大规模数据集问题的核主成分分析算法 被引量:21
13
作者 史卫亚 郭跃飞 薛向阳 《软件学报》 EI CSCD 北大核心 2009年第8期2153-2159,共7页
提出一种大规模数据集求解核主成分的计算方法.首先使用Gram矩阵生成一个Gram-power矩阵,根据线性代数的理论可知,新形成的矩阵和原先的Gram矩阵具有相同的特征向量.因此,可以把Gram矩阵的每一列看成核空间迭代算法的输入样本,这样,无... 提出一种大规模数据集求解核主成分的计算方法.首先使用Gram矩阵生成一个Gram-power矩阵,根据线性代数的理论可知,新形成的矩阵和原先的Gram矩阵具有相同的特征向量.因此,可以把Gram矩阵的每一列看成核空间迭代算法的输入样本,这样,无须使用特征分解即可迭代地计算出核主成分.该算法的空间复杂度只有O(m);在大规模数据集的情况下,时间复杂度也降低为O(pkm).实验结果表明了所提出算法的有效性.更为重要的是,在大规模数据集的情况下,当传统的特征分解技术无法使用时,该方法仍然可以提取非线性特征. 展开更多
关键词 核主成分分析 GRAM矩阵 大规模数据 协方差无关 特征分解
下载PDF
一种支持大规模数据的多维可视化分析框架 被引量:10
14
作者 游进国 杨卓荦 +1 位作者 胡建华 奚建清 《计算机工程》 CAS CSCD 北大核心 2011年第19期26-27,31,共3页
以Hadoop为代表的可扩展大规模数据库难以进行多维可视化分析。为此,设计基于B/S架构的可视化分析框架Bizard。数据模型通过封装底层数据接口以支持业界多维数据访问协议XMLA,从而在展现层易于接入支持XMLA的传统分析工具,同时采用视图... 以Hadoop为代表的可扩展大规模数据库难以进行多维可视化分析。为此,设计基于B/S架构的可视化分析框架Bizard。数据模型通过封装底层数据接口以支持业界多维数据访问协议XMLA,从而在展现层易于接入支持XMLA的传统分析工具,同时采用视图物化技术提高分析性能,利用互联网技术丰富用户分析体验。实验结果表明,该框架能在高达千万条记录级的数据上进行多维可视化分析。 展开更多
关键词 数据仓库 可视化分析 Hadoop软件 大规模数据 XMLA协议
下载PDF
激光聚变数值模拟中的大规模数据可视分析 被引量:6
15
作者 肖丽 曹小林 +3 位作者 王华维 艾志玮 刘旭 郭红 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2014年第5期675-686,共12页
数值模拟是激光聚变物理研究的重要手段.在千万亿次计算机上,实际模拟输出的数据具有规模大、数据结构复杂等特征;其网格单元数达到数十亿,单时间步数据量达数十GB,并涵盖多块变形结构网格、多层自适应网格等复杂网格类型.针对这些特征... 数值模拟是激光聚变物理研究的重要手段.在千万亿次计算机上,实际模拟输出的数据具有规模大、数据结构复杂等特征;其网格单元数达到数十亿,单时间步数据量达数十GB,并涵盖多块变形结构网格、多层自适应网格等复杂网格类型.针对这些特征,围绕激光聚变物理分析需求,着眼于可视分析过程的各个方面,系统地研究了复杂数据分解、可扩展的并行可视分析流程、数值模拟与可视分析高效耦合模式、高表现力的可视化方法等4项关键技术;并通过4个大规模实际模拟结果的可视分析来验证研究成果的有效性. 展开更多
关键词 大规模数据 数据分析 可视化 数值模拟 激光聚变
下载PDF
面向大规模数据集的近邻传播聚类 被引量:8
16
作者 谷瑞军 汪加才 +1 位作者 陈耿 陈圣磊 《计算机工程》 CAS CSCD 北大核心 2010年第23期22-24,共3页
近邻传播聚类在计算过程中需构建相似度矩阵,该矩阵的规模随样本数急剧增长,限制了算法在大规模数据集上的直接应用。为此,提出一种改进的近邻传播聚类算法,利用数据点的局部分布,借鉴半监督聚类的思想构造稀疏化的相似度矩阵,并对聚类... 近邻传播聚类在计算过程中需构建相似度矩阵,该矩阵的规模随样本数急剧增长,限制了算法在大规模数据集上的直接应用。为此,提出一种改进的近邻传播聚类算法,利用数据点的局部分布,借鉴半监督聚类的思想构造稀疏化的相似度矩阵,并对聚类结果中的簇代表点再次或多次聚类,直至得到合适的簇划分。实验结果表明,该算法在处理能力和运算速度上优于原算法。 展开更多
关键词 近邻传播聚类 大规模数据 数据挖掘
下载PDF
大规模数据密集型系统中的去重查询优化 被引量:6
17
作者 宋怀明 安明远 +2 位作者 王洋 袁春阳 孙凝晖 《计算机研究与发展》 EI CSCD 北大核心 2010年第4期581-588,共8页
针对shared-nothing结构下大规模数据密集型系统去重查询的挑战,提出了一种有效的数据分布策略和并行处理方法分别对相关属性和无关属性去重进行优化:即自适应的散列和直方图相结合的数据分布策略,以及异步式并行查询中间件.前者在数据... 针对shared-nothing结构下大规模数据密集型系统去重查询的挑战,提出了一种有效的数据分布策略和并行处理方法分别对相关属性和无关属性去重进行优化:即自适应的散列和直方图相结合的数据分布策略,以及异步式并行查询中间件.前者在数据写入时保证数据均衡,并在数据量发生倾斜时自动调整数据的分布;后者充分发掘了去重查询处理中的粗粒度流水级并行,并消除了多节点同步等待的开销,尽早地返回结果.在生产系统DBroker上的测试表明,数据分布策略极大地改善相关属性的去重查询性能,而异步式并行查询引擎能够充分发掘并行性,对不相关属性的去重查询具有显著的性能提升. 展开更多
关键词 去重查询 数据划分 大规模数据密集型系统 异步查询 并行查询引擎
下载PDF
一种聚簇消减大规模数据的支持向量分类算法 被引量:10
18
作者 陈光喜 徐健 成彦 《计算机科学》 CSCD 北大核心 2009年第3期184-188,共5页
针对支持向量分类机对大规模数据集训练速度慢的瓶颈,提出一种聚簇消减数据集方法。首先建立样本中心距离函数,计算聚簇集的比例半径,然后利用聚簇集镜像扫描样本点确定簇集类,同一类样本特性的聚簇集中只保留代表样本点,建立异类点删... 针对支持向量分类机对大规模数据集训练速度慢的瓶颈,提出一种聚簇消减数据集方法。首先建立样本中心距离函数,计算聚簇集的比例半径,然后利用聚簇集镜像扫描样本点确定簇集类,同一类样本特性的聚簇集中只保留代表样本点,建立异类点删除矩阵,通过上述方法消减样本集。证明了这种簇消减算法有较低的时间复杂度,并利用实验说明了保留代表点的有效意义。最后通过随机数据和UCI标准数据库验证了算法在保证分类精度的同时提高了分类速度。 展开更多
关键词 支持向量机 聚簇集 大规模数据 训练速度
下载PDF
面向大规模数据的快速并行聚类划分算法研究 被引量:22
19
作者 牛新征 佘堃 《计算机科学》 CSCD 北大核心 2012年第1期134-137,151,共5页
随着聚类分析中处理数据量的急剧增加,面对大规模数据,传统K-Means聚类算法面临着巨大挑战。为了提高传统K-Means聚类算法的效率,针对已有基于MPI的并行K-Means聚类算法和基于Hadoop的分布式K-Means云聚类算法,从聚心初始化和通信模式... 随着聚类分析中处理数据量的急剧增加,面对大规模数据,传统K-Means聚类算法面临着巨大挑战。为了提高传统K-Means聚类算法的效率,针对已有基于MPI的并行K-Means聚类算法和基于Hadoop的分布式K-Means云聚类算法,从聚心初始化和通信模式等入手,提出了改进思路和具体实现。实验结果表明,所提算法能大大减少通信量和计算量,具有较高的执行效率。研究结果可以为以后设计更好的大规模数据快速并行聚类划分算法提供研究依据。 展开更多
关键词 云计算 K-MEANS 大规模数据 MPI HADOOP
下载PDF
一种有效的大规模数据的分类方法 被引量:7
20
作者 张艳宁 赵荣椿 梁怡 《电子学报》 EI CAS CSCD 北大核心 2002年第10期1533-1535,共3页
本文提出了一种基于自组织特征映射神经网络 (SOM)和支撑矢量机 (SVM)相结合的复杂模式的大规模数据的分类方法 .该方法首先利用自组织特征映射神经网络对待识目标进行聚类 ,然后应用支撑矢量机方法对其进行分类识别 .通过对复杂异或 (X... 本文提出了一种基于自组织特征映射神经网络 (SOM)和支撑矢量机 (SVM)相结合的复杂模式的大规模数据的分类方法 .该方法首先利用自组织特征映射神经网络对待识目标进行聚类 ,然后应用支撑矢量机方法对其进行分类识别 .通过对复杂异或 (XOR)分类问题 ,以及实际的Iris和Appendicitis数据分类问题等的分类实验 ,且与仅用支撑矢量机的分类方法比较 ,结果表明 ,本文提出的方法对复杂模式的大规模数据的分类识别问题具有较好的效果 ,且训练时间大幅度减小 . 展开更多
关键词 自组织特征映射神经网络 支撑矢量机 大规模数据 模式分类 SOM SVM
下载PDF
上一页 1 2 30 下一页 到第
使用帮助 返回顶部