期刊文献+
共找到159篇文章
< 1 2 8 >
每页显示 20 50 100
Bayesian Inference of Spatially Correlated Binary Data Using Skew-Normal Latent Variables with Application in Tooth Caries Analysis
1
作者 Solaiman Afroughi 《Open Journal of Statistics》 2015年第2期127-139,共13页
The analysis of spatially correlated binary data observed on lattices is an interesting topic that catches the attention of many scholars of different scientific fields like epidemiology, medicine, agriculture, biolog... The analysis of spatially correlated binary data observed on lattices is an interesting topic that catches the attention of many scholars of different scientific fields like epidemiology, medicine, agriculture, biology, geology and geography. To overcome the encountered difficulties upon fitting the autologistic regression model to analyze such data via Bayesian and/or Markov chain Monte Carlo (MCMC) techniques, the Gaussian latent variable model has been enrolled in the methodology. Assuming a normal distribution for the latent random variable may not be realistic and wrong, normal assumptions might cause bias in parameter estimates and affect the accuracy of results and inferences. Thus, it entails more flexible prior distributions for the latent variable in the spatial models. A review of the recent literature in spatial statistics shows that there is an increasing tendency in presenting models that are involving skew distributions, especially skew-normal ones. In this study, a skew-normal latent variable modeling was developed in Bayesian analysis of the spatially correlated binary data that were acquired on uncorrelated lattices. The proposed methodology was applied in inspecting spatial dependency and related factors of tooth caries occurrences in a sample of students of Yasuj University of Medical Sciences, Yasuj, Iran. The results indicated that the skew-normal latent variable model had validity and it made a decent criterion that fitted caries data. 展开更多
关键词 Spatial data LATENT Variable Autologistic Model skew-NORMAL Distribution BAYESIAN INFERENCE TOOTH CARIES
下载PDF
面向负载均衡的动态均衡分区策略
2
作者 杨迪 赵家伟 +1 位作者 王鹏 赵建平 《计算机应用与软件》 北大核心 2024年第8期46-52,共7页
针对MapReduce计算框架处理倾斜数据集时造成Reduce端出现负载不均衡现象,提出一种动态均衡分区策略。在mapper阶段提出基于分治法的数据切分原则处理任务传入的数据组;结合最佳适应算法思想设计动态分配原则逐步将切分后的数据块均衡... 针对MapReduce计算框架处理倾斜数据集时造成Reduce端出现负载不均衡现象,提出一种动态均衡分区策略。在mapper阶段提出基于分治法的数据切分原则处理任务传入的数据组;结合最佳适应算法思想设计动态分配原则逐步将切分后的数据块均衡分配到预分区链表中;根据分区索引分配到各Reduce节点上实现负载均衡。实验结果显示,动态均衡分区策略与两个基准模型相比任务执行时长平均降低了7.7%,表明动态均衡分区策略更好地解决了数据倾斜问题,降低了任务执行时间,验证了模型的有效性。 展开更多
关键词 MAPREDUCE 负载均衡 数据倾斜 数据分区
下载PDF
基于优先填补策略的Spark数据均衡分区方法
3
作者 何玉林 吴东彤 +1 位作者 Philippe Fournier-Viger 黄哲学 《电子学报》 EI CAS CSCD 北大核心 2024年第10期3322-3335,共14页
Spark作为基于内存计算的分布式大数据处理框架,运行速度快且通用性强.在任务计算过程中,Spark的默认分区器HashPartitioner在处理倾斜数据时,容易产生各个分区数据量不平衡的情况,导致资源利用率低且运行效率差.现存的Spark均衡分区改... Spark作为基于内存计算的分布式大数据处理框架,运行速度快且通用性强.在任务计算过程中,Spark的默认分区器HashPartitioner在处理倾斜数据时,容易产生各个分区数据量不平衡的情况,导致资源利用率低且运行效率差.现存的Spark均衡分区改进方法,例如多阶段分区、迁移分区和采样分区等,大多存在尺度把控难、通信开销成本高、对采样过度依赖等缺陷.为改善上述问题,本文提出了一种基于优先填补策略的分区方法,同时考虑了样本数据和非样本数据的分配,以便实现对全部数据的均衡分区.该方法在对数据采样并根据样本信息估算出每个键的权值后,将键按照权值大小降序排列,依次将键在满足分区容忍度的条件下分配到前面的分区中,为未被采样的键预留后面的分区空间,以获得针对样本数据的分区方案.Spark根据分区方案对样本中出现的键对应的数据进行分区,没有出现的键对应的数据则直接映射到可分配的最后一个分区中.实验结果表明,新分区方法能够有效实现Spark数据的均衡分区,在美国运输统计局发布的真实航空数据集上,基于该方法设计的优先填补分区器的总运行时间比HashPartitioner平均缩短了15.3%,比现有的均衡数据分区器和哈希键值重分配分区器分别平均缩短了38.7%和30.2%. 展开更多
关键词 均衡分区 优先填补策略 数据倾斜 Spark算子 大数据
下载PDF
Run-Time Dynamic Resource Adjustment for Mitigating Skew in MapReduce 被引量:2
4
作者 Zhihong Liu Shuo Zhang +2 位作者 Yaping Liu Xiangke Wang Dong Yin 《Computer Modeling in Engineering & Sciences》 SCIE EI 2021年第2期771-790,共20页
MapReduce is a widely used programming model for large-scale data processing.However,it still suffers from the skew problem,which refers to the case in which load is imbalanced among tasks.This problem can cause a sma... MapReduce is a widely used programming model for large-scale data processing.However,it still suffers from the skew problem,which refers to the case in which load is imbalanced among tasks.This problem can cause a small number of tasks to consume much more time than other tasks,thereby prolonging the total job completion time.Existing solutions to this problem commonly predict the loads of tasks and then rebalance the load among them.However,solutions of this kind often incur high performance overhead due to the load prediction and rebalancing.Moreover,existing solutions target the partitioning skew for reduce tasks,but cannot mitigate the computational skew for map tasks.Accordingly,in this paper,we present DynamicAdjust,a run-time dynamic resource adjustment technique for mitigating skew.Rather than rebalancing the load among tasks,DynamicAdjust monitors the run-time execution of tasks and dynamically increases resources for those tasks that require more computation.In so doing,DynamicAdjust can not only eliminate the overhead incurred by load prediction and rebalancing,but also culls both the partitioning skew and the computational skew.Experiments are conducted based on a 21-node real cluster using real-world datasets.The results show that DynamicAdjust can mitigate the negative impact of the skew and shorten the job completion time by up to 40.85%. 展开更多
关键词 MAPREDUCE task scheduling resource allocation data skew big data
下载PDF
A Granularity-Aware Parallel Aggregation Method for Data Streams
5
作者 WANG Yong-li XU Hong-bing XU Li-zhen QIAN Jiang-bo LIU Xue-jun 《Wuhan University Journal of Natural Sciences》 EI CAS 2006年第1期133-137,共5页
This paper focuses on the parallel aggregation processing of data streams based on the shared-nothing architecture. A novel granularity-aware parallel aggregating model is proposed. It employs parallel sampling and li... This paper focuses on the parallel aggregation processing of data streams based on the shared-nothing architecture. A novel granularity-aware parallel aggregating model is proposed. It employs parallel sampling and linear regression to describe the characteristics of the data quantity in the query window in order to determine the partition granularity of tuples, and utilizes equal depth histogram to implement partitio ning. This method can avoid data skew and reduce communi cation cost. The experiment results on both synthetic data and actual data prove that the proposed method is efficient, practical and suitable for time-varying data streams processing. 展开更多
关键词 data streams parallel processing linear regression AGGREGATION data skew
下载PDF
一款0.16 mm^(2)基于180 nm CMOS采用全局去偏斜的半速率8×2.5 Gb/s时钟转发架构接收机
6
作者 杨力宏 李世新 +4 位作者 韩晨曦 云越恒 刘术彬 赵潇腾 朱樟明 《集成电路与嵌入式系统》 2024年第4期1-9,共9页
在时钟转发架构的高速有线通信接收机中,需要去偏斜电路实现时钟与数据之间的最佳采样关系,并保证多路数据的同步。本文提出了一种全局去偏斜方案,仅采用一路数据与时钟进行对齐,并通过时钟延时匹配与分布技术实现多路数据同步,减小了... 在时钟转发架构的高速有线通信接收机中,需要去偏斜电路实现时钟与数据之间的最佳采样关系,并保证多路数据的同步。本文提出了一种全局去偏斜方案,仅采用一路数据与时钟进行对齐,并通过时钟延时匹配与分布技术实现多路数据同步,减小了各通道独立去偏斜方案带来的功耗与面积开销。所提出的接收机由8路数据通道、1路半速率转发时钟通道与基于延迟锁定环路的全局去偏斜电路构成。基于180 nm CMOS工艺,在2.5 Gb/s数据率下,可去除输入时钟与数据任意偏斜,得到位于数据中心的采样相位,同时具有时钟占空比校准能力。在1.8 V电源电压下,所提出的接收机总功耗为187 mW,总面积为0.16 mm^(2),对比各通道独立去偏斜方案,功耗和面积开销分别节约了45.2%与62.8%。 展开更多
关键词 时钟转发 多路接收机 全局去偏斜 延迟锁定环路 时钟分布 数据同步 半速率
下载PDF
基于Teradata的SQL性能调优
7
作者 宋轶 《现代计算机》 2009年第8期99-102,共4页
对Teradata数据仓库的系统架构做简单介绍,尤其是针对影响Teradata性能的底层因素进行必要的分析,并对实践过程中的遇到的常见问题进行总结和归纳,希望能给读者一些启发和帮助。
关键词 TERAdata 数据仓库 性能调节 数据倾斜
下载PDF
基于机器学习的信用卡交易欺诈检测研究综述 被引量:4
8
作者 蒋洪迅 江俊毅 梁循 《计算机工程与应用》 CSCD 北大核心 2023年第21期1-25,共25页
机器学习在信用卡交易检测中有其特殊性,面对的环境更为复杂。由于有人的智力介入,战胜信用卡交易欺诈,其挑战性比人脸识别、无人驾驶等工程问题的难度更高,照搬工程学科的机器学习方法往往会失败。综述了2000年以来基于机器学习的信用... 机器学习在信用卡交易检测中有其特殊性,面对的环境更为复杂。由于有人的智力介入,战胜信用卡交易欺诈,其挑战性比人脸识别、无人驾驶等工程问题的难度更高,照搬工程学科的机器学习方法往往会失败。综述了2000年以来基于机器学习的信用卡欺诈检测研究历程,辨析了该领域的研究范畴、应用场景、技术流派等相关概念及其联系;解构了机器学习欺诈识别的一般性研究架构,从特征工程、模型算法、评价指标三个环节归纳总结了领域内研究的最新进展;从数据集是否具备标签角度,着重列举了面向欺诈识别的有监督的、无监督和半监督三类主流机器学习模型,讨论了这些模型的出发点、核心思想、求解方法以及优缺点;还分析了强化学习模型模拟欺诈者与机构之间的动态博弈过程;探讨了机器学习面临的海量数据、样本偏斜和概念漂移三大难点问题,并汇集整理了缓解这些问题的最新进展;总结了面向欺诈检测的机器学习研究目前存在的局限、争议和挑战,并为未来的研究方向提供趋势分析与建议。 展开更多
关键词 信用卡欺诈识别 机器学习 数据挖掘 样本偏斜 概念漂移
下载PDF
结合节点计算能力的MapReduce负载均衡方法 被引量:2
9
作者 胡林发 付晓东 +1 位作者 刘骊 刘利军 《重庆邮电大学学报(自然科学版)》 CSCD 北大核心 2023年第6期1154-1163,共10页
MapReduce是大数据计算领域广泛使用的编程模型,默认的Hash分区方法易导致数据倾斜,使各计算节点负载不均衡,影响了整体计算性能并造成了大量集群资源浪费。针对这一问题,提出一种结合节点计算能力的分区方法。通过运行一个独立的抽样作... MapReduce是大数据计算领域广泛使用的编程模型,默认的Hash分区方法易导致数据倾斜,使各计算节点负载不均衡,影响了整体计算性能并造成了大量集群资源浪费。针对这一问题,提出一种结合节点计算能力的分区方法。通过运行一个独立的抽样作业,利用Reservoir抽样算法抽取待处理数据并统计样本里关键字的位置和频次;根据关键字的统计数据制定分区策略,使各分区负载与节点计算能力达到平衡,同时优化网络开销;以全量数据为输入运行计算作业,并采用已制定的分区策略对中间数据进行分区,得出计算作业的运行结果。实验结果表明,方法使各节点负载更加均衡,可明显提升计算作业执行效率。 展开更多
关键词 负载均衡 数据倾斜 大数据 抽样算法
下载PDF
基于数据增强和改进卷积神经网络的织物纬斜检测
10
作者 刘正 吴诗豪 +1 位作者 侯珏 杨阳 《服装学报》 CAS 2023年第5期391-399,共9页
纬斜是织物生产和后整理加工中常见的疵点,光电设备检测纬斜的方法效率低且不精确。为了提升纬斜疵点的检测效率,将神经网络运用到纬斜检测中,结合纬斜特征改进卷积神经网络,提出具有循环训练策略的目标识别网络——纬斜检测网络,并在... 纬斜是织物生产和后整理加工中常见的疵点,光电设备检测纬斜的方法效率低且不精确。为了提升纬斜疵点的检测效率,将神经网络运用到纬斜检测中,结合纬斜特征改进卷积神经网络,提出具有循环训练策略的目标识别网络——纬斜检测网络,并在网络中加入正样本回归和多尺度输入,以提升卷积网络的性能。为了获得充足的纬斜样本数据用于网络训练,提出一种纬斜疵点数据增强方法,通过将纬斜图像公式化生成大量纬斜样本,并采用综合比较实验评估纬斜检测网络性能。结果表明,纬斜检测网络在纬斜检测中表现出色,检测精度达到98%,平均F-score达到0.97,同时使纬斜率的误差控制在±8%以内,检测性能优于其他目标检测模型。与YOLO网络相比,纬斜检测网络在真实纬斜样本检测中性能优异,拥有良好的跨数据集检测性能。 展开更多
关键词 纬斜检测 数据增强 卷积网络 正样本回归 多尺度输入
下载PDF
偏度特征约束下的机载激光雷达点云数据分类 被引量:1
11
作者 刘正坤 林思娜 吴丹妮 《计算机测量与控制》 2023年第9期235-241,共7页
机载激光雷达获得的点云具有密度低、分布不均匀、分支结构不清晰等特点,其动态扫描过程的数据特征动态偏差很小,无法提取有效的数据去噪特征;为此提出偏度特征约束下的机载激光雷达点云数据实时分类方法;该方法将扫描获取的点云大容量... 机载激光雷达获得的点云具有密度低、分布不均匀、分支结构不清晰等特点,其动态扫描过程的数据特征动态偏差很小,无法提取有效的数据去噪特征;为此提出偏度特征约束下的机载激光雷达点云数据实时分类方法;该方法将扫描获取的点云大容量实时数据引入在正态分布中,利用衡量对称性正态分布的关键度量偏度特征作为动态特征分界约束,完成数据滤波;提取机载激光雷达点云特征,从中选取优质特征,以此构建SVM分类器;点云大容量数据训练结果即为最终的分类结果;实验结果表明,所提方法对不同类别的机载激光雷达点云数据分类的准确性与效率较高。 展开更多
关键词 机载激光雷达 点云数据 偏度特征 数据分类 SVM分类器
下载PDF
基于混合偏正态数据下众数回归模型的变量选择 被引量:1
12
作者 曾鑫 吴刘仓 句媛媛 《工程数学学报》 CSCD 北大核心 2023年第3期381-397,共17页
有限混合回归(Finite Mixture of Regression,FMR)模型的变量选择常常在统计建模中使用。目前关于FMR模型的研究主要集中在回归误差服从正态分布的情形,而这种假设不适用于研究非对称的数据。对于偏斜数据,众数的代表性优于均值。本文... 有限混合回归(Finite Mixture of Regression,FMR)模型的变量选择常常在统计建模中使用。目前关于FMR模型的研究主要集中在回归误差服从正态分布的情形,而这种假设不适用于研究非对称的数据。对于偏斜数据,众数的代表性优于均值。本文基于混合偏正态数据介绍了众数回归模型的变量选择方法,并证明了变量选择方法的相合性和参数估计的Oracle性质。为了估计模型的参数,提出了一种改进的EM(Expectation-Maximum)算法,通过模拟研究和实例分析进一步说明了所提出模型和变量选择方法的有效性。 展开更多
关键词 混合偏正态数据 众数回归模型 变量选择 EM算法
下载PDF
论消费者数据删除权的倾斜保护 被引量:1
13
作者 蒋博涵 《科技与法律(中英文)》 CSSCI 2023年第2期60-68,共9页
消费者数据删除权是消费者享有的请求经营者删除其个人数据的权利,意在保障消费者的信息自决以及人格尊严。在私法自治性保护模式下,消费者数据删除权保护存在着激励缺位与激励不足的问题,难以有效激励经营者模范履行数据删除权义务以... 消费者数据删除权是消费者享有的请求经营者删除其个人数据的权利,意在保障消费者的信息自决以及人格尊严。在私法自治性保护模式下,消费者数据删除权保护存在着激励缺位与激励不足的问题,难以有效激励经营者模范履行数据删除权义务以及消费者积极行使数据删除权利。而倾斜保护模式能够有效克服私法保护模式的不足,既能够矫正经营者和消费者风险—收益分配的失衡,又能够契合促进删除行为的成本收益考量。倾斜保护消费者数据删除权,分别从三个维度共同构建:一是从信息获取维度,强化经营者的数据处理信息披露义务;二是从权利主体维度,丰富消费者数据删除权实现的方式;三是从责任配置维度,增加违反数据删除义务的法定成本。 展开更多
关键词 数据删除权 倾斜保护 成本收益分析 激励
下载PDF
响应变量随机缺失下偏正态众数混合专家模型的参数估计 被引量:1
14
作者 鲁钰 吴刘仓 王格格 《应用数学》 北大核心 2023年第2期474-486,共13页
数据缺失是众多影响数据质量的因素中最常见的一种.若缺失数据处理不当,将直接影响分析结果的可靠性,进而达不到分析的目的.本文针对随机缺失偏正态数据,研究了偏正态众数混合专家模型的参数估计.将众数回归插补与聚类相结合,提出分层... 数据缺失是众多影响数据质量的因素中最常见的一种.若缺失数据处理不当,将直接影响分析结果的可靠性,进而达不到分析的目的.本文针对随机缺失偏正态数据,研究了偏正态众数混合专家模型的参数估计.将众数回归插补与聚类相结合,提出分层众数回归插补方法.利用机器学习插补和统计学插补的方法,进一步比较研究三种机器学习插补方法:支持向量机插补、随机森林插补和神经网络插补,三种统计学插补方法:分层均值插补、众数回归插补和分层众数回归插补的缺失数据处理效果.通过Monte Carlo模拟和实例分析结果表明,分层众数回归插补的优良性. 展开更多
关键词 缺失偏正态数据 众数混合专家模型 支持向量机插补 随机森林插补 BP神经网络插补 分层众数回归插补
下载PDF
一种基于GAT的小样本均衡补偿文本主题分类模型
15
作者 王琦菲 张大为 《智能计算机与应用》 2023年第1期100-103,111,共5页
针对小样本不均衡数据采用GAT模型主题分类效果不佳的问题,本文提出一种基于GAT的样本均衡补偿模型(BC-GAT),优化GAT模型的构建方法,对数据集中小比例样本进行均衡补偿。本文通过合理运用EDA算法和网络爬虫算法,使数据集中小比例样本的... 针对小样本不均衡数据采用GAT模型主题分类效果不佳的问题,本文提出一种基于GAT的样本均衡补偿模型(BC-GAT),优化GAT模型的构建方法,对数据集中小比例样本进行均衡补偿。本文通过合理运用EDA算法和网络爬虫算法,使数据集中小比例样本的扩充更加合理和高效,使GAT模型更加适合小样本不均衡主题分类。实验表明,BC-GAT模型小比例样本识别准确率在90%以上,可以有效解决实际应用中存在的极小样本和数据倾斜问题。 展开更多
关键词 BC-GAT 小样本 数据倾斜 主题分类
下载PDF
Attenuate Class Imbalance Problem for Pneumonia Diagnosis Using Ensemble Parallel Stacked Pre-Trained Models
16
作者 Aswathy Ravikumar Harini Sriraman 《Computers, Materials & Continua》 SCIE EI 2023年第4期891-909,共19页
Pneumonia is an acute lung infection that has caused many fatalitiesglobally. Radiologists often employ chest X-rays to identify pneumoniasince they are presently the most effective imaging method for this purpose.Com... Pneumonia is an acute lung infection that has caused many fatalitiesglobally. Radiologists often employ chest X-rays to identify pneumoniasince they are presently the most effective imaging method for this purpose.Computer-aided diagnosis of pneumonia using deep learning techniques iswidely used due to its effectiveness and performance. In the proposed method,the Synthetic Minority Oversampling Technique (SMOTE) approach is usedto eliminate the class imbalance in the X-ray dataset. To compensate forthe paucity of accessible data, pre-trained transfer learning is used, and anensemble Convolutional Neural Network (CNN) model is developed. Theensemble model consists of all possible combinations of the MobileNetv2,Visual Geometry Group (VGG16), and DenseNet169 models. MobileNetV2and DenseNet169 performed well in the Single classifier model, with anaccuracy of 94%, while the ensemble model (MobileNetV2+DenseNet169)achieved an accuracy of 96.9%. Using the data synchronous parallel modelin Distributed Tensorflow, the training process accelerated performance by98.6% and outperformed other conventional approaches. 展开更多
关键词 Pneumonia prediction distributed deep learning data parallel model ensemble deep learning class imbalance skewed data
下载PDF
烟草商业大数据中数据倾斜问题的探究
17
作者 朱文静 沈璐婕 张侃弘 《信息与电脑》 2023年第17期86-89,共4页
上海烟草商业由于建设了基于“互联网+”面向消费者现代营销体系,业务复杂度不断提升,业务数据量呈现爆炸式增长。虽然应用分布式多节点并行处理技术可以大幅提高计算效率,但是这也导致分布式计算系统中的数据倾斜问题成为大数据平台绕... 上海烟草商业由于建设了基于“互联网+”面向消费者现代营销体系,业务复杂度不断提升,业务数据量呈现爆炸式增长。虽然应用分布式多节点并行处理技术可以大幅提高计算效率,但是这也导致分布式计算系统中的数据倾斜问题成为大数据平台绕不开的难题。为此,文章提出通过数据预处理、提升分布式并行度、聚合及关联场景的算法处理等多种方法来解决数据倾斜问题。 展开更多
关键词 烟草商业 大数据 分布式 数据倾斜
下载PDF
基于增量式分区策略的MapReduce数据均衡方法 被引量:24
18
作者 王卓 陈群 +2 位作者 李战怀 潘巍 尤立 《计算机学报》 EI CSCD 北大核心 2016年第1期19-35,共17页
MapReduce以其简洁的编程模型,被广泛应用于大规模和高维度数据集的处理,如日志分析、文档聚类和其他数据分析.开源系统Hadoop很好地实现了MapReduce模型,但由于自身采用一次分区机制,即通过Hash/Range分区函数对数据进行一次划分,导致... MapReduce以其简洁的编程模型,被广泛应用于大规模和高维度数据集的处理,如日志分析、文档聚类和其他数据分析.开源系统Hadoop很好地实现了MapReduce模型,但由于自身采用一次分区机制,即通过Hash/Range分区函数对数据进行一次划分,导致在处理密集数据时,Reduce端常会出现数据倾斜的问题.虽然系统为用户提供了自定义分区函数方法,但不幸的是在不清楚输入数据分布的情况下,数据倾斜问题很难被避免.为解决数据划分的不均衡,该文提出一种将分区向Reducer指派时按照多轮分配的分区策略.该方法首先在Map端产生多于Reducer个数的细粒度分区,同时在Mapper运行过程中实时统计各细粒度分区的数据量;然后由JobTracker根据全局的分区分布信息筛选出部分未分配的细粒度分区,并用代价评估模型将选中的细粒度分区分配到各Reducer上;依照此方法,经过多轮的筛选、分配,最终在执行Reduce()函数前,将所有细粒度分区分配到Reduce端,以此解决分区后各Reducer接收数据总量均衡的问题.最后在Zipf分布数据集和真实数据集上与现有的分区切分方法Closer进行了对比,增量式分区策略更好地解决了数据划分后的均衡问题. 展开更多
关键词 增量分配 细粒度分区 数据倾斜 均衡分区 MAPREDUCE 大数据
下载PDF
面向MapReduce的迭代式数据均衡分区策略 被引量:13
19
作者 张元鸣 蒋建波 +2 位作者 陆佳炜 徐俊 肖刚 《计算机学报》 EI CSCD 北大核心 2019年第8期1873-1885,共13页
MapReduce是一种适用于大数据处理的重要并行计算框架.然而,由于难以提前全面获得中间数据的分布规律,默认的数据分区策略往往会造成Reducer端的数据倾斜,会直接影响MapReduce的整体性能.为了实现数据均衡分区,本文提出一种迭代式数据... MapReduce是一种适用于大数据处理的重要并行计算框架.然而,由于难以提前全面获得中间数据的分布规律,默认的数据分区策略往往会造成Reducer端的数据倾斜,会直接影响MapReduce的整体性能.为了实现数据均衡分区,本文提出一种迭代式数据均衡分区策略,将每个Mapper节点要处理的数据块细分后以迭代方式循环处理,根据已迭代轮次的微分区分配结果决定当前迭代轮次的微分区分配方案,以不断调整历次迭代产生的数据倾斜,逐步实现数据均衡分区.给出了迭代式数据分区策略的分配时机、分配准则、分配评价模型和分配算法.基于公开的数据集,对迭代式数据均衡分区策略进行了详细测评,结果表明,该策略能够得到更均衡的数据分区结果,当数据集本身倾斜比较显著时,MapReduce整体性能比默认分区策略平均提高了11.1%和19.7%. 展开更多
关键词 MAPREDUCE 大数据 数据倾斜 迭代式数据分区 微分区 均衡分区
下载PDF
一种面向并行空间数据库的数据划分算法研究 被引量:26
20
作者 赵春宇 孟令奎 林志勇 《武汉大学学报(信息科学版)》 EI CSCD 北大核心 2006年第11期962-965,共4页
面向基于对象关系型数据库而构建的并行空间数据库系统,提出了一种基于Hilbert空间填充曲线的适合于矢量空间数据的数据划分算法。在充分考虑空间信息的海量特征以及矢量数据存储记录的不定长等特点的前提下,该算法可实现并行空间数据... 面向基于对象关系型数据库而构建的并行空间数据库系统,提出了一种基于Hilbert空间填充曲线的适合于矢量空间数据的数据划分算法。在充分考虑空间信息的海量特征以及矢量数据存储记录的不定长等特点的前提下,该算法可实现并行空间数据库中海量空间数据记录在多个存储设备上的均衡划分,以避免出现数据倾斜现象,从而提高了空间数据的检索与查询效率。 展开更多
关键词 并行空间数据库 数据划分 数据倾斜 Hilbert空间填充曲线
下载PDF
上一页 1 2 8 下一页 到第
使用帮助 返回顶部