题名 数据分块算法在定位差异数据时的作用分析
1
作者
黄文豪
齐德昱
谢嵘
刘宇
张皓同
机构
广东外语外贸大学南国商学院数字化技术研究院
华南理工大学计算机科学与工程学院
出处
《计算机技术与发展》
2023年第10期22-27,共6页
基金
国家自然科学基金项目(61070015)
广州市产业技术重大攻关计划项目(201802020035)。
文摘
差异数据定位在数据增量同步等领域得到了很好的应用。当下学者们将数据分块算法应用在差异数据定位中,提出了很多优秀的数据分块算法,并对各自算法的效率进行了论述和实验,但并没有从理论上论述数据分块算法在差异数据定位中的正确性。此外,定位到的差异数据的大小与数据分块算法的关系也没有进行理论分析,多是以实验结果来辅助说明。为此,文中对数据差异定位的过程进行抽象,对数据分块算法应用于该过程的正确性进行了论证,并对数据分块算法在数据差异定位中的作用进行分析。通过理论推导的方式,证明了数据分块算法在定位差异数据时的正确性,同时得出差异数据的大小与数据分块算法的关系。文中结论对设计应用于差异数据定位的数据分块算法有一定的参考意义。
关键词
数据分块算法
差异数据定位
理论分析
数据增量同步
逻辑推理
Keywords
data chunk ing algorithm
differential data location
theoretical analysis
data delta synchronization
logical reasoning
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
题名 一种优化的Hadoop数据放置策略
被引量:1
2
作者
吴岳
机构
国家林业和草原局产业发展规划院
出处
《软件工程》
2023年第7期44-47,共4页
文摘
Hadoop分布式文件系统(HDFS)的默认数据块放置策略均衡了数据存储的可靠性和读写速度,却没有考虑发挥集群的最佳性能。针对该问题提出了一种优化后的数据块放置算法。该算法为数据块设计2个指标,即被查询率与平均读取时间,用于评估集群执行任务对数据块的需求量。在符合HDFS默认数据放置算法基本规则的前提下,通过对数据块的需求量进行分析,然后重新计算数据块的放置位置,将需求量最多的数据转移到能够最快处理它们的节点上。通过实验数据证明:该算法可以使集群整体性能提高20%以上。优化后的数据块放置算法是有效的,并且不会增加对集群带宽的占用。
关键词
HDFS
数据块
放置策略
性能优化
Keywords
HDFS
data chunk s
placement strategy
performance optimization
分类号
TP311.1
[自动化与计算机技术—计算机软件与理论]
题名 一种融合文件及内容分块的重复数据删除算法
3
作者
朱建平
黄恒
周积
陈海茂
黄利君
机构
广东长盈科技股份有限公司
出处
《软件》
2023年第12期53-59,86,共8页
文摘
重复数据删除对于文件增量同步、云存储和容灾备份等研究具有十分重要的作用和意义,能够大大地提高磁盘存储的效率。结合现有的文件级和块级去重算法的优势,并针对基于内容的分块算法CDC容易因超大块而导致块大小方差变化大的问题,提出了一种融合文件及内容分块的重复数据删除算法DMix。DMix采用了面向文件级和块级的两阶段重复数据检测及删除方法,并在快速双极值分块算法RDE的基础上,提出包含最大块阈值的内容分块算法RDEL,使得RDEL在保持良好的低熵字符串处理能力和抗字节偏移能力的同时,进一步降低了块大小方差。算法分析及实验结果表示,DMix及RDEL能够有效提升重复数据删除的效率,并能有效地降低CDC算法的块大小方差。
关键词
内容分块
文件存储
重复数据删除
Keywords
content chunk ing
file storage
data deduplication
分类号
TP183
[自动化与计算机技术—控制理论与控制工程]
题名 面向SaaS应用的数据组合隐私保护机制研究
被引量:35
4
作者
张坤
李庆忠
史玉良
机构
山东大学计算机科学与技术学院
出处
《计算机学报》
EI
CSCD
北大核心
2010年第11期2044-2054,共11页
基金
国家自然科学基金(90818001)
国家科技支撑计划(2009BAH44B02)
+3 种基金
山东省自然科学基金(ZR2010FQ026
2009ZRB019YT
Y2007G38)
山东省科技公共项目(2010GGX10105)资助~~
文摘
软件即服务(SaaS)模式下,业务应用和数据库部署在非完全可信的服务运营商的平台上,租户数据的隐私保护成为SaaS模式应用和推广中一个极大的问题和挑战.基于明文状态下不同SaaS数据属性组合泄露隐私程度的不同,提出一种面向SaaS应用的数据组合隐私保护机制.该隐私保护机制支持租户自定制隐私约束,用来描述数据组合隐私保护需求,将SaaS数据属性切分到不同的数据分块中,利用可信第三方实现数据切片间关联关系的混淆和重构,并基于伪造数据,确保同一数据分块内部数据切片分布的均衡化,实现SaaS数据组合隐私保护和实用性的有效结合.通过分析,证明了隐私保护机制的合理性,并通过实验验证了该隐私保护机制的实用性.
关键词
软件即服务
隐私保护
数据组合隐私
数据分块
Keywords
software as a service
privacy preservation
data combination privacy
data chunk
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
题名 面向隐私保护的数据块调整机制
被引量:6
5
作者
史玉良
陈玉
孙世彬
崔立真
机构
山东大学计算机科学与技术学院
出处
《计算机学报》
EI
CSCD
北大核心
2017年第12期2719-2733,共15页
基金
山东省泰山产业领军人才工程专项经费(tscy20150305)
山东省重点研发计划(2016GGX101008
+1 种基金
2016ZDJS01A09)
山东省自然科学基金重大基础研究项目(ZR2017ZB0419)资助~~
文摘
在云计算环境下,通过分块混淆的隐私保护机制,将租户的数据分成多个数据块,并且存储到不同的数据节点上,以此实现数据的隐私保护.虽然该方法可以实现在明文状态下保护租户数据的隐私安全,但在实际环境中,由于租户的隐私需求、数据需求是可变的,导致云端底层的数据块结构和存储位置发生变化,因此在这种隐私保护机制下依然存在隐私泄露的风险.所以该文基于分块混淆隐私保护方法,提出一种面向隐私保护的数据块调整机制.该机制首先根据租户更新后的隐私约束,基于少动性原则,对原始的隐私保护策略中违背隐私约束的数据块进行分割;然后再结合隐私约束,重组数据块,并生成隐私保护调整策略;由于数据块分割结果的多样性,导致最终生成的可行隐私保护策略并不唯一,所以该文最后综合隐私需求、性能需求、负载需求和不对等均衡,提出了一种基于全局最优的隐私保护策略选择算法,实现从多种可行策略中筛选出满足所有要求的最优调整策略.实验结果表明,该文提出的数据块调整机制,可以找到一种最优的隐私保护调整策略,并且满足系统的性能和负载要求,增强租户数据的隐私保护效果.
关键词
云计算
数据块
隐私保护
数据调整
负载能力
最优调整策略
Keywords
cloud computing
data chunk
privacy protection
data adjustment
load capacity
optimal adjustment strategy
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
题名 基于字节指纹极值特征的数据分块算法
被引量:3
6
作者
孙继忠
马永强
李玉华
机构
西南交通大学信息科学与技术学院
出处
《计算机工程》
CAS
CSCD
北大核心
2010年第8期69-70,73,共3页
文摘
针对基于内容的数据分块算法中基本滑动窗口算法不能确定最大数据块的问题,提出一种基于字节指纹极值特征的数据分块算法。算法以上一个块边界点为起点构建最大块长区间,通过定义字节指纹极值域半径函数F并利用函数F值的分布特性,以概率1在允许的最大块长的区间内确定下一个块边界点。该算法克服了基本滑动窗口等分块算法不能确定最大分块长度的不足,其时间复杂度为O(n)。
关键词
数据分块算法
哈希指纹
存储算法
Keywords
data chunk ing algorithm
Hash fingerprint
storage algorithm
分类号
TP312
[自动化与计算机技术—计算机软件与理论]
题名 基于数据块级迁移策略的设计与实现
被引量:5
7
作者
周斌
汪浪
张莹
谭佳豪
机构
中南民族大学计算机科学学院
华中科技大学外国语学院
出处
《计算机工程与设计》
北大核心
2016年第7期1822-1826,共5页
基金
国家自然科学基金项目(60902053)
湖北省自然科学基金项目(2013CFB447)
文摘
为优化分层存储系统中数据迁移策略性能,进一步提高整个存储系统的存储性能,提出一个基于数据块级别的价值评价模型。综合考虑块级数据特点,分别量化块级数据大小、读写频次、数据块间关联度、历史价值系数得出数据块价值;在此模型的基础上,提出基于主动迁移阈值和被动迁移阈值的双阈值迁移策略。通过实验验证了评价模型的可行性和算法的有效性。
关键词
大数据
分层存储
块级数据评价
双阈值
迁移策略
Keywords
big data
tiered storage
chunk -level valuation
dual threshold
migration strategy
分类号
TP309
[自动化与计算机技术—计算机系统结构]
题名 Winnowing指纹串匹配的重复数据删除算法
被引量:6
8
作者
王青松
葛慧
机构
辽宁大学信息学院
出处
《计算机应用》
CSCD
北大核心
2018年第3期677-681,714,共6页
基金
国家自然科学基金资助项目(61502215)~~
文摘
针对可变长度分块(CDC)的重复数据删除算法的分块大小难以控制、指纹计算对比开销大、需要预先设置参数问题,提出Winnowing指纹串匹配的重复数据删除算法(DWFM)。首先,在数据分块前引入分块大小预测模型,较准确地根据应用场景计算出合适的分块大小;然后,在计算指纹时采用ASCII/Unicode编码方式作为数据块指纹;最后,在确定分块边界时,提出指纹串匹配的分块算法,不需要预先设置参数,使得指纹计算和对比开销减少。在多种数据集上的实验结果表明,相比固定长度分块(FSP)和CDC算法,DWFM在数据的重删率上提升10%左右,在指纹计算和对比开销方面减少了18%左右。因此,DWFM的分块大小和边界更加符合数据特性,减少了参数设置对重复数据删除算法性能的影响,在处理不同类型的数据时,可以有效地消除更多的重复数据。
关键词
重复数据删除
数据分块
指纹串匹配
WINNOWING
分块预测
Keywords
data deduplication
data chunk ing
fingerprint matching
Winnowing
chunk ing prediction
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
题名 对等流媒体数据调度优化算法
被引量:1
9
作者
李润知
张茜
林予松
机构
郑州大学信息网络省重点学科开放实验室
出处
《计算机工程与设计》
CSCD
北大核心
2014年第7期2447-2452,共6页
基金
教育部博士点专项科研基金项目(20114101110007)
河南省教育厅科技研究重点基金项目(13A520562)
文摘
对Mesh结构的对等流媒体系统中的数据调度问题进行了研究。进行了优化算法的分析,利用本地多级缓存来提高数据分片在节点间的分发能力,在此基础上通过将分片播放紧急度和稀缺度加权合并来定义数据优先请求级别;分析了影响节点上传能力的多种因素,采用历史信息统计法来估算节点上传能力,提出基于数据优先级和节点能力评估的对等流媒体数据调度算法。仿真结果表明,基于数据优先级和节点能力评估的调度算法在节点扰动性较强的网络环境中能较好保证节点播放的连续性和数据分片上传能力。
关键词
P2P流媒体
数据驱动
数据调度
分片优先级
节点调度
Keywords
P2P streaming
data -driven
data scheduling
chunk priority
peer scheduling
分类号
TP393
[自动化与计算机技术—计算机应用技术]
题名 基于分布式文件系统的海量电能质量监测数据管理方案
被引量:43
10
作者
张逸
杨洪耕
叶茂清
机构
四川大学电气信息学院
四川电力科学研究院
出处
《电力系统自动化》
EI
CSCD
北大核心
2014年第2期102-108,共7页
基金
国家自然科学基金资助项目(51077095)~~
文摘
目前,电能质量监测数据已经呈现海量化的趋势,如果仅用关系数据库存储,将带来存储占用空间大、存取速度慢、可扩展性差等问题。文中通过分析现有电能质量监测系统中的数据存取特征和硬件环境,提出了一种基于分布式文件系统的海量电能质量监测数据管理方案。此方案将不同电能质量指标的历史监测数据分别压缩后存储在文件中;利用现有监测子站以及相关系统的分布式异构服务器作为文件服务器以存储数据文件;利用监测主站服务器作为主服务器,保存数据特征值和文件索引,并对文件资源进行统一管理。此方案充分利用了各服务器的存储空间和网络带宽,节约了存储空间,提高了存取效率,具有较高的可靠性和可扩展性。以存储100个监测点180 d数据为例,此方案存储空间占用仅为传统关系数据库方案的2.28%;以检索某个监测点180 d的5次谐波三相电压幅值数据为例,此方案加速比约为16.49倍。在四川电能质量一体化数据平台中的成功应用证明了此方案的可靠性和实用性。
关键词
电能质量
海量数据
分布式文件系统
文件分块机制
容错机制
Keywords
power quality
massive data
distributed file system
file chunk ing mechanism
fault tolerance mechanism
分类号
TM73
[电气工程—电力系统及自动化]
题名 SQL Server数据库中图像存取技术研究
被引量:6
11
作者
杨宁
申强
谢静
机构
南京晓庄学院数学与信息技术学院
出处
《南京晓庄学院学报》
2010年第3期82-84,共3页
文摘
为了充分发挥数据库管理系统的强大功能,将图像信息由数据库管理系统统一存储和管理,已成为数据库技术发展的新趋势.文章讨论了利用VB6.0提供的ADO控件在SQL Server数据库中图像存取的原理和方法,比较了各种技术的优缺点,解决了将图像数据存入数据库的问题.
关键词
SQL
SERVER
ADO
图像
大块数据存取
流
Keywords
SQL Server
ActiveX data Object
image
chunk access
stream
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
题名 基于对象的OpenXML复合文件去重方法研究
被引量:17
12
作者
阎芳
李元章
张全新
谭毓安
机构
北京理工大学计算机学院
北京物资学院信息学院
出处
《计算机研究与发展》
EI
CSCD
北大核心
2015年第7期1546-1557,共12页
基金
国家"八六三"高技术研究发展计划基金项目(2013AA01A212)
国家自然科学基金项目(61370063)
+1 种基金
北京高等学校青年英才计划项目(YETP1532
YETP1178)
文摘
现有的重复数据删除技术大部分是基于变长分块(content defined chunking,CDC)算法的,不考虑不同文件类型的内容特征.这种方法以一种随机的方式确定分块边界并应用于所有文件类型,已经证明其非常适合于文本和简单内容,而不适合非结构化数据构成的复合文件.分析了OpenXML标准的复合文件属性,给出了对象提取的基本方法,并提出基于对象分布和对象结构的去重粒度确定算法.目的是对于非结构化数据构成的复合文件,有效地检测不同文件中和同一文件不同位置的相同对象,在文件物理布局改变时也能够有效去重.通过对典型的非结构化数据集合的模拟实验表明,在综合情况下,对象重复数据删除比CDC方法提高了10%左右的非结构化数据的去重率.
关键词
变长分块
对象
非结构化数据
OpenXML标准
复合文件
重复数据删除
Keywords
content defined chunk ing(CDC)
object
unstructured data
OpenXML standard
compound file
data de-duplication
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
题名 语料库数据驱动下词块能力与英语写作研究
被引量:3
13
作者
林巧文
郑静
机构
福建师范大学福清分校外国语学院
出处
《集美大学学报(哲学社会科学版)》
2017年第3期113-118,共6页
基金
福建省教育厅A类人文社会科学研究项目(JAS14337)
文摘
词块是英语写作的重要组成部分。基于语料库数据驱动理论,以非英语专业学习者为研究对象,通过16周的实证研究发现,词块能力与英语写作有显著的相关性;词块习得不仅能有效地提高学习者的词块能力,尤其在聚合词和搭配词方面,而且能提升学习者英语写作用词的多样性、准确性和连贯性。
关键词
语料库
数据驱动
词块能力
英语写作
Keywords
corpus
data -driven
lexical chunk s competence
English writing
分类号
H319.13
[语言文字—英语]
题名 基于云计算的智能电表用户表单隐私保护
被引量:1
14
作者
任梦吟
毛琪琦
马婷
文红
机构
电子科技大学通信抗干扰国家级重点实验室
出处
《智能电网(汉斯)》
2014年第3期123-128,共6页
基金
自然科学基金项目(编号:61271172)
高等学校博士学科点专项科研基金(编号:20120185110030,20130185130002)
+1 种基金
四川省国际合作研究项目(编号:2013HH0005)
国家教育部回国人员科研启动基金.
文摘
智能电力系统的快速发展,对于海量数据的存储及计算的要求越来越高,使其与云计算的结合成为必然。但是接入云计算系统不可避免的带来了数据安全问题。本文针对智能电表系统的用户信息隐私保护,基于数据组合隐私机制,引入可信第三方,运用数据分块存储及分块关系混淆技术保护智能电表系统的用户隐私。并提出分块信息表单系统,在分块存储环境下实现数据插入与数据查询。
关键词
电力云计算
隐私保护
数据分块
Keywords
Power System Cloud Computing
Privacy Protection
data chunk
分类号
TP39
[自动化与计算机技术—计算机应用技术]
题名 基于位串内容感知的数据分块算法
15
作者
周斌
朱容波
张莹
机构
中南民族大学计算机学院
华中科技大学外国语学院
出处
《计算机工程与科学》
CSCD
北大核心
2016年第10期1967-1973,共7页
基金
国家自然科学基金(61272497)
湖北省自然科学基金(2013CFB447)
文摘
针对基于内容的可变长度的分块CDC算法中数字签名计算需要耗费大量CPU开销的问题,提出了一种基于位串内容感知的数据块分块算法。算法利用每一次失败匹配尝试所带来的位特征信息,最大限度地排除不能匹配的位置,从而获得最大的跳跃长度,减少中间计算和比较的开销。实验结果表明,本算法减小了数据分块过程中数字签名计算的开销,降低了确定块边界时的CPU资源消耗,从而优化了数据分块的时间性能。
关键词
位串内容感知
数据分块
数字签名
Keywords
bit string content-aware
data chunk ing
digital signature
分类号
TP311.52
[自动化与计算机技术—计算机软件与理论]
题名 基于HBase的多分类逻辑回归算法研究
被引量:11
16
作者
刘黎志
邓介一
吴云韬
机构
武汉工程大学
武汉工程大学
出处
《计算机应用研究》
CSCD
北大核心
2018年第10期3007-3010,共4页
基金
湖北省自然科学基金资助项目(2014CFB791)
湖北省高等学校优秀中青年科技创新团队计划资助项目(T201206)
文摘
为解决在大数据环境下,用于训练多分类逻辑回归模型的数据集可能会超过执行计算的客户端内存的问题,提出了块批量梯度下降算法,用于计算回归模型的系数。将训练数据集存入HBase后,通过设置表扫描对象的起始行键参数,可取出大小合适的含训练样本及结果值的数据块;同时为避免客户端到服务端频繁的RPC调用,取出的数据块可进行多次迭代计算,以加快系数的收敛。当取出的数据块达到指定的迭代次数后,再按行键次序取出下一个数据块。如此循环,直到系数收敛或达到指定的循环控制阈值。多分类的逻辑回归问题可转换为二分类来解决,因此需要为每一个分类在训练数据表中设定结果值列,结合训练样本列簇,按块批量梯度下降算法得到每个分类的回归系数。实验结果表明得到的回归系数能准确地对测试样本进行分类。
关键词
块批量梯度下降
多分类
逻辑回归
大数据
HBASE
Keywords
chunk BGD
multi classification
logistic regression
big data
HBase
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
题名 基于极值点分块的重复数据检测算法
17
作者
谢垂益
卿斯汉
机构
韶关学院数学与信息科学学院
中国科学院软件研究所
出处
《信息网络安全》
2013年第8期10-12,共3页
基金
国家自然科学基金[60970135
61170282]
+1 种基金
韶关市创新资金项目[201210]
韶关学院科研项目[201202]
文摘
重复数据检测技术能够大幅降低数据中心的存储量,节省网络带宽,减少建设和运维成本。为了克服基于内容分块(CDC)方法容易出现超长块的缺点,文章提出了基于极值点分块(EDC)的重复数据检测算法。EDC算法先计算出所有右边界在数据块上下限范围内的滑动窗口中数据的指纹,找出最后一个指纹极值,所对应的滑动窗口结束位置作为数据块的分界点,再计算该数据块的哈希值并判断是否重复块。实验结果表明,EDC算法的重复数据检测率、磁盘利用率分别是CDC算法的1.48倍和1.12倍,改进效果显著。
关键词
重复数据检测
基于内容分块
基于极值点分块
指纹
Keywords
duplicated data detection
content defined chunk ing
extremum defined chunk ing
fingerprint
分类号
TP308
[自动化与计算机技术—计算机系统结构]
TP274
[自动化与计算机技术—检测技术与自动化装置]
题名 一种多样性和精度加权的数据流集成分类算法
被引量:7
18
作者
张本才
王志海
孙艳歌
机构
北京交通大学计算机与信息技术学院
信阳师范学院计算机与信息技术学院
出处
《智能系统学报》
CSCD
北大核心
2019年第1期179-185,共7页
基金
国家自然科学基金项目(61672086
61702030
+1 种基金
61771058)
北京市自然科学基金项目(4182052)
文摘
为了克服数据流中概念漂移对分类的影响,提出了一种基于多样性和精度加权的集成分类方法 (diversity and accuracy weighting ensemble classification algorithm, DAWE),该方法与已有的其他集成方法不同的地方在于,DAWE同时考虑了多样性和精度这两种度量标准,将分类器在最新数据块上的精度及其在集成分类器中的多样性进行线性加权,以此来衡量一个分类器对于当前集成分类器的价值,并将价值度量用于基分类器替换策略。提出的DAWE算法与MOA中最新算法分别在真实数据和人工合成数据上进行了对比实验,实验表明,提出的方法是有效的,在所有数据集上的平均精度优于其他算法,该方法能有效处理数据流挖掘中的概念漂移问题。
关键词
数据流
概念漂移
多样性
精度
集成学习
数据块
价值度量
MOA
Keywords
data stream
concept drift
diversity
accuracy
ensemble learning
data chunk
value measurement
MOA
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 异构环境下P2P直播流媒体调度算法研究
被引量:2
19
作者
陈华
宋建新
机构
南京邮电大学通信与信息工程学院
出处
《电视技术》
北大核心
2012年第3期55-57,共3页
文摘
对节点上行带宽异构环境下的P2P流媒体系统数据块调度算法进行了研究,具体包括系统模型及相关标识,基于带宽感知的数据块调度算法研究和性能评价。通过研究发现,在设计数据块调度算法时充分利用带宽异构性,优先选择高上行带宽的节点,能有效地降低平均块延时。
关键词
流媒体
点对点
数据块
调度算法
Keywords
streaming media
peer-to-peer
data chunk
scheduling algorithm
分类号
TN919
[电子电信—通信与信息系统]
题名 一种新型高效的多租户共享数据模型
被引量:2
20
作者
何文哲
范冰冰
机构
华南师范大学计算机学院
出处
《计算机应用与软件》
2017年第8期66-71,共6页
基金
广东省重大科技专项(2014B010115001
2014B010112002
2016B030305003)
文摘
构建Saa S多租户数据库时,针对为实现租户自定义数据高效存储而面临的多租户共享数据模型设计问题,提出一种适用于多租户数据存储的多级块折叠表数据模型。该模型使用多组结构各异的块表来存储租户的自定义数据。设计模型的基础数据表,并给出多级块数据表的一般性设置方法。实验结果表明,在一个Saa S应用实例中,该数据模型比传统块折叠表数据模型减少了28%的查询延时和22%的存储空间,比弹性扩展表数据模型减少了54.9%的查询延时和83.9%的存储空间,多级块折叠表数据模型具有更高的查询性能以及空间效率。
关键词
多租户
数据模型
块折叠表
Keywords
Mult i-tenant data model chunk folding table
分类号
TP3
[自动化与计算机技术—计算机科学与技术]