期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
10
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于HDFS分布式云存储系统的重复数据检测与删除研究
1
作者
王储
《电脑编程技巧与维护》
2024年第1期92-95,共4页
传统最远点采样(FPS)算法、数据类型分析(WFC)算法的去重冗余度高,在同一数据集分块、去重检测中的数据重复率达到70~90%。基于这一实际情况,提出基于Hadoop分布式软件框架、分布式文件系统(HDFS)等云服务技术,建构用于复杂数据结构分...
传统最远点采样(FPS)算法、数据类型分析(WFC)算法的去重冗余度高,在同一数据集分块、去重检测中的数据重复率达到70~90%。基于这一实际情况,提出基于Hadoop分布式软件框架、分布式文件系统(HDFS)等云服务技术,建构用于复杂数据结构分析、数据分块去重的HDFS-SDBS云存储管理系统,使用基于文件相似度的抽样删除索引(SDBS)算法进行文件数据分块、哈希值(Hash)计算、随机抽样的相似度判定,利用元数据索引查重方式完成输入文件数据、内存数据的比对,删除相似度过高的重复数据,以提升云环境下的数据存储效率与准确率。
展开更多
关键词
HDFS-SDBS
分布式云存储系统
重复数据检测
删除
下载PDF
职称材料
基于极值点分块的重复数据检测算法
2
作者
谢垂益
卿斯汉
《信息网络安全》
2013年第8期10-12,共3页
重复数据检测技术能够大幅降低数据中心的存储量,节省网络带宽,减少建设和运维成本。为了克服基于内容分块(CDC)方法容易出现超长块的缺点,文章提出了基于极值点分块(EDC)的重复数据检测算法。EDC算法先计算出所有右边界在数据块上下限...
重复数据检测技术能够大幅降低数据中心的存储量,节省网络带宽,减少建设和运维成本。为了克服基于内容分块(CDC)方法容易出现超长块的缺点,文章提出了基于极值点分块(EDC)的重复数据检测算法。EDC算法先计算出所有右边界在数据块上下限范围内的滑动窗口中数据的指纹,找出最后一个指纹极值,所对应的滑动窗口结束位置作为数据块的分界点,再计算该数据块的哈希值并判断是否重复块。实验结果表明,EDC算法的重复数据检测率、磁盘利用率分别是CDC算法的1.48倍和1.12倍,改进效果显著。
展开更多
关键词
重复数据检测
基于内容分块
基于极值点分块
指纹
下载PDF
职称材料
一种基于滑动分块的重复数据检测算法
被引量:
7
3
作者
郑亚光
潘久辉
《计算机工程》
CAS
CSCD
北大核心
2016年第2期38-44,共7页
当被插入或删除的字节接近于匹配失败数据段两侧时,会导致SBBS算法回溯功能局部甚至完全失效。为此,提出一种改进的重复数据检测算法。采用滑动与滚动相结合的窗口移动模式减少窗口计算量,利用Rsync滚动校验和算法与MD5算法优化窗口计...
当被插入或删除的字节接近于匹配失败数据段两侧时,会导致SBBS算法回溯功能局部甚至完全失效。为此,提出一种改进的重复数据检测算法。采用滑动与滚动相结合的窗口移动模式减少窗口计算量,利用Rsync滚动校验和算法与MD5算法优化窗口计算模式,加快匹配速度。通过回溯匹配失败数据段,检测其中的重复数据段,以提升重复数据的检测精度。实验结果表明,与SBBS算法相比,该算法在重复数据段均匀分布与非均匀分布时的查全率分别提高约4.32%和5.28%。
展开更多
关键词
重复数据检测
匹配失败
数据
段
SBBS算法
窗口计算
校验和算法
回溯
下载PDF
职称材料
MapReduce模型下增量重复数据检测方法
被引量:
3
4
作者
董富森
杨波
+1 位作者
马坤
王文华
《济南大学学报(自然科学版)》
CAS
北大核心
2015年第4期241-245,共5页
针对重复数据检测过程中增量数据重复值检测问题进行分析,在基本近邻排序算法基础上,提出增量近邻排序比较算法。该算法通过跳动窗口形式比较相邻数据,大大减少了数据比较次数;同时引入MapReduce模型对该算法加以改进以提高其海量数据...
针对重复数据检测过程中增量数据重复值检测问题进行分析,在基本近邻排序算法基础上,提出增量近邻排序比较算法。该算法通过跳动窗口形式比较相邻数据,大大减少了数据比较次数;同时引入MapReduce模型对该算法加以改进以提高其海量数据处理的能力。实验表明,改进后的增量近邻排序比较算法在保证检则结果准确的前提下,能够有效提高增量数据重复检测的速度,并且算法具有较高的稳定性,更适应海量数据环境中重复数据检测任务。
展开更多
关键词
增量
重复数据检测
跳动窗口
MAPREDUCE模型
下载PDF
职称材料
重复数据检测在多版本数据备份中的应用
被引量:
4
5
作者
崔兴华
杜晓黎
赵晓睿
《计算机应用研究》
CSCD
北大核心
2009年第1期206-208,220,共4页
分析了当前主要的重复数据检测技术,针对多版本数据的备份/还原过程提出了重复数据检测三级模型,有效地解决了检测粒度和检测开销之间的矛盾,从而减少了多版本数据备份/还原过程中的数据传输量,节省了备份空间。
关键词
数据
备份
重复数据检测
RSYNC算法
下载PDF
职称材料
Rabin指纹算法在重复数据检测中的应用研究
6
作者
谢垂益
钟红君
《电脑知识与技术》
2013年第7X期4918-4920,4932,共4页
Rabin指纹算法计算效率高、随机性好,可将数据更改对连续指纹序列的影响限制在局部范围内,广泛应用于重复数据检测领域。分析了Rabin指纹在有限域GF(2n)上的运算原理,得出滑动窗口移动时定长字符序列的数字指纹快速计算公式。用伪代码...
Rabin指纹算法计算效率高、随机性好,可将数据更改对连续指纹序列的影响限制在局部范围内,广泛应用于重复数据检测领域。分析了Rabin指纹在有限域GF(2n)上的运算原理,得出滑动窗口移动时定长字符序列的数字指纹快速计算公式。用伪代码描述了Rabin指纹算法在重复数据检测中的应用,并用VC++语言进行了算法实现,在普通计算机上提取Word文档、程序源代码和BMP图像等三类文件作为测试数据集,测试结果表明算法是有效的。
展开更多
关键词
存储系统
重复数据检测
Rabin指纹
基于内容分块
有限域
下载PDF
职称材料
一种基于核心词相似度的重复数据检测框架构建
7
作者
吴善鹏
李萍
《信息系统工程》
2020年第5期30-32,共3页
针对数据清洗过程中的重复数据问题,以企业名称的相似重复度检查为例,提出一种利用核心词相似计算的重复数据检测框架构建。通过对相似重复数据进行分词程序处理和特征属性字典映射,提取核心词,再对核心词作相似度计算,所得结果加权求...
针对数据清洗过程中的重复数据问题,以企业名称的相似重复度检查为例,提出一种利用核心词相似计算的重复数据检测框架构建。通过对相似重复数据进行分词程序处理和特征属性字典映射,提取核心词,再对核心词作相似度计算,所得结果加权求和得出相似度,以相似度阈值来判别是否重复。实验表明,该框架可有效用于重复数据检测,具有工程实用性。
展开更多
关键词
数据
治理
重复数据检测
企业名称
重复
检测
相似度计算
下载PDF
职称材料
基于内容的重复数据删除技术的研究
被引量:
3
8
作者
段梦博
蔡兴旺
《电脑知识与技术》
2010年第8期6275-6277,共3页
随着企业数据信息量的不断地增加,海量数据信息的存储和不断备份已经给企业的存储空间带来了巨大的存储压力;本文分析了当前主要的重复数据检测和删除技术,,并分析了其优缺点。并提出一种基于内容的重复数据删除策略。
关键词
重复数据检测
重复
数据
删除
网络存储系统
可靠性
性能
下载PDF
职称材料
基于数据位图的滑动分块算法
被引量:
2
9
作者
邓雪峰
孙瑞志
+1 位作者
张永瀚
聂娟
《计算机研究与发展》
EI
CSCD
北大核心
2014年第S2期30-38,共9页
网络中相似的数据文件进行同步与存储的过程中,对数据进行分块是检测数据重复的重要步骤之一,在有效地对数据分块的基础上才能更准确地定位数据间的差异部分.就数据分块方法予以分析总结,在滑动分块算法的基础上,重新将数据文件组织成...
网络中相似的数据文件进行同步与存储的过程中,对数据进行分块是检测数据重复的重要步骤之一,在有效地对数据分块的基础上才能更准确地定位数据间的差异部分.就数据分块方法予以分析总结,在滑动分块算法的基础上,重新将数据文件组织成类似位图的排列形式,对数据位图以列向读取数据信息,形成新的数据分块,并计算列向读取数据的分块指纹信息,以列向数据指纹作为补充校正滑动分块算法定位差异数据能力的不足之处,从而获得更精确的数据差异信息.经实验证明,本方法在同源文件的数据重复检测中效果好于相同条件下的滑动分块方法.
展开更多
关键词
滑动分块算法
重复数据检测
数据
位图
数据
差异
数据
同步
下载PDF
职称材料
高效的两轮远程文件快速同步算法
被引量:
12
10
作者
徐旦
生拥宏
+2 位作者
鞠大鹏
吴建平
汪东升
《计算机科学与探索》
CSCD
2011年第1期38-49,共12页
远程文件快速同步在文件备份与恢复、Web与ftp网站镜像、分发网络、Web访问中具有广泛的应用。提出了一种高效的基于变长分块和定长滑动块相结合的两轮快速文件同步算法——tpsync。同步算法分两轮进行,第一轮利用基于可变分块技术在粗...
远程文件快速同步在文件备份与恢复、Web与ftp网站镜像、分发网络、Web访问中具有广泛的应用。提出了一种高效的基于变长分块和定长滑动块相结合的两轮快速文件同步算法——tpsync。同步算法分两轮进行,第一轮利用基于可变分块技术在粗粒度上定位待同步文件的局部变化数据段,第二轮对局部变化数据段采用定长滑动切块技术在细粒度上查找出差异数据,最终通过两轮数据交互实现文件的同步。将tpsync与传统的单轮同步算法rsync进行了对比实验,通过对文本、二进制和数据库三种文件类型相似版本之间的同步实验,结果表明tpsync在平均同步时间和网络传输数据量两个方面均优于rsync。
展开更多
关键词
重复数据检测
文件同步
RSYNC算法
下载PDF
职称材料
题名
基于HDFS分布式云存储系统的重复数据检测与删除研究
1
作者
王储
机构
河南大学软件学院
出处
《电脑编程技巧与维护》
2024年第1期92-95,共4页
文摘
传统最远点采样(FPS)算法、数据类型分析(WFC)算法的去重冗余度高,在同一数据集分块、去重检测中的数据重复率达到70~90%。基于这一实际情况,提出基于Hadoop分布式软件框架、分布式文件系统(HDFS)等云服务技术,建构用于复杂数据结构分析、数据分块去重的HDFS-SDBS云存储管理系统,使用基于文件相似度的抽样删除索引(SDBS)算法进行文件数据分块、哈希值(Hash)计算、随机抽样的相似度判定,利用元数据索引查重方式完成输入文件数据、内存数据的比对,删除相似度过高的重复数据,以提升云环境下的数据存储效率与准确率。
关键词
HDFS-SDBS
分布式云存储系统
重复数据检测
删除
分类号
TP333 [自动化与计算机技术—计算机系统结构]
TP311.13 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
基于极值点分块的重复数据检测算法
2
作者
谢垂益
卿斯汉
机构
韶关学院数学与信息科学学院
中国科学院软件研究所
出处
《信息网络安全》
2013年第8期10-12,共3页
基金
国家自然科学基金[60970135
61170282]
+1 种基金
韶关市创新资金项目[201210]
韶关学院科研项目[201202]
文摘
重复数据检测技术能够大幅降低数据中心的存储量,节省网络带宽,减少建设和运维成本。为了克服基于内容分块(CDC)方法容易出现超长块的缺点,文章提出了基于极值点分块(EDC)的重复数据检测算法。EDC算法先计算出所有右边界在数据块上下限范围内的滑动窗口中数据的指纹,找出最后一个指纹极值,所对应的滑动窗口结束位置作为数据块的分界点,再计算该数据块的哈希值并判断是否重复块。实验结果表明,EDC算法的重复数据检测率、磁盘利用率分别是CDC算法的1.48倍和1.12倍,改进效果显著。
关键词
重复数据检测
基于内容分块
基于极值点分块
指纹
Keywords
duplicated data detection
content defined chunking
extremum defined chunking
fingerprint
分类号
TP308 [自动化与计算机技术—计算机系统结构]
TP274 [自动化与计算机技术—检测技术与自动化装置]
下载PDF
职称材料
题名
一种基于滑动分块的重复数据检测算法
被引量:
7
3
作者
郑亚光
潘久辉
机构
暨南大学信息科学技术学院
出处
《计算机工程》
CAS
CSCD
北大核心
2016年第2期38-44,共7页
基金
公安部技术研究计划基金资助项目(2014JSYJB048)
武汉大学软件工程国家重点实验室开放基金资助项目(SKLSE2012-09-37)
文摘
当被插入或删除的字节接近于匹配失败数据段两侧时,会导致SBBS算法回溯功能局部甚至完全失效。为此,提出一种改进的重复数据检测算法。采用滑动与滚动相结合的窗口移动模式减少窗口计算量,利用Rsync滚动校验和算法与MD5算法优化窗口计算模式,加快匹配速度。通过回溯匹配失败数据段,检测其中的重复数据段,以提升重复数据的检测精度。实验结果表明,与SBBS算法相比,该算法在重复数据段均匀分布与非均匀分布时的查全率分别提高约4.32%和5.28%。
关键词
重复数据检测
匹配失败
数据
段
SBBS算法
窗口计算
校验和算法
回溯
Keywords
duplicate data detection
matching failure data segment
Sliding Blocking Algorithm with Backtracking Sub-block(SBBS)
window calculation
checksum algorithm
backtracking
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
MapReduce模型下增量重复数据检测方法
被引量:
3
4
作者
董富森
杨波
马坤
王文华
机构
济南大学山东省网络环境智能计算技术重点实验室
出处
《济南大学学报(自然科学版)》
CAS
北大核心
2015年第4期241-245,共5页
基金
国家自然科学基金(61173078)
文摘
针对重复数据检测过程中增量数据重复值检测问题进行分析,在基本近邻排序算法基础上,提出增量近邻排序比较算法。该算法通过跳动窗口形式比较相邻数据,大大减少了数据比较次数;同时引入MapReduce模型对该算法加以改进以提高其海量数据处理的能力。实验表明,改进后的增量近邻排序比较算法在保证检则结果准确的前提下,能够有效提高增量数据重复检测的速度,并且算法具有较高的稳定性,更适应海量数据环境中重复数据检测任务。
关键词
增量
重复数据检测
跳动窗口
MAPREDUCE模型
Keywords
incremental duplicated data detection
jumping windows
MapReduce model
分类号
TP311.13 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
重复数据检测在多版本数据备份中的应用
被引量:
4
5
作者
崔兴华
杜晓黎
赵晓睿
机构
中国科学院计算技术研究所研究生院
联想北京研究院互联网计算研究室
出处
《计算机应用研究》
CSCD
北大核心
2009年第1期206-208,220,共4页
基金
国家“863”计划资助项目(2004AA1Z2250)
文摘
分析了当前主要的重复数据检测技术,针对多版本数据的备份/还原过程提出了重复数据检测三级模型,有效地解决了检测粒度和检测开销之间的矛盾,从而减少了多版本数据备份/还原过程中的数据传输量,节省了备份空间。
关键词
数据
备份
重复数据检测
RSYNC算法
Keywords
data backup
duplicated data detection
Rsync
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
Rabin指纹算法在重复数据检测中的应用研究
6
作者
谢垂益
钟红君
机构
韶关学院数学与信息科学学院
韶关市广播电视大学
出处
《电脑知识与技术》
2013年第7X期4918-4920,4932,共4页
基金
广东远程开放教育科研基金项目(YJ1333)
韶关市创新资金项目(201210)
韶关学院科研项目(201202)
文摘
Rabin指纹算法计算效率高、随机性好,可将数据更改对连续指纹序列的影响限制在局部范围内,广泛应用于重复数据检测领域。分析了Rabin指纹在有限域GF(2n)上的运算原理,得出滑动窗口移动时定长字符序列的数字指纹快速计算公式。用伪代码描述了Rabin指纹算法在重复数据检测中的应用,并用VC++语言进行了算法实现,在普通计算机上提取Word文档、程序源代码和BMP图像等三类文件作为测试数据集,测试结果表明算法是有效的。
关键词
存储系统
重复数据检测
Rabin指纹
基于内容分块
有限域
Keywords
storage system
duplicated data detection
rabin fingerprint
content defined chunking
galois field
分类号
TP391.41 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
一种基于核心词相似度的重复数据检测框架构建
7
作者
吴善鹏
李萍
机构
江苏大数据管理中心
出处
《信息系统工程》
2020年第5期30-32,共3页
文摘
针对数据清洗过程中的重复数据问题,以企业名称的相似重复度检查为例,提出一种利用核心词相似计算的重复数据检测框架构建。通过对相似重复数据进行分词程序处理和特征属性字典映射,提取核心词,再对核心词作相似度计算,所得结果加权求和得出相似度,以相似度阈值来判别是否重复。实验表明,该框架可有效用于重复数据检测,具有工程实用性。
关键词
数据
治理
重复数据检测
企业名称
重复
检测
相似度计算
分类号
TP311.13 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
基于内容的重复数据删除技术的研究
被引量:
3
8
作者
段梦博
蔡兴旺
机构
兰州交通大学电信学院
出处
《电脑知识与技术》
2010年第8期6275-6277,共3页
文摘
随着企业数据信息量的不断地增加,海量数据信息的存储和不断备份已经给企业的存储空间带来了巨大的存储压力;本文分析了当前主要的重复数据检测和删除技术,,并分析了其优缺点。并提出一种基于内容的重复数据删除策略。
关键词
重复数据检测
重复
数据
删除
网络存储系统
可靠性
性能
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
基于数据位图的滑动分块算法
被引量:
2
9
作者
邓雪峰
孙瑞志
张永瀚
聂娟
机构
中国农业大学农业部农业信息获取技术重点实验室
出处
《计算机研究与发展》
EI
CSCD
北大核心
2014年第S2期30-38,共9页
基金
中央高校基本科研业务费专项资金项目(2013YJ008)
国家科技支撑计划资助项目(2012BAH26B01)
文摘
网络中相似的数据文件进行同步与存储的过程中,对数据进行分块是检测数据重复的重要步骤之一,在有效地对数据分块的基础上才能更准确地定位数据间的差异部分.就数据分块方法予以分析总结,在滑动分块算法的基础上,重新将数据文件组织成类似位图的排列形式,对数据位图以列向读取数据信息,形成新的数据分块,并计算列向读取数据的分块指纹信息,以列向数据指纹作为补充校正滑动分块算法定位差异数据能力的不足之处,从而获得更精确的数据差异信息.经实验证明,本方法在同源文件的数据重复检测中效果好于相同条件下的滑动分块方法.
关键词
滑动分块算法
重复数据检测
数据
位图
数据
差异
数据
同步
Keywords
sliding blocking algorithm
duplicate data detection
data bitmap
data difference
data synchronization
分类号
TP333 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
高效的两轮远程文件快速同步算法
被引量:
12
10
作者
徐旦
生拥宏
鞠大鹏
吴建平
汪东升
机构
北京邮电大学计算机科学与技术学院
清华大学计算机科学与技术系
清华大学信息科学与技术国家实验室
出处
《计算机科学与探索》
CSCD
2011年第1期38-49,共12页
基金
国家自然科学基金No.60833004
60673145
国家高技术研究发展计划(863)No.2009AA1Z104~~
文摘
远程文件快速同步在文件备份与恢复、Web与ftp网站镜像、分发网络、Web访问中具有广泛的应用。提出了一种高效的基于变长分块和定长滑动块相结合的两轮快速文件同步算法——tpsync。同步算法分两轮进行,第一轮利用基于可变分块技术在粗粒度上定位待同步文件的局部变化数据段,第二轮对局部变化数据段采用定长滑动切块技术在细粒度上查找出差异数据,最终通过两轮数据交互实现文件的同步。将tpsync与传统的单轮同步算法rsync进行了对比实验,通过对文本、二进制和数据库三种文件类型相似版本之间的同步实验,结果表明tpsync在平均同步时间和网络传输数据量两个方面均优于rsync。
关键词
重复数据检测
文件同步
RSYNC算法
Keywords
duplicated data detection
file synchronization
rsync
分类号
TP393 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于HDFS分布式云存储系统的重复数据检测与删除研究
王储
《电脑编程技巧与维护》
2024
0
下载PDF
职称材料
2
基于极值点分块的重复数据检测算法
谢垂益
卿斯汉
《信息网络安全》
2013
0
下载PDF
职称材料
3
一种基于滑动分块的重复数据检测算法
郑亚光
潘久辉
《计算机工程》
CAS
CSCD
北大核心
2016
7
下载PDF
职称材料
4
MapReduce模型下增量重复数据检测方法
董富森
杨波
马坤
王文华
《济南大学学报(自然科学版)》
CAS
北大核心
2015
3
下载PDF
职称材料
5
重复数据检测在多版本数据备份中的应用
崔兴华
杜晓黎
赵晓睿
《计算机应用研究》
CSCD
北大核心
2009
4
下载PDF
职称材料
6
Rabin指纹算法在重复数据检测中的应用研究
谢垂益
钟红君
《电脑知识与技术》
2013
0
下载PDF
职称材料
7
一种基于核心词相似度的重复数据检测框架构建
吴善鹏
李萍
《信息系统工程》
2020
0
下载PDF
职称材料
8
基于内容的重复数据删除技术的研究
段梦博
蔡兴旺
《电脑知识与技术》
2010
3
下载PDF
职称材料
9
基于数据位图的滑动分块算法
邓雪峰
孙瑞志
张永瀚
聂娟
《计算机研究与发展》
EI
CSCD
北大核心
2014
2
下载PDF
职称材料
10
高效的两轮远程文件快速同步算法
徐旦
生拥宏
鞠大鹏
吴建平
汪东升
《计算机科学与探索》
CSCD
2011
12
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部