期刊文献+
共找到28篇文章
< 1 2 >
每页显示 20 50 100
A content aware chunking scheme for data de-duplication in archival storage systems
1
作者 Nie Xuejun Qin Leihua Zhou Jingli 《High Technology Letters》 EI CAS 2012年第1期45-50,共6页
关键词 数据删除 分块 存储系统 归档 文件类型 随机分布 文件内容 文件数据
下载PDF
A Detailed Chunk-Level Performance Study of Web Page Retrieve Latency
2
作者 谢海光 李翔 李建华 《Journal of Shanghai Jiaotong university(Science)》 EI 2005年第4期354-363,共10页
It is a widely discussed question that where the web latency comes from. In this paper, we propose a novel chunk-level latency dependence model to give a better illustration of the web latency. Based on the fact that ... It is a widely discussed question that where the web latency comes from. In this paper, we propose a novel chunk-level latency dependence model to give a better illustration of the web latency. Based on the fact that web content is delivered in chunk sequence, and clients care more about whole page retrieval latency, this paper carries out a detailed study on how the chunk sequence and relations affect the web retrieval latency. A series of thorough experiments are also conducted and data analysis are also made. The result is useful for further study on how to reduce the web latency. 展开更多
关键词 信息块 技术性能 检索方法 集成块
下载PDF
数据分块算法在定位差异数据时的作用分析
3
作者 黄文豪 齐德昱 +2 位作者 谢嵘 刘宇 张皓同 《计算机技术与发展》 2023年第10期22-27,共6页
差异数据定位在数据增量同步等领域得到了很好的应用。当下学者们将数据分块算法应用在差异数据定位中,提出了很多优秀的数据分块算法,并对各自算法的效率进行了论述和实验,但并没有从理论上论述数据分块算法在差异数据定位中的正确性... 差异数据定位在数据增量同步等领域得到了很好的应用。当下学者们将数据分块算法应用在差异数据定位中,提出了很多优秀的数据分块算法,并对各自算法的效率进行了论述和实验,但并没有从理论上论述数据分块算法在差异数据定位中的正确性。此外,定位到的差异数据的大小与数据分块算法的关系也没有进行理论分析,多是以实验结果来辅助说明。为此,文中对数据差异定位的过程进行抽象,对数据分块算法应用于该过程的正确性进行了论证,并对数据分块算法在数据差异定位中的作用进行分析。通过理论推导的方式,证明了数据分块算法在定位差异数据时的正确性,同时得出差异数据的大小与数据分块算法的关系。文中结论对设计应用于差异数据定位的数据分块算法有一定的参考意义。 展开更多
关键词 数据分块算法 差异数据定位 理论分析 数据增量同步 逻辑推理
下载PDF
一种优化的Hadoop数据放置策略
4
作者 吴岳 《软件工程》 2023年第7期44-47,共4页
Hadoop分布式文件系统(HDFS)的默认数据块放置策略均衡了数据存储的可靠性和读写速度,却没有考虑发挥集群的最佳性能。针对该问题提出了一种优化后的数据块放置算法。该算法为数据块设计2个指标,即被查询率与平均读取时间,用于评估集群... Hadoop分布式文件系统(HDFS)的默认数据块放置策略均衡了数据存储的可靠性和读写速度,却没有考虑发挥集群的最佳性能。针对该问题提出了一种优化后的数据块放置算法。该算法为数据块设计2个指标,即被查询率与平均读取时间,用于评估集群执行任务对数据块的需求量。在符合HDFS默认数据放置算法基本规则的前提下,通过对数据块的需求量进行分析,然后重新计算数据块的放置位置,将需求量最多的数据转移到能够最快处理它们的节点上。通过实验数据证明:该算法可以使集群整体性能提高20%以上。优化后的数据块放置算法是有效的,并且不会增加对集群带宽的占用。 展开更多
关键词 HDFS 数据块 放置策略 性能优化
下载PDF
一种融合文件及内容分块的重复数据删除算法
5
作者 朱建平 黄恒 +2 位作者 周积 陈海茂 黄利君 《软件》 2023年第12期53-59,86,共8页
重复数据删除对于文件增量同步、云存储和容灾备份等研究具有十分重要的作用和意义,能够大大地提高磁盘存储的效率。结合现有的文件级和块级去重算法的优势,并针对基于内容的分块算法CDC容易因超大块而导致块大小方差变化大的问题,提出... 重复数据删除对于文件增量同步、云存储和容灾备份等研究具有十分重要的作用和意义,能够大大地提高磁盘存储的效率。结合现有的文件级和块级去重算法的优势,并针对基于内容的分块算法CDC容易因超大块而导致块大小方差变化大的问题,提出了一种融合文件及内容分块的重复数据删除算法DMix。DMix采用了面向文件级和块级的两阶段重复数据检测及删除方法,并在快速双极值分块算法RDE的基础上,提出包含最大块阈值的内容分块算法RDEL,使得RDEL在保持良好的低熵字符串处理能力和抗字节偏移能力的同时,进一步降低了块大小方差。算法分析及实验结果表示,DMix及RDEL能够有效提升重复数据删除的效率,并能有效地降低CDC算法的块大小方差。 展开更多
关键词 内容分块 文件存储 重复数据删除
下载PDF
面向SaaS应用的数据组合隐私保护机制研究 被引量:35
6
作者 张坤 李庆忠 史玉良 《计算机学报》 EI CSCD 北大核心 2010年第11期2044-2054,共11页
软件即服务(SaaS)模式下,业务应用和数据库部署在非完全可信的服务运营商的平台上,租户数据的隐私保护成为SaaS模式应用和推广中一个极大的问题和挑战.基于明文状态下不同SaaS数据属性组合泄露隐私程度的不同,提出一种面向SaaS应用的数... 软件即服务(SaaS)模式下,业务应用和数据库部署在非完全可信的服务运营商的平台上,租户数据的隐私保护成为SaaS模式应用和推广中一个极大的问题和挑战.基于明文状态下不同SaaS数据属性组合泄露隐私程度的不同,提出一种面向SaaS应用的数据组合隐私保护机制.该隐私保护机制支持租户自定制隐私约束,用来描述数据组合隐私保护需求,将SaaS数据属性切分到不同的数据分块中,利用可信第三方实现数据切片间关联关系的混淆和重构,并基于伪造数据,确保同一数据分块内部数据切片分布的均衡化,实现SaaS数据组合隐私保护和实用性的有效结合.通过分析,证明了隐私保护机制的合理性,并通过实验验证了该隐私保护机制的实用性. 展开更多
关键词 软件即服务 隐私保护 数据组合隐私 数据分块
下载PDF
面向隐私保护的数据块调整机制 被引量:6
7
作者 史玉良 陈玉 +1 位作者 孙世彬 崔立真 《计算机学报》 EI CSCD 北大核心 2017年第12期2719-2733,共15页
在云计算环境下,通过分块混淆的隐私保护机制,将租户的数据分成多个数据块,并且存储到不同的数据节点上,以此实现数据的隐私保护.虽然该方法可以实现在明文状态下保护租户数据的隐私安全,但在实际环境中,由于租户的隐私需求、数据需求... 在云计算环境下,通过分块混淆的隐私保护机制,将租户的数据分成多个数据块,并且存储到不同的数据节点上,以此实现数据的隐私保护.虽然该方法可以实现在明文状态下保护租户数据的隐私安全,但在实际环境中,由于租户的隐私需求、数据需求是可变的,导致云端底层的数据块结构和存储位置发生变化,因此在这种隐私保护机制下依然存在隐私泄露的风险.所以该文基于分块混淆隐私保护方法,提出一种面向隐私保护的数据块调整机制.该机制首先根据租户更新后的隐私约束,基于少动性原则,对原始的隐私保护策略中违背隐私约束的数据块进行分割;然后再结合隐私约束,重组数据块,并生成隐私保护调整策略;由于数据块分割结果的多样性,导致最终生成的可行隐私保护策略并不唯一,所以该文最后综合隐私需求、性能需求、负载需求和不对等均衡,提出了一种基于全局最优的隐私保护策略选择算法,实现从多种可行策略中筛选出满足所有要求的最优调整策略.实验结果表明,该文提出的数据块调整机制,可以找到一种最优的隐私保护调整策略,并且满足系统的性能和负载要求,增强租户数据的隐私保护效果. 展开更多
关键词 云计算 数据块 隐私保护 数据调整 负载能力 最优调整策略
下载PDF
基于字节指纹极值特征的数据分块算法 被引量:3
8
作者 孙继忠 马永强 李玉华 《计算机工程》 CAS CSCD 北大核心 2010年第8期69-70,73,共3页
针对基于内容的数据分块算法中基本滑动窗口算法不能确定最大数据块的问题,提出一种基于字节指纹极值特征的数据分块算法。算法以上一个块边界点为起点构建最大块长区间,通过定义字节指纹极值域半径函数F并利用函数F值的分布特性,以概率... 针对基于内容的数据分块算法中基本滑动窗口算法不能确定最大数据块的问题,提出一种基于字节指纹极值特征的数据分块算法。算法以上一个块边界点为起点构建最大块长区间,通过定义字节指纹极值域半径函数F并利用函数F值的分布特性,以概率1在允许的最大块长的区间内确定下一个块边界点。该算法克服了基本滑动窗口等分块算法不能确定最大分块长度的不足,其时间复杂度为O(n)。 展开更多
关键词 数据分块算法 哈希指纹 存储算法
下载PDF
基于数据块级迁移策略的设计与实现 被引量:5
9
作者 周斌 汪浪 +1 位作者 张莹 谭佳豪 《计算机工程与设计》 北大核心 2016年第7期1822-1826,共5页
为优化分层存储系统中数据迁移策略性能,进一步提高整个存储系统的存储性能,提出一个基于数据块级别的价值评价模型。综合考虑块级数据特点,分别量化块级数据大小、读写频次、数据块间关联度、历史价值系数得出数据块价值;在此模型的基... 为优化分层存储系统中数据迁移策略性能,进一步提高整个存储系统的存储性能,提出一个基于数据块级别的价值评价模型。综合考虑块级数据特点,分别量化块级数据大小、读写频次、数据块间关联度、历史价值系数得出数据块价值;在此模型的基础上,提出基于主动迁移阈值和被动迁移阈值的双阈值迁移策略。通过实验验证了评价模型的可行性和算法的有效性。 展开更多
关键词 大数据 分层存储 块级数据评价 双阈值 迁移策略
下载PDF
Winnowing指纹串匹配的重复数据删除算法 被引量:6
10
作者 王青松 葛慧 《计算机应用》 CSCD 北大核心 2018年第3期677-681,714,共6页
针对可变长度分块(CDC)的重复数据删除算法的分块大小难以控制、指纹计算对比开销大、需要预先设置参数问题,提出Winnowing指纹串匹配的重复数据删除算法(DWFM)。首先,在数据分块前引入分块大小预测模型,较准确地根据应用场景计算出合... 针对可变长度分块(CDC)的重复数据删除算法的分块大小难以控制、指纹计算对比开销大、需要预先设置参数问题,提出Winnowing指纹串匹配的重复数据删除算法(DWFM)。首先,在数据分块前引入分块大小预测模型,较准确地根据应用场景计算出合适的分块大小;然后,在计算指纹时采用ASCII/Unicode编码方式作为数据块指纹;最后,在确定分块边界时,提出指纹串匹配的分块算法,不需要预先设置参数,使得指纹计算和对比开销减少。在多种数据集上的实验结果表明,相比固定长度分块(FSP)和CDC算法,DWFM在数据的重删率上提升10%左右,在指纹计算和对比开销方面减少了18%左右。因此,DWFM的分块大小和边界更加符合数据特性,减少了参数设置对重复数据删除算法性能的影响,在处理不同类型的数据时,可以有效地消除更多的重复数据。 展开更多
关键词 重复数据删除 数据分块 指纹串匹配 WINNOWING 分块预测
下载PDF
对等流媒体数据调度优化算法 被引量:1
11
作者 李润知 张茜 林予松 《计算机工程与设计》 CSCD 北大核心 2014年第7期2447-2452,共6页
对Mesh结构的对等流媒体系统中的数据调度问题进行了研究。进行了优化算法的分析,利用本地多级缓存来提高数据分片在节点间的分发能力,在此基础上通过将分片播放紧急度和稀缺度加权合并来定义数据优先请求级别;分析了影响节点上传能力... 对Mesh结构的对等流媒体系统中的数据调度问题进行了研究。进行了优化算法的分析,利用本地多级缓存来提高数据分片在节点间的分发能力,在此基础上通过将分片播放紧急度和稀缺度加权合并来定义数据优先请求级别;分析了影响节点上传能力的多种因素,采用历史信息统计法来估算节点上传能力,提出基于数据优先级和节点能力评估的对等流媒体数据调度算法。仿真结果表明,基于数据优先级和节点能力评估的调度算法在节点扰动性较强的网络环境中能较好保证节点播放的连续性和数据分片上传能力。 展开更多
关键词 P2P流媒体 数据驱动 数据调度 分片优先级 节点调度
下载PDF
基于分布式文件系统的海量电能质量监测数据管理方案 被引量:42
12
作者 张逸 杨洪耕 叶茂清 《电力系统自动化》 EI CSCD 北大核心 2014年第2期102-108,共7页
目前,电能质量监测数据已经呈现海量化的趋势,如果仅用关系数据库存储,将带来存储占用空间大、存取速度慢、可扩展性差等问题。文中通过分析现有电能质量监测系统中的数据存取特征和硬件环境,提出了一种基于分布式文件系统的海量电能质... 目前,电能质量监测数据已经呈现海量化的趋势,如果仅用关系数据库存储,将带来存储占用空间大、存取速度慢、可扩展性差等问题。文中通过分析现有电能质量监测系统中的数据存取特征和硬件环境,提出了一种基于分布式文件系统的海量电能质量监测数据管理方案。此方案将不同电能质量指标的历史监测数据分别压缩后存储在文件中;利用现有监测子站以及相关系统的分布式异构服务器作为文件服务器以存储数据文件;利用监测主站服务器作为主服务器,保存数据特征值和文件索引,并对文件资源进行统一管理。此方案充分利用了各服务器的存储空间和网络带宽,节约了存储空间,提高了存取效率,具有较高的可靠性和可扩展性。以存储100个监测点180 d数据为例,此方案存储空间占用仅为传统关系数据库方案的2.28%;以检索某个监测点180 d的5次谐波三相电压幅值数据为例,此方案加速比约为16.49倍。在四川电能质量一体化数据平台中的成功应用证明了此方案的可靠性和实用性。 展开更多
关键词 电能质量 海量数据 分布式文件系统 文件分块机制 容错机制
下载PDF
SQL Server数据库中图像存取技术研究 被引量:6
13
作者 杨宁 申强 谢静 《南京晓庄学院学报》 2010年第3期82-84,共3页
为了充分发挥数据库管理系统的强大功能,将图像信息由数据库管理系统统一存储和管理,已成为数据库技术发展的新趋势.文章讨论了利用VB6.0提供的ADO控件在SQL Server数据库中图像存取的原理和方法,比较了各种技术的优缺点,解决了将图像... 为了充分发挥数据库管理系统的强大功能,将图像信息由数据库管理系统统一存储和管理,已成为数据库技术发展的新趋势.文章讨论了利用VB6.0提供的ADO控件在SQL Server数据库中图像存取的原理和方法,比较了各种技术的优缺点,解决了将图像数据存入数据库的问题. 展开更多
关键词 SQL SERVER ADO 图像 大块数据存取
下载PDF
基于对象的OpenXML复合文件去重方法研究 被引量:17
14
作者 阎芳 李元章 +1 位作者 张全新 谭毓安 《计算机研究与发展》 EI CSCD 北大核心 2015年第7期1546-1557,共12页
现有的重复数据删除技术大部分是基于变长分块(content defined chunking,CDC)算法的,不考虑不同文件类型的内容特征.这种方法以一种随机的方式确定分块边界并应用于所有文件类型,已经证明其非常适合于文本和简单内容,而不适合非结构化... 现有的重复数据删除技术大部分是基于变长分块(content defined chunking,CDC)算法的,不考虑不同文件类型的内容特征.这种方法以一种随机的方式确定分块边界并应用于所有文件类型,已经证明其非常适合于文本和简单内容,而不适合非结构化数据构成的复合文件.分析了OpenXML标准的复合文件属性,给出了对象提取的基本方法,并提出基于对象分布和对象结构的去重粒度确定算法.目的是对于非结构化数据构成的复合文件,有效地检测不同文件中和同一文件不同位置的相同对象,在文件物理布局改变时也能够有效去重.通过对典型的非结构化数据集合的模拟实验表明,在综合情况下,对象重复数据删除比CDC方法提高了10%左右的非结构化数据的去重率. 展开更多
关键词 变长分块 对象 非结构化数据 OpenXML标准 复合文件 重复数据删除
下载PDF
语料库数据驱动下词块能力与英语写作研究 被引量:3
15
作者 林巧文 郑静 《集美大学学报(哲学社会科学版)》 2017年第3期113-118,共6页
词块是英语写作的重要组成部分。基于语料库数据驱动理论,以非英语专业学习者为研究对象,通过16周的实证研究发现,词块能力与英语写作有显著的相关性;词块习得不仅能有效地提高学习者的词块能力,尤其在聚合词和搭配词方面,而且能提升学... 词块是英语写作的重要组成部分。基于语料库数据驱动理论,以非英语专业学习者为研究对象,通过16周的实证研究发现,词块能力与英语写作有显著的相关性;词块习得不仅能有效地提高学习者的词块能力,尤其在聚合词和搭配词方面,而且能提升学习者英语写作用词的多样性、准确性和连贯性。 展开更多
关键词 语料库 数据驱动 词块能力 英语写作
下载PDF
基于云计算的智能电表用户表单隐私保护 被引量:1
16
作者 任梦吟 毛琪琦 +1 位作者 马婷 文红 《智能电网(汉斯)》 2014年第3期123-128,共6页
智能电力系统的快速发展,对于海量数据的存储及计算的要求越来越高,使其与云计算的结合成为必然。但是接入云计算系统不可避免的带来了数据安全问题。本文针对智能电表系统的用户信息隐私保护,基于数据组合隐私机制,引入可信第三方,运... 智能电力系统的快速发展,对于海量数据的存储及计算的要求越来越高,使其与云计算的结合成为必然。但是接入云计算系统不可避免的带来了数据安全问题。本文针对智能电表系统的用户信息隐私保护,基于数据组合隐私机制,引入可信第三方,运用数据分块存储及分块关系混淆技术保护智能电表系统的用户隐私。并提出分块信息表单系统,在分块存储环境下实现数据插入与数据查询。 展开更多
关键词 电力云计算 隐私保护 数据分块
下载PDF
基于位串内容感知的数据分块算法
17
作者 周斌 朱容波 张莹 《计算机工程与科学》 CSCD 北大核心 2016年第10期1967-1973,共7页
针对基于内容的可变长度的分块CDC算法中数字签名计算需要耗费大量CPU开销的问题,提出了一种基于位串内容感知的数据块分块算法。算法利用每一次失败匹配尝试所带来的位特征信息,最大限度地排除不能匹配的位置,从而获得最大的跳跃长度,... 针对基于内容的可变长度的分块CDC算法中数字签名计算需要耗费大量CPU开销的问题,提出了一种基于位串内容感知的数据块分块算法。算法利用每一次失败匹配尝试所带来的位特征信息,最大限度地排除不能匹配的位置,从而获得最大的跳跃长度,减少中间计算和比较的开销。实验结果表明,本算法减小了数据分块过程中数字签名计算的开销,降低了确定块边界时的CPU资源消耗,从而优化了数据分块的时间性能。 展开更多
关键词 位串内容感知 数据分块 数字签名
下载PDF
基于HBase的多分类逻辑回归算法研究 被引量:11
18
作者 刘黎志 邓介一 吴云韬 《计算机应用研究》 CSCD 北大核心 2018年第10期3007-3010,共4页
为解决在大数据环境下,用于训练多分类逻辑回归模型的数据集可能会超过执行计算的客户端内存的问题,提出了块批量梯度下降算法,用于计算回归模型的系数。将训练数据集存入HBase后,通过设置表扫描对象的起始行键参数,可取出大小合适的含... 为解决在大数据环境下,用于训练多分类逻辑回归模型的数据集可能会超过执行计算的客户端内存的问题,提出了块批量梯度下降算法,用于计算回归模型的系数。将训练数据集存入HBase后,通过设置表扫描对象的起始行键参数,可取出大小合适的含训练样本及结果值的数据块;同时为避免客户端到服务端频繁的RPC调用,取出的数据块可进行多次迭代计算,以加快系数的收敛。当取出的数据块达到指定的迭代次数后,再按行键次序取出下一个数据块。如此循环,直到系数收敛或达到指定的循环控制阈值。多分类的逻辑回归问题可转换为二分类来解决,因此需要为每一个分类在训练数据表中设定结果值列,结合训练样本列簇,按块批量梯度下降算法得到每个分类的回归系数。实验结果表明得到的回归系数能准确地对测试样本进行分类。 展开更多
关键词 块批量梯度下降 多分类 逻辑回归 大数据 HBASE
下载PDF
基于极值点分块的重复数据检测算法
19
作者 谢垂益 卿斯汉 《信息网络安全》 2013年第8期10-12,共3页
重复数据检测技术能够大幅降低数据中心的存储量,节省网络带宽,减少建设和运维成本。为了克服基于内容分块(CDC)方法容易出现超长块的缺点,文章提出了基于极值点分块(EDC)的重复数据检测算法。EDC算法先计算出所有右边界在数据块上下限... 重复数据检测技术能够大幅降低数据中心的存储量,节省网络带宽,减少建设和运维成本。为了克服基于内容分块(CDC)方法容易出现超长块的缺点,文章提出了基于极值点分块(EDC)的重复数据检测算法。EDC算法先计算出所有右边界在数据块上下限范围内的滑动窗口中数据的指纹,找出最后一个指纹极值,所对应的滑动窗口结束位置作为数据块的分界点,再计算该数据块的哈希值并判断是否重复块。实验结果表明,EDC算法的重复数据检测率、磁盘利用率分别是CDC算法的1.48倍和1.12倍,改进效果显著。 展开更多
关键词 重复数据检测 基于内容分块 基于极值点分块 指纹
下载PDF
一种多样性和精度加权的数据流集成分类算法 被引量:7
20
作者 张本才 王志海 孙艳歌 《智能系统学报》 CSCD 北大核心 2019年第1期179-185,共7页
为了克服数据流中概念漂移对分类的影响,提出了一种基于多样性和精度加权的集成分类方法 (diversity and accuracy weighting ensemble classification algorithm, DAWE),该方法与已有的其他集成方法不同的地方在于,DAWE同时考虑了多样... 为了克服数据流中概念漂移对分类的影响,提出了一种基于多样性和精度加权的集成分类方法 (diversity and accuracy weighting ensemble classification algorithm, DAWE),该方法与已有的其他集成方法不同的地方在于,DAWE同时考虑了多样性和精度这两种度量标准,将分类器在最新数据块上的精度及其在集成分类器中的多样性进行线性加权,以此来衡量一个分类器对于当前集成分类器的价值,并将价值度量用于基分类器替换策略。提出的DAWE算法与MOA中最新算法分别在真实数据和人工合成数据上进行了对比实验,实验表明,提出的方法是有效的,在所有数据集上的平均精度优于其他算法,该方法能有效处理数据流挖掘中的概念漂移问题。 展开更多
关键词 数据流 概念漂移 多样性 精度 集成学习 数据块 价值度量 MOA
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部