期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
数据分块算法在定位差异数据时的作用分析
1
作者 黄文豪 齐德昱 +2 位作者 谢嵘 刘宇 张皓同 《计算机技术与发展》 2023年第10期22-27,共6页
差异数据定位在数据增量同步等领域得到了很好的应用。当下学者们将数据分块算法应用在差异数据定位中,提出了很多优秀的数据分块算法,并对各自算法的效率进行了论述和实验,但并没有从理论上论述数据分块算法在差异数据定位中的正确性... 差异数据定位在数据增量同步等领域得到了很好的应用。当下学者们将数据分块算法应用在差异数据定位中,提出了很多优秀的数据分块算法,并对各自算法的效率进行了论述和实验,但并没有从理论上论述数据分块算法在差异数据定位中的正确性。此外,定位到的差异数据的大小与数据分块算法的关系也没有进行理论分析,多是以实验结果来辅助说明。为此,文中对数据差异定位的过程进行抽象,对数据分块算法应用于该过程的正确性进行了论证,并对数据分块算法在数据差异定位中的作用进行分析。通过理论推导的方式,证明了数据分块算法在定位差异数据时的正确性,同时得出差异数据的大小与数据分块算法的关系。文中结论对设计应用于差异数据定位的数据分块算法有一定的参考意义。 展开更多
关键词 数据分块算法 差异数据定位 理论分析 数据增量同步 逻辑推理
下载PDF
基于字节指纹极值特征的数据分块算法 被引量:3
2
作者 孙继忠 马永强 李玉华 《计算机工程》 CAS CSCD 北大核心 2010年第8期69-70,73,共3页
针对基于内容的数据分块算法中基本滑动窗口算法不能确定最大数据块的问题,提出一种基于字节指纹极值特征的数据分块算法。算法以上一个块边界点为起点构建最大块长区间,通过定义字节指纹极值域半径函数F并利用函数F值的分布特性,以概率... 针对基于内容的数据分块算法中基本滑动窗口算法不能确定最大数据块的问题,提出一种基于字节指纹极值特征的数据分块算法。算法以上一个块边界点为起点构建最大块长区间,通过定义字节指纹极值域半径函数F并利用函数F值的分布特性,以概率1在允许的最大块长的区间内确定下一个块边界点。该算法克服了基本滑动窗口等分块算法不能确定最大分块长度的不足,其时间复杂度为O(n)。 展开更多
关键词 数据分块算法 哈希指纹 存储算法
下载PDF
一种大数据估价算法 被引量:2
3
作者 赵会群 吴凯锋 《计算机科学》 CSCD 北大核心 2020年第9期110-116,共7页
“大数据”已经成为计算机领域使用频率最高的专业词汇之一,而且已经逐渐变成了一个商品名称。无论是从学术研究角度,还是从数据交易需求角度,对大数据集的可用性进行评价都是一个新的问题。文中提出了一个大数据可用性评价模型,为学术... “大数据”已经成为计算机领域使用频率最高的专业词汇之一,而且已经逐渐变成了一个商品名称。无论是从学术研究角度,还是从数据交易需求角度,对大数据集的可用性进行评价都是一个新的问题。文中提出了一个大数据可用性评价模型,为学术和流通领域提供参考。结合大数据的4V(Volume,Variety,Velocity,Value)特性,分段统计样本数据的4V特性分布,从而给出基于分段分布的大数据特性概率模型,以及大数据可用性加权评价模型。文中还提出了实现大数据分块抽样的算法,以及大数据评价模型的各个特性加权系数的估计算法。结合视频大数据的可用性评价需求,展示所提模型和算法的具体应用。大数据可用性评价模型可以用于数据科学实验的数据评价,也可以用于大数据交易市场的数据集定价。给出了实际评价工作中,标准化(商品化)数据集以及确定数据评价基准等具体操作方面的解决方案。应用案例对所提模型有支持作用,进一步检验了模型的可行性。 展开更多
关键词 数据可用性评价 概率模型 数据分块算法 视频大数据
下载PDF
基于数据去重的广域网络传输优化系统研究 被引量:2
4
作者 时立锋 刘海客 包翰榕 《中国新通信》 2016年第19期56-60,共5页
信息技术不断的更新和发展推动全球进入大数据时代。传统型广域网传输方案伴随通信量的急剧增长已经很难满足用户的数据传输要求。面对广域网遇到的现状,主要研究了一种数据去重算法,并将其用于广域网优化系统中。重点研究了数据分块算... 信息技术不断的更新和发展推动全球进入大数据时代。传统型广域网传输方案伴随通信量的急剧增长已经很难满足用户的数据传输要求。面对广域网遇到的现状,主要研究了一种数据去重算法,并将其用于广域网优化系统中。重点研究了数据分块算法,采用一种新型的滑动块检测技术,并利用时间淘汰算法选出重复的数据块,从而提高重复数据削减率,可以有效节约网络带宽并加快广域网传输速率。 展开更多
关键词 数据去重 数据分块算法 广域网优化 时间淘汰算法
下载PDF
模式识别中的支持向量机方法 被引量:118
5
作者 杜树新 吴铁军 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2003年第5期521-527,共7页
针对模式识别问题,描述了支持向量机的基本思想,着重讨论了ν-SVM、最小二乘SVM、加权SVM和直接SVM等新的支持向量机方法,用于降低训练时间和减少计算复杂性的海量样本数据训练算法分块法、分解法,提高泛化能力的模型选择方法,以及逐一... 针对模式识别问题,描述了支持向量机的基本思想,着重讨论了ν-SVM、最小二乘SVM、加权SVM和直接SVM等新的支持向量机方法,用于降低训练时间和减少计算复杂性的海量样本数据训练算法分块法、分解法,提高泛化能力的模型选择方法,以及逐一鉴别法、一一区分法、M-ary分类法、一次性求解等多类别分类方法.最后给出了污水生化处理过程运行状态监控的多类别分类实例.作为结构风险最小化准则的具体实现,支持向量机具有全局最优性和较好的泛化能力. 展开更多
关键词 模式识别 支持向量机 泛化能力 分类方法 海量样本数据训练算法分块 分解法 模型选择方法
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部