期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
基于Rabin指纹方法的URL去重算法 被引量:8
1
作者 梁正友 张林才 《计算机应用》 CSCD 北大核心 2008年第S2期185-186,203,共3页
针对现有URL检索算法占用存储空间较大,对重复率高的URL集合检索速度较慢,使Web Spider的效率降低的问题,提出了一种改进的URL去重算法。此算法基于Rabin指纹方法,以URL的指纹为地址,仅用一位数据标识一条URL,每次检索仅需对相应的一位... 针对现有URL检索算法占用存储空间较大,对重复率高的URL集合检索速度较慢,使Web Spider的效率降低的问题,提出了一种改进的URL去重算法。此算法基于Rabin指纹方法,以URL的指纹为地址,仅用一位数据标识一条URL,每次检索仅需对相应的一位数据的值做一次判断。实验表明,该算法能有效去除URL集合中重复的URL,提高检索速度。 展开更多
关键词 URL去重 rabin指纹方法 WEB SPIDER
下载PDF
Rabin指纹去重算法在搜索引擎中的应用 被引量:1
2
作者 贺建英 《计算机系统应用》 2015年第7期128-131,共4页
针对搜索引擎在海量数据中搜索速度慢,占用存储空间大,对重复的网页去重性差的现状,提出一种基于Rabin指纹算法的去重方法,不仅对搜索到的URL地址进行去重,还对非重复URL地址对应的网页内容进行相似和相同的去重,试验表明能有效地提高... 针对搜索引擎在海量数据中搜索速度慢,占用存储空间大,对重复的网页去重性差的现状,提出一种基于Rabin指纹算法的去重方法,不仅对搜索到的URL地址进行去重,还对非重复URL地址对应的网页内容进行相似和相同的去重,试验表明能有效地提高搜索速度、节省存储空间,增强搜索的精度. 展开更多
关键词 rabin指纹方法 搜索引擎 去重 URL 海量数据
下载PDF
Rabin指纹算法在重复数据检测中的应用研究
3
作者 谢垂益 钟红君 《电脑知识与技术》 2013年第7X期4918-4920,4932,共4页
Rabin指纹算法计算效率高、随机性好,可将数据更改对连续指纹序列的影响限制在局部范围内,广泛应用于重复数据检测领域。分析了Rabin指纹在有限域GF(2n)上的运算原理,得出滑动窗口移动时定长字符序列的数字指纹快速计算公式。用伪代码... Rabin指纹算法计算效率高、随机性好,可将数据更改对连续指纹序列的影响限制在局部范围内,广泛应用于重复数据检测领域。分析了Rabin指纹在有限域GF(2n)上的运算原理,得出滑动窗口移动时定长字符序列的数字指纹快速计算公式。用伪代码描述了Rabin指纹算法在重复数据检测中的应用,并用VC++语言进行了算法实现,在普通计算机上提取Word文档、程序源代码和BMP图像等三类文件作为测试数据集,测试结果表明算法是有效的。 展开更多
关键词 存储系统 重复数据检测 rabin指纹 基于内容分块 有限域
下载PDF
数字指纹生成方案及关键算法研究 被引量:8
4
作者 刘文龙 李晖 金东勋 《信息网络安全》 2015年第2期66-70,共5页
数字指纹技术作为新兴的数字版权保护技术,在抄袭检测方面发挥着重要的作用,而指纹生成算法直接决定数字指纹方案的性能。文章阐述了数字指纹方案中3种常用的指纹生成算法—MD5、SHA1、Rabin指纹算法,介绍了3种常用算法的基本原理,并通... 数字指纹技术作为新兴的数字版权保护技术,在抄袭检测方面发挥着重要的作用,而指纹生成算法直接决定数字指纹方案的性能。文章阐述了数字指纹方案中3种常用的指纹生成算法—MD5、SHA1、Rabin指纹算法,介绍了3种常用算法的基本原理,并通过实验对其进行了性能测试。为了测试3种算法的性能差异,实验中构建了20KB^20M大小不等的测试文件,首先对测试文件进行了预处理,去除了其中的无关字符,然后对处理过的文本采取分块策略进行指纹生成,并测试了算法在不同的分块策略和不同文件大小下指纹生成的效率。实验结果表明,哈希函数(MD5、SHA1)在大文件的指纹生成中具有较高的性能,而在小文件的指纹生成中,哈希函数与Rabin指纹算法具有同样的性能。实验结果为下一步制定新的指纹方案,进行指纹生成算法选择提供了实验支撑。 展开更多
关键词 数字指纹 哈希函数 rabin指纹算法 抄袭检测
下载PDF
基于逆向运算法的海量大数据安全存储方法
5
作者 王卓瑜 王磊 +2 位作者 陆婷 苏亮 孙婷 《兵工自动化》 北大核心 2024年第7期23-26,共4页
为解决传统大数据安全存储方法存在的加解密时间长与存储速率低的问题,提出一种基于逆向运算法的海量大数据安全存储方法。通过AES算法中查询表模块、密匙扩展模块及加解密模块的功能设计实现大数据的加密处理;设计一种用于存储加密数... 为解决传统大数据安全存储方法存在的加解密时间长与存储速率低的问题,提出一种基于逆向运算法的海量大数据安全存储方法。通过AES算法中查询表模块、密匙扩展模块及加解密模块的功能设计实现大数据的加密处理;设计一种用于存储加密数据的海量大数据分层存储模型,在加密数据的读取中,通过逆向运算法恢复数据,实现海量大数据的安全存储;搭建Hadoop集群测试环境测试设计方法的加密性能与存储性能。测试结果表明:该方法的加密与解密时间均低于20 s,影像数据存储速度高于580 MB/s,语音数据存储速度高于916 MB/s,能有效缩短大数据存储的加解密时间,提高多类资源的存储速度。 展开更多
关键词 逆向运算法 分布式传感器 海量大数据 安全存储 rabin指纹算法
下载PDF
高速网络环境下的垃圾邮件快速检测技术 被引量:1
6
作者 刘杰 程学旗 《计算机工程》 EI CAS CSCD 北大核心 2006年第4期139-141,共3页
提出了高速网络环境下一种实时检测垃圾邮件的方法。将正文抽取一部分做指纹散列,散列后的指纹值可以发现重复的正文内容。不需要解码也不需要处理全部邮件内容,并且散列内容数量和邮件大小无关。尤其对于普通文本分类方法无法处理的二... 提出了高速网络环境下一种实时检测垃圾邮件的方法。将正文抽取一部分做指纹散列,散列后的指纹值可以发现重复的正文内容。不需要解码也不需要处理全部邮件内容,并且散列内容数量和邮件大小无关。尤其对于普通文本分类方法无法处理的二进制类型的垃圾邮件有较好的处理效果,适合在高速骨干网络环境下作为一种快速垃圾邮件检测的手段。初步实验证明,该方法具有较高的处理速度,重复内容判定准确。 展开更多
关键词 垃圾邮件 rabin指纹 高速网络环境
下载PDF
基于后缀树的相似代码检测方法的研究
7
作者 禤静 《信息通信》 2016年第10期117-118,共2页
通常以词或字符为单位构造后缀树进行代码检测,空间开销大,同时增加字符串对比数量。针对该问题,文章设计了一种基于后缀树的代码相似度检测方法,应用Rabin指纹算法以句子为单位生成的指纹序来构造后缀树,并结合RMQ提取后缀树指纹公共... 通常以词或字符为单位构造后缀树进行代码检测,空间开销大,同时增加字符串对比数量。针对该问题,文章设计了一种基于后缀树的代码相似度检测方法,应用Rabin指纹算法以句子为单位生成的指纹序来构造后缀树,并结合RMQ提取后缀树指纹公共子串长度,以此计算出代码的相似度。 展开更多
关键词 后缀树 rabin指纹算法 相似代码检测
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部