-
题名基于Rabin指纹方法的URL去重算法
被引量:8
- 1
-
-
作者
梁正友
张林才
-
机构
广西大学计算机与电子信息学院
辽宁石油化工大学计算机与通信工程学院
-
出处
《计算机应用》
CSCD
北大核心
2008年第S2期185-186,203,共3页
-
基金
广西科学基金资助项目(桂科自0832059)
广西教育厅科研项目(桂教科研[2006]26号)
-
文摘
针对现有URL检索算法占用存储空间较大,对重复率高的URL集合检索速度较慢,使Web Spider的效率降低的问题,提出了一种改进的URL去重算法。此算法基于Rabin指纹方法,以URL的指纹为地址,仅用一位数据标识一条URL,每次检索仅需对相应的一位数据的值做一次判断。实验表明,该算法能有效去除URL集合中重复的URL,提高检索速度。
-
关键词
URL去重
rabin指纹方法
WEB
SPIDER
-
Keywords
duplicated URL detection
rabin's fingerprinting method
Web spider
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-
-
题名Rabin指纹去重算法在搜索引擎中的应用
被引量:1
- 2
-
-
作者
贺建英
-
机构
四川文理学院计算机学院
-
出处
《计算机系统应用》
2015年第7期128-131,共4页
-
基金
国家档案局项目(2014-X-65)
-
文摘
针对搜索引擎在海量数据中搜索速度慢,占用存储空间大,对重复的网页去重性差的现状,提出一种基于Rabin指纹算法的去重方法,不仅对搜索到的URL地址进行去重,还对非重复URL地址对应的网页内容进行相似和相同的去重,试验表明能有效地提高搜索速度、节省存储空间,增强搜索的精度.
-
关键词
rabin指纹方法
搜索引擎
去重
URL
海量数据
-
Keywords
rabin fingerprinting method
search engine
duplicate removal
URL
massive data
-
分类号
TP391.3
[自动化与计算机技术—计算机应用技术]
-
-
题名Rabin指纹算法在重复数据检测中的应用研究
- 3
-
-
作者
谢垂益
钟红君
-
机构
韶关学院数学与信息科学学院
韶关市广播电视大学
-
出处
《电脑知识与技术》
2013年第7X期4918-4920,4932,共4页
-
基金
广东远程开放教育科研基金项目(YJ1333)
韶关市创新资金项目(201210)
韶关学院科研项目(201202)
-
文摘
Rabin指纹算法计算效率高、随机性好,可将数据更改对连续指纹序列的影响限制在局部范围内,广泛应用于重复数据检测领域。分析了Rabin指纹在有限域GF(2n)上的运算原理,得出滑动窗口移动时定长字符序列的数字指纹快速计算公式。用伪代码描述了Rabin指纹算法在重复数据检测中的应用,并用VC++语言进行了算法实现,在普通计算机上提取Word文档、程序源代码和BMP图像等三类文件作为测试数据集,测试结果表明算法是有效的。
-
关键词
存储系统
重复数据检测
rabin指纹
基于内容分块
有限域
-
Keywords
storage system
duplicated data detection
rabin fingerprint
content defined chunking
galois field
-
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
-
-
题名数字指纹生成方案及关键算法研究
被引量:8
- 4
-
-
作者
刘文龙
李晖
金东勋
-
机构
北京邮电大学信息与通信工程学院
-
出处
《信息网络安全》
2015年第2期66-70,共5页
-
基金
国家自然科学基金[61370195]
-
文摘
数字指纹技术作为新兴的数字版权保护技术,在抄袭检测方面发挥着重要的作用,而指纹生成算法直接决定数字指纹方案的性能。文章阐述了数字指纹方案中3种常用的指纹生成算法—MD5、SHA1、Rabin指纹算法,介绍了3种常用算法的基本原理,并通过实验对其进行了性能测试。为了测试3种算法的性能差异,实验中构建了20KB^20M大小不等的测试文件,首先对测试文件进行了预处理,去除了其中的无关字符,然后对处理过的文本采取分块策略进行指纹生成,并测试了算法在不同的分块策略和不同文件大小下指纹生成的效率。实验结果表明,哈希函数(MD5、SHA1)在大文件的指纹生成中具有较高的性能,而在小文件的指纹生成中,哈希函数与Rabin指纹算法具有同样的性能。实验结果为下一步制定新的指纹方案,进行指纹生成算法选择提供了实验支撑。
-
关键词
数字指纹
哈希函数
rabin指纹算法
抄袭检测
-
Keywords
digital fi ngerprinting
Hash function
rabin algorithm
plagiarism detection
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
TP309
[自动化与计算机技术—计算机系统结构]
-
-
题名基于逆向运算法的海量大数据安全存储方法
- 5
-
-
作者
王卓瑜
王磊
陆婷
苏亮
孙婷
-
机构
国网新源控股有限公司
华东宜兴抽水蓄能有限公司
北京中电飞华通信有限公司
-
出处
《兵工自动化》
北大核心
2024年第7期23-26,共4页
-
文摘
为解决传统大数据安全存储方法存在的加解密时间长与存储速率低的问题,提出一种基于逆向运算法的海量大数据安全存储方法。通过AES算法中查询表模块、密匙扩展模块及加解密模块的功能设计实现大数据的加密处理;设计一种用于存储加密数据的海量大数据分层存储模型,在加密数据的读取中,通过逆向运算法恢复数据,实现海量大数据的安全存储;搭建Hadoop集群测试环境测试设计方法的加密性能与存储性能。测试结果表明:该方法的加密与解密时间均低于20 s,影像数据存储速度高于580 MB/s,语音数据存储速度高于916 MB/s,能有效缩短大数据存储的加解密时间,提高多类资源的存储速度。
-
关键词
逆向运算法
分布式传感器
海量大数据
安全存储
rabin指纹算法
-
Keywords
reverse operation method
distributed sensors
massive big data
safe storage
rabin fingerprint algorithm
-
分类号
TP309.2
[自动化与计算机技术—计算机系统结构]
-
-
题名高速网络环境下的垃圾邮件快速检测技术
被引量:1
- 6
-
-
作者
刘杰
程学旗
-
机构
中国科学院计算技术研究所软件研究室
-
出处
《计算机工程》
EI
CAS
CSCD
北大核心
2006年第4期139-141,共3页
-
基金
国家自然科学基金资助项目(60273016)
国家"863"高技术研究发展计划基金资助项目(2001AA142110)
中国科学院计算技术研究所基金资助项目(20016250)
-
文摘
提出了高速网络环境下一种实时检测垃圾邮件的方法。将正文抽取一部分做指纹散列,散列后的指纹值可以发现重复的正文内容。不需要解码也不需要处理全部邮件内容,并且散列内容数量和邮件大小无关。尤其对于普通文本分类方法无法处理的二进制类型的垃圾邮件有较好的处理效果,适合在高速骨干网络环境下作为一种快速垃圾邮件检测的手段。初步实验证明,该方法具有较高的处理速度,重复内容判定准确。
-
关键词
垃圾邮件
rabin指纹
高速网络环境
-
Keywords
Spam
rabin fingerprint
High-speed network
-
分类号
TP393.08
[自动化与计算机技术—计算机应用技术]
-
-
题名基于后缀树的相似代码检测方法的研究
- 7
-
-
作者
禤静
-
机构
广西大学计算机与电子信息学院
南宁职业技术学院信息工程学院
-
出处
《信息通信》
2016年第10期117-118,共2页
-
文摘
通常以词或字符为单位构造后缀树进行代码检测,空间开销大,同时增加字符串对比数量。针对该问题,文章设计了一种基于后缀树的代码相似度检测方法,应用Rabin指纹算法以句子为单位生成的指纹序来构造后缀树,并结合RMQ提取后缀树指纹公共子串长度,以此计算出代码的相似度。
-
关键词
后缀树
rabin指纹算法
相似代码检测
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-