期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
网页近似重复检测算法研究
下载PDF
职称材料
导出
摘要
搜索引擎的爬行程序在日益庞大的互联网中采集到的网页包含有大量的重复或近似重复网页,这不仅降低了检索效率,增加了存储空间,还降低了最终用户的体验。本文针对现有的网页近似重复检测技术进行了比较,并重点讨论了改进的模糊哈希算法对网页内容进行近似重复检测。
作者
魏诗云
杨家骏
机构地区
四川大学软件学院
出处
《计算机光盘软件与应用》
2012年第8期135-136,共2页
Computer CD Software and Application
关键词
近似重复检测
模糊哈希算法
算法比较
分类号
TP393.092 [自动化与计算机技术—计算机应用技术]
引文网络
相关文献
节点文献
二级参考文献
2
参考文献
1
共引文献
14
同被引文献
0
引证文献
0
二级引证文献
0
参考文献
1
1
曹玉娟,牛振东,赵堃,彭学平.
基于概念和语义网络的近似网页检测算法[J]
.软件学报,2011,22(8):1816-1826.
被引量:15
二级参考文献
2
1
吴平博,陈群秀,马亮.
基于特征串的大规模中文网页快速去重算法研究[J]
.中文信息学报,2003,17(2):28-35.
被引量:41
2
鲍军鹏,沈钧毅,刘晓东,宋擒豹.
自然语言文档复制检测研究综述[J]
.软件学报,2003,14(10):1753-1760.
被引量:69
共引文献
14
1
程芃森,安俊秀.
基于特征词群的新闻类重复网页和近似网页识别算法[J]
.成都信息工程学院学报,2012,27(4):374-379.
2
蒙祖强,黄柏雄.
一种新的网络热点话题提取方法[J]
.小型微型计算机系统,2013,34(4):743-748.
被引量:6
3
王贤明,胡智文,谷琼.
一种基于随机n-Grams的文本相似度计算方法[J]
.情报学报,2013,32(7):716-723.
被引量:9
4
杨菲,黄柏雄.
词共现网络的遗传聚类在话题发现中的应用[J]
.计算机工程与应用,2013,49(14):126-129.
被引量:7
5
蒙祖强,徐杨,杨俊瑶.
一种运用相容语义块约简的网络话题检测方法[J]
.小型微型计算机系统,2013,34(11):2513-2517.
被引量:1
6
高翔,李兵.
中文短文本去重方法研究[J]
.计算机工程与应用,2014,50(16):192-197.
被引量:4
7
李恒新,韩坚华.
关系型数据库数据的高效判重[J]
.华南师范大学学报(自然科学版),2015,47(1):121-126.
被引量:2
8
陈婧.
基于语义网的软件工程数据查询处理技术[J]
.电子技术与软件工程,2015(4):198-198.
被引量:1
9
陈羽中,方明月,郭文忠.
面向微博热点话题发现的多标签传播聚类方法研究[J]
.模式识别与人工智能,2015,28(1):1-10.
被引量:16
10
吴林静,刘清堂,黄景修,刘?,毛刚.
面向e-Learning的概念知识元表征模型研究[J]
.电化教育研究,2015,36(4):44-49.
被引量:15
1
高瑞华.
基于APK文件抓取系统的匹配模块设计[J]
.电子设计工程,2016,24(3):47-49.
被引量:4
2
俞昊旻,张玥,张奇,黄萱菁.
基于Low-IDF-SIG的句子重复检测[J]
.中文信息学报,2011,25(1):123-128.
3
邸宏宇,张静,于毅,王连印.
一种基于改进模糊哈希的文件比较算法研究[J]
.信息网络安全,2016(11):12-18.
被引量:3
4
曹东.
簇态量子模糊哈希与隐蔽信息搜索(英文)[J]
.量子电子学报,2015,32(1):58-68.
被引量:1
计算机光盘软件与应用
2012年 第8期
职称评审材料打包下载
相关作者
内容加载中请稍等...
相关机构
内容加载中请稍等...
相关主题
内容加载中请稍等...
浏览历史
内容加载中请稍等...
;
用户登录
登录
IP登录
使用帮助
返回顶部