-
题名网页近似重复检测算法研究
- 1
-
-
作者
魏诗云
杨家骏
-
机构
四川大学软件学院
-
出处
《计算机光盘软件与应用》
2012年第8期135-136,共2页
-
文摘
搜索引擎的爬行程序在日益庞大的互联网中采集到的网页包含有大量的重复或近似重复网页,这不仅降低了检索效率,增加了存储空间,还降低了最终用户的体验。本文针对现有的网页近似重复检测技术进行了比较,并重点讨论了改进的模糊哈希算法对网页内容进行近似重复检测。
-
关键词
近似重复检测
模糊哈希算法
算法比较
-
分类号
TP393.092
[自动化与计算机技术—计算机应用技术]
-
-
题名基于APK文件抓取系统的匹配模块设计
被引量:4
- 2
-
-
作者
高瑞华
-
机构
陕西省理工学校
-
出处
《电子设计工程》
2016年第3期47-49,共3页
-
文摘
文中提出了一个APK抓取系统的设计思路,首先设计了该系统的整体框架,使用Mysql5.5实现系统的数据库,基于开源python网络爬虫框架Scrapy,结合应用市场及APK的特性,联合使用Virus Total和特征匹配检测的方法,重点设计了该APK文件抓取系统下基于模糊哈希算法的指纹匹配模块。为降低APK的恶意性,详细论述了匹配模块的功能、匹配算法、主要解决了"如何快速有效的检测恶意软件"的等问题,达到了设计要求。为后续研究提供了有力支撑。
-
关键词
APK抓取
特征匹配
匹配度
模糊哈希算法
-
Keywords
APK capture
feature matching
compatibility
fuzzy hash algorithm
-
分类号
TP393.01
[自动化与计算机技术—计算机应用技术]
-