摘要
设计一个基于客户端的恶意网页收集系统。系统通过设置主题爬虫,有针对性地获取可能包含恶意脚本的网页文件,通过分析恶意代码常见的挂木马方式与恶意代码样本,设计正则表达式来提取网页恶意代码的特征码,利用相应算法扫描并匹配利用爬虫获取的网页文件,如发现网页文件中包含可疑的恶意脚本,则将它的域名URL、恶意网页路径与恶意代码脚本类型存入恶意网页库中,以实现恶意网页的搜集。
This paper designs a client-based malicious webpage collection system.By setting theme spider,it accesses the webpage file which may contain malicious script. By analyzing the common features of malicious codes,it designs regular expressions to extract character code of malicious codes,and uses algorithm to match and scan the webpage file extracted.If the webpage file contains suspect malicious scripts,domain URL,path of malicious webpage and type of malicious code scripts will be recorded in malicious webpage database to realize collection of malicious webpages.
出处
《计算机工程》
CAS
CSCD
北大核心
2010年第23期113-115,118,共4页
Computer Engineering
基金
广州市科技攻关与广东省自然科学基金联合基金资助项目
关键词
恶意网页
主题爬虫
特征码
匹配算法
收集系统
malicious webpage
focused crawler
character code
match algorithm
collection system