摘要
在互联网为人们的生活、工作提供便利的同时,网络钓鱼也成为互联网上无法避免的攻击模式。相关研究尝试从URL或HTML标签中提取特征,以便用分类算法等判断是否为钓鱼网站。由于攻击者也很有可能通过曲解词义来隐藏信息,基于这个问题,引入语义特征,采用快速自动提取关键词(RAKE)算法提取短语关键词,并提出支持度(C)的定义,选取支持度大于等于30%的短语关键词作为该文的语义特征,结合常用的URL特征和HTML标签特征,采用BP神经网络算法分类,实验结果表明,提出的新特征相比仅仅使用URL和HTML标签提取特征的方法使得钓鱼网站检测的准确率提高了1.35%。
出处
《信息通信》
2019年第10期18-20,共3页
Information & Communications
基金
赛尔网络下一代互联网技术创新项目(NGII20180618)资助