摘要
本文基于图片分类算法NSFW实现了色情网站识别,使用自然语言处理提取网页特征并通过SVM分类器训练得到博彩网站检测模型,实验表明其精度高于95%,最后结合二者进行非法网站检测。
出处
《网络安全技术与应用》
2020年第7期62-63,共2页
Network Security Technology & Application
基金
国际关系学院大学生学术支持计划项目资助。
参考文献3
-
1李洋,刘飚,封化民.基于机器学习的网页恶意代码检测方法[J].北京电子科技学院学报,2012,20(4):36-40. 被引量:6
-
2凡友荣,杨涛,王永剑,姜国庆.基于URL特征检测的违法网站识别方法[J].计算机工程,2018,44(3):171-177. 被引量:8
-
3苏贵洋,李建华,马颖华,李生红.用于中文色情文本过滤的近邻法构造算法[J].上海交通大学学报,2004,38(z1):76-79. 被引量:6
二级参考文献26
-
1黄建军,梁彬.基于植入特征的网页恶意代码检测[J].清华大学学报(自然科学版),2009(S2):2208-2214. 被引量:5
-
2宋江春,沈钧毅.一种新的Web用户群体和URL聚类算法的研究[J].控制与决策,2007,22(3):284-288. 被引量:11
-
3[1]Uri Hanani. Information filtering: overview of issues, research and systems [J]. User Modeling and User-Adapted Interaction, 2001, (11 ): 203 - 259.
-
4[2]Belkin N J, Croft W B. Information filtering and information retrieval: two sides of the same coin? [J].Communications of the ACM, 1992, 35 (12): 29 -37.
-
5[3]Cover T, Hart P. Nearest neighbor pattern classification [ J]. IEEE Trans Information Theory, 1967,(13): 21-27.
-
6[4]Church K, Hanks P. Word association norms, mutual information and lexicography[J]. Computational Linguistics, 1990,16 (3): 22- 29.
-
7[5]Yang Y, Liu X. Are-examination of text categori-zation methods [A]. 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR'99) [C]. Berkeley,USA:SIGIR,1999.42-49.
-
8[6]Yang Y. An evaluation of statistical approach to text categorization [R]. Pittsburgh, USA Technical Report CMU-CS, Computer Science Department,Carnegie Mellon University, ]997. 97- 127.
-
9[7]He Ji, Tan Ah-Hwee, Tan Chcw-Lim. A comparative study on Chinese test categorization methods [A]. PRICAI'2000 International Workshop on Text and Web Mining[C]. Melbourne :PRICAI, 2000.24-35.
-
10http ://user. qzone, qq. com/95007917/blog/1274004740.
共引文献17
-
1李钝,曹元大,万月亮.信息安全中的变形关键词的识别[J].计算机工程,2007,33(21):155-156. 被引量:9
-
2曹建勋,刘奕群,岑荣伟,马少平,茹立云.基于用户行为的色情网站识别[J].计算机研究与发展,2013,50(2):430-436. 被引量:5
-
3陈庄,刘龙飞.融合域名注册信息的恶意网站检测方法研究[J].计算机光盘软件与应用,2015,18(1):121-122.
-
4张瀚珑,沈备军,王永剑.基于模板检测的违法网站识别方法[J].南京理工大学学报,2015,39(3):266-271. 被引量:5
-
5杨洪娇.基于机器学习的校园网恶意网页检测方法[J].信息与电脑,2016,28(11):175-176. 被引量:2
-
6凡友荣,杨涛,王永剑,姜国庆.基于URL特征检测的违法网站识别方法[J].计算机工程,2018,44(3):171-177. 被引量:8
-
7李钝,曹元大,万月亮.基于关联规则的安全特色关键词提取研究[J].计算机工程与应用,2006,42(A01):105-107. 被引量:5
-
8叶情.基于改进Trie树的变形敏感词过滤算法[J].现代计算机,2018,24(22):3-7. 被引量:4
-
9袁梁,林金芳.基于文档分层表示的恶意网页快速检测方法[J].计算机系统应用,2019,28(12):226-231. 被引量:1
-
10薛宛玥,洪磊,陈维杰,程欣.基于PageRank算法的赌博网站静态检测技术改进研究[J].现代计算机,2020,26(2):3-7. 被引量:3
同被引文献8
-
1李国静,尹天阳,张兴睿.基于PAM概率主题模型的赌博网站检测方法[J].计算机应用与软件,2021,38(9):167-172. 被引量:4
-
2张桥,卜佑军,陈博,曹东伟,张稣荣.一种基于MPAN的钓鱼URL检测方法[J].信息工程大学学报,2021,22(4):443-449. 被引量:3
-
3刘家银,印杰,牛博威,诸葛程晨,贺海辰.海量网站中博彩类违法网站的捕获方法[J].数据采集与处理,2021,36(5):1050-1061. 被引量:6
-
4朱翌民,郭茹燕,巨家骥,张帅,张维.一种结合Focal Loss的不平衡数据集提升树分类算法[J].软件导刊,2021,20(11):65-69. 被引量:3
-
5李振波,李萌,赵远洋,郭若皓,陈雅茹.基于改进VGG-19卷积神经网络的冰鲜鲳鱼新鲜度评估方法[J].农业工程学报,2021,37(22):286-294. 被引量:11
-
6毛昊,李新利,王孝伟,杨国田,彭鹏,邵宇鹰.基于多类别Focal Loss损失函数的变电站场景图像语义分割研究[J].华北电力大学学报(自然科学版),2022,49(5):84-92. 被引量:7
-
7张铭泉,周辉,曹锦纲.基于注意力机制的双BERT有向情感文本分类研究[J].智能系统学报,2022,17(6):1220-1227. 被引量:5
-
8刘博,蒲亦非.基于BERT的长文本分类方法[J].四川大学学报(自然科学版),2023,60(2):75-82. 被引量:5
-
1梁军,王丹丹.结伙发布虚假信息一青年犯诈骗罪获刑[J].乡镇论坛,2019,0(10):42-42.
-
2忻晓芬(文/图).网恋陷阱[J].人民公安,2019,0(1):46-49.
-
3薛宛玥,洪磊,陈维杰,程欣.基于PageRank算法的赌博网站静态检测技术改进研究[J].现代计算机,2020,26(2):3-7. 被引量:3
-
4林珊珊.论网站识别对重复购买意向的意义[J].佳木斯职业学院学报,2020,36(6):43-44.
-
5杨春燕,蒋丹莉,李秀玲,汪俊华,张江萍.贵州省初中生非自杀性自伤行为现状与影响因素研究[J].现代预防医学,2020,47(13):2359-2363. 被引量:24
-
6史奉楚.让色情直播者承担高昂法律成本[J].方圆,2020(12):77-77. 被引量:1
-
7储贝林,苏燕青,张汝娴,狄宏.基于TOR网站指纹的目标网站识别技术对比[J].网络安全技术与应用,2020(7):58-60.
-
8韩玉民,郭丽,张浩,张帅丛.新闻网站可信度指标分析与计算方法研究[J].现代信息科技,2020,4(8):12-15.
-
9薛倩,刘婧,孙钦升.基于视频的飞机货舱烟雾识别去干扰方法研究[J].计算机仿真,2020,37(6):65-70. 被引量:2
-
10陆佳依,金晓怡,江鸿怀,奚鹰.基于智能仓储的AGV道路识别系统[J].轻工机械,2020,38(3):74-77. 被引量:3