基于卷积神经网络的暗网网页分类研究被引量：1

DARKNET WEBPAGE CLASSIFICATION BASED ON CONVOLUTIONAL NEURAL NETWORK

下载PDF

导出

摘要在海量暗网网页中筛选敏感主题内容对执法部门具有重要意义。通过对Freenet等暗网网页文本特点和类别进行深入分析,提出基于TextCNN的暗网网页主题分类模型。模型根据暗网网页非标准化的语言特点进行数据预处理;使用预训练的词向量获得网页内容的表示,通过不同大小的卷积核进行卷积操作获得特征图像,使用最大池化函数获得最终的特征向量;对卷积网络进行正则化处理,使用softmax函数预测类别概率。实验结果表明,采用该方法精确率为86.01%,召回率为78.97%,Macro-F1值为82.33%,高于机器学习模型,能够有效解决暗网网页分类问题。 It is critical for law enforcement departments to extract contents of specific topic from enormous amount of darknet webpages.After in-depth analysis on webpage texts of Freenet and other darknets,a darknet webpage topics classification model based on TextCNN is proposed.The model preprocessed the data according to the non-standardized language characteristics of darknet webpages,and then represented webpage tokens with pretrained word embeddings.The feature image was obtained by convolution operation with convolution kernels of different sizes,and the final feature vector was obtained by using the maximum pooling function.The convolution network was regularized,and the category probability was predicted by using Softmax function.The experimental results show that the model achieves precision at 86.01%,recall score at 78.97%and Macro-F1 score at 82.33%,higher than machine learning models,which can effectively solve the classification problem of darknet webpages.

作者洪良怡朱松林王轶骏薛质 Hong Liangyi;Zhu Songlin;Wang Yijun;Xue Zhi(School of Electric Information and Electrical Engineering,Shanghai Jiao Tong University,Shanghai 200240,China;Nantong Public Security Bureau,Nantong 226001,Jiangsu,China)

机构地区上海交通大学电子信息与电气工程学院江苏省南通市公安局

出处《计算机应用与软件》北大核心 2023年第2期320-325,330,共7页 Computer Applications and Software

基金国家重点研发计划项目“网络空间安全”重点专项(2016QY01W0202)。

关键词暗网网页分类卷积神经网络机器学习 Darknet Webpage classification CNN Machine learning

分类号 TP3 [自动化与计算机技术—计算机科学与技术]

引文网络
相关文献

参考文献1

1曹哲超,王轶骏,薛质.基于页面标签和文本特征的暗网重要站点识别[J].通信技术,2019,52(12):3021-3026. 被引量：2

二级参考文献3

1郭晗,王轶骏,薛质.基于Freenet的暗网空间资源探测[J].通信技术,2017,50(9):2017-2023. 被引量：6
2曹旭,王轶骏,薛质.暗网中I2P资源的初步探索[J].通信技术,2017,50(9):2024-2029. 被引量：3
3杨溢,郭晗,王轶骏,薛质.基于Tor的暗网空间资源探测[J].通信技术,2017,50(10):2304-2309. 被引量：13

共引文献1

1龙军,王轶骏,薛质.重要Tor暗网站点的验证码快速识别和数据采集[J].计算机应用与软件,2022,39(7):315-321. 被引量：3

同被引文献6

1顾敏,郭庆,曹野,朱峰,顾彦慧,周俊生,曲维光.基于结构和文本特征的网页分类技术研究[J].中国科学技术大学学报,2017,47(4):290-296. 被引量：5
2骆聪,王帅.结合深度学习与词性标注的网页分类算法研究[J].计算机技术与发展,2018,28(8):71-74. 被引量：2
3周文文,韩斌,黄树成.结合文本语义图和词频统计的网页分类算法研究[J].计算机与数字工程,2020,48(6):1265-1268. 被引量：2
4耿宜鹏,鞠时光,蔡文鹏,章恒.基于Skip-PTM的网页主题分类与主题变迁的研究[J].小型微型计算机系统,2020,41(7):1395-1399. 被引量：4
5淮晓永,韩晓东,高若辰,高焕新.一种自适应网页结构化信息提取方法[J].电子技术应用,2020,46(12):97-102. 被引量：2
6谢林燕,刘纪伟,张玉,张峰.基于SVM的迁移学习方法在互联网金融网页分类中的应用[J].通信技术,2023,56(7):909-914. 被引量：1

引证文献1

1李春霞,崔艳海,彭艳兵,周天河.基于BERT的黑灰产网页分类方法研究[J].中国科技纵横,2024(11):18-20.

1席荣康,蔡满春,芦天亮.基于数据增强与流数据处理的Tor流量分析模型[J].计算机工程,2023,49(3):177-184. 被引量：1
2冉玲琴,彭长根,许德权,吴宁博.基于区块链技术架构的隐私泄露风险评估方法[J].计算机工程,2023,49(1):146-153. 被引量：7
3林云云,郑素佩,封建湖,靳放.间断问题扩散正则化的PINN反问题求解算法[J].应用数学和力学,2023,44(1):112-122. 被引量：2

计算机应用与软件

2023年第2期

浏览历史

内容加载中请稍等...

基于卷积神经网络的暗网网页分类研究被引量：1

参考文献1

二级参考文献3

共引文献1

同被引文献6

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于卷积神经网络的暗网网页分类研究 被引量：1

参考文献1

二级参考文献3

共引文献1

同被引文献6

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于卷积神经网络的暗网网页分类研究被引量：1