基于Scrapy分布式的暗网探测爬虫构建被引量：8

Building dark web probe crawler with Scrapy-redis

下载PDF

导出

摘要暗网中存在大量毒品、军火、货币等非法交易网站,对网络环境造成严重危害,为了对暗网进行探测和监控,提出一种基于Scrapy分布式的暗网探测爬虫方法。将暗网使用的socks5协议转化为爬虫支持的http协议,再利用Python的Scrapy爬虫框架对暗网站点进行探测和爬取。使用该方法已发现数以万计的暗网站点信息,包括网站标题、源代码、网站类型等。将暗网代理环境和Python爬虫相结合,能够让程序对暗网的站点进行探测和爬取,对暗网环境进行很好的探测和监控。 There are a large number of illegal trading websites such as drugs,arms,and currencies in the dark web,which cause serious harm to the Internet environment.In order to detect and monitor the dark web,this paper proposes a dark web detection crawling method using distributed Scrapy.The socks5 protocol used by the dark web is converted into the http protocol supported by the crawler,and then the dark website points are detected and crawled by using the Scrapy crawler framework of Python.This method finds tens of thousands of dark website point information,including website title,source code,website type,and so on.The combination of the dark web proxy environment and the Python crawler allows the program to detect and crawl the dark website,and to detect and monitor the dark web environment.

作者余志玮何月顺 Yu Zhiwei;He Yueshun(School of Information Engineering,East China University of Technology,Nanchang,Jiangxi 330013,China)

机构地区东华理工大学信息工程学院

出处《计算机时代》 2020年第4期21-25,共5页 Computer Era

关键词暗网代理环境 Scrapy爬虫框架站点 dark web proxy environment Scrapy crawler framework website

分类号 TP393.0 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1林海伦,熊锦华,王博,程学旗.基于领域知识抽样的深网资源采集方法[J].中文信息学报,2016,30(2):175-181. 被引量：2
2汤艳君,安俊霖.基于Tor的暗网数据爬虫设计与实现[J].信息安全研究,2019,5(9):798-804. 被引量：9
3赵志云,张旭,罗铮,袁卫平.“暗网”应用情况及监管方法研究[J].知识管理论坛,2016(2):124-129. 被引量：15
4杨溢,郭晗,王轶骏,薛质.基于Tor的暗网空间资源探测[J].通信技术,2017,50(10):2304-2309. 被引量：13
5郭晗,王轶骏,薛质.基于Freenet的暗网空间资源探测[J].通信技术,2017,50(9):2017-2023. 被引量：6

二级参考文献35

1孙玲,潘京.“暗网”：互联网世界的灰色地带[J].国外科技动态,2005(12):36-39. 被引量：3
2M K Bergman, The Deep Web: Surfacing Hidden Val- ueEJ~. Journal of Electronic Publishing, 2001,7(1) [-DB/OL~ DOI: http ://dx. doi. orgll0. 399813336451. 0007. 104.
3K C C Chang, B He, C Li, et al. Structured databases on the web: Observations and implicationsER~. ACM SIGMOD Record, 2004,33(3) : 61-70.
4B. He, M Patel, et al. , Accessing the deep web: A Survey[-C~//Proceedings of the Communications of the ACM, 2007, 50(5): 94-101.
5S Raghavan, H Garcia-Molina. Crawling the Hidden WebEC~//Proceedings of 27th VLDB. 2001 .. 129-138.
6P Wu, J R Wen, H Liu, et al. Query selection tech- niques for efficient crawling of structured web sources ~C~//Proceedings of the 22nd International Conference on Data Engineering. 2006.- 47-56.
7M A lvarez, J Raposo, F Cacheda, et al., A Task- specific approach for crawling the deep web[-J~. Jour- nal Engineering Letters. Special Issue: Advances in Information Engineering, 2006, 13(2) : 204-215.
8M A Lvarez, J Raposo, A Pan, et al. DeepBot~ a fo- cused crawler for accessing hidden web content[C~// Proceedings of the ACM Conference on Electronic Commerce. 2007:18-25.
9J Madhavan, D Ko9 L Kot, et al. Google's deep web crawl[-J~. VLDB Endowment, 2008,1(2) : 1241-1252.
10L Jiang, Z Wu, Q Zheng, et al. Learning deep webcrawling with diverse features EC~//Proeeedings of the IEEE/WIC/ACM International Joint Conferences on Web Intelligence and Intelligent Agent Technolo- gies. 2009: 572-575.

共引文献33

1王建攀,金涛.暗网取证的现有困境及解决措施[J].广东公安科技,2021,29(3):8-10. 被引量：2
2肖洋.“伊斯兰国”的暗网攻势及其应对路径[J].江南社会学院学报,2017,19(1):19-23. 被引量：10
3杨亚强.暗网恐怖主义应对路径探析[J].江西警察学院学报,2017(4):55-60. 被引量：4
4郭晗,王轶骏,薛质.基于Freenet的暗网空间资源探测[J].通信技术,2017,50(9):2017-2023. 被引量：6
5焦康武.总体国家安全观视域下我国暗网犯罪应对研究[J].犯罪研究,2017(6):78-89. 被引量：25
6范江波.暗网法律治理问题探究[J].信息安全研究,2018,4(7):593-601. 被引量：8
7马明阳,郭明亮,魏留强.网络爬虫的专利技术综述[J].科技视界,2018(22):12-13. 被引量：2
8汤艳君,安俊霖.暗网案件的爬虫取证技术研究[J].中国刑警学院学报,2018(5):115-118. 被引量：7
9秦玉海,杨嵩,陈杰.针对“暗网”的监管机制研究[J].辽宁警察学院学报,2017,19(5):31-34. 被引量：7
10黄紫斐,刘洪梅,张舒.基于暗网环境的网络恐怖主义及其治理[J].信息安全与通信保密,2018,16(12):50-62. 被引量：8

同被引文献33

1麦政.浅谈暗网[J].法制与社会（旬刊）,2019,0(36):48-49. 被引量：1
2刘思林.Scrapy分布式爬虫搜索引擎[J].电脑知识与技术,2018,14(12):186-188. 被引量：3
3王佳宁.“暗网”对国家安全的危害[J].网络安全技术与应用,2016(9):10-11. 被引量：8
4杨溢,郭晗,王轶骏,薛质.基于Tor的暗网空间资源探测[J].通信技术,2017,50(10):2304-2309. 被引量：13
5暗网的养成:Tor(洋葱路由)的故事[J].中国信息安全,2017,0(11):65-68. 被引量：7
6王丹娜.暗网治理需各国执法协同联动[J].中国信息安全,2017(11):77-80. 被引量：8
7焦康武.总体国家安全观视域下我国暗网犯罪应对研究[J].犯罪研究,2017(6):78-89. 被引量：25
8周显春.基于个人简历的Scrapy设计与实现[J].现代计算机,2018,24(11):85-88. 被引量：2
9周琳娜,高存.暗网治理思路[J].信息安全研究,2018,4(9):846-852. 被引量：8
10汤艳君,安俊霖.暗网案件的爬虫取证技术研究[J].中国刑警学院学报,2018(5):115-118. 被引量：7

引证文献8

1王建攀,金涛.暗网取证的现有困境及解决措施[J].广东公安科技,2021,29(3):8-10. 被引量：2
2冯成.面向岗位信息的分布式爬虫应用[J].无线互联科技,2020,17(15):36-37. 被引量：1
3冷涛,高彬晗,熊越,谢耕.基于暗网的监控平台设计与实现[J].网络安全技术与应用,2021(8):26-28. 被引量：1
4刘丛睿,汤艳君.基于Tor的匿名网络空间资源监测方法研究[J].网络安全技术与应用,2022(12):3-5.
5冀海龙.基于Tor的我国暗网毒品犯罪治理研究[J].网络安全技术与应用,2023(1):145-147. 被引量：1
6黄斌,邓宇坤.数据挖掘技术在暗网威胁情报信息中的应用[J].长江信息通信,2023,36(2):173-176. 被引量：2
7胡锦枫,徐晓瑀,陈云芳,张伟.基于v3洋葱域名的比特币地址威胁程度分析[J].计算机工程,2024,50(3):173-181.
8吕建强,付才,邹雅毅.西方国家暗网霸权对我国的危害及对策研究[J].工业信息安全,2024(2):82-89.

二级引证文献7

1刘杨.基于Python网络爬虫技术分析国内主流编程语言职位热度[J].电脑编程技巧与维护,2021(5):35-37. 被引量：5
2张靖琦.网络安全监管面临的困境及其应对与启示——以过去三年疫情防控为例[J].河北公安警察职业学院学报,2023,23(1):47-50. 被引量：1
3重庆市人民检察院第四分院课题组,刘伟,胡江.暗网毒品犯罪的刑事司法认定与治理[J].中国检察官,2023(13):46-49.
4崔世群.论电子数据的形式真实性审查——以数字货币犯罪案件为研究对象[J].东北大学学报（社会科学版）,2023,25(5):127-137. 被引量：6
5于海峰.数字技术型涉外警务人才培养策略[J].辽宁警察学院学报,2024,26(1):111-116. 被引量：1
6阮宜龙,张宏俊.数据挖掘技术及其在电信业中应用的研究[J].软件,2024,45(1):13-17.
7薛亚龙,刘梓泞.暗网犯罪数据情报侦查路径的应对选择[J].江苏警官学院学报,2024,39(1):89-97.

1王鹏,郭子印,俞飞.基于W5500以太网模块的温湿度实时在线采集系统设计[J].通讯世界,2020,27(3):67-68. 被引量：3
2郭铁樁,王健.日俄战争时期日军凤凰城军政署始末[J].大连近代史研究,2019(1):88-98.
3肖晓飞.不可能完成的任务:1942-1943年中国驻美军事代表团的历史考察[J].民国档案,2020(1):119-131. 被引量：1
4邹颖.河钢承钢能源监控预警探索及研究[J].信息周刊,2020,0(7):0102-0102.
5赵文宇,徐健.不同网络平台用户情感表达特征对比分析[J].情报理论与实践,2020,43(1):163-168. 被引量：5
6官亚芬.计算机软件开发中JAVA编程语言及其实际应用[J].中国新通信,2020,22(4):98-99. 被引量：7
7兆晶,王娟.关于网页设计与制作方法与应用的探讨[J].河北农机,2020,0(3):46-46.
8雷永锋,孙莉莉,刘伟.基于GPS的公交车智能报站系统设计[J].机械与电子,2020,38(3):19-22. 被引量：8
9吴雨芯,蔡婷,张大斌.基于层级注意力机制与双向长短期记忆神经网络的智能合约自动分类模型[J].计算机应用,2020,40(4):978-984. 被引量：7
10龚扣林,周宇,丁笠,王永超.基于BiLSTM模型的漏洞检测[J].计算机科学,2020,47(5):295-300. 被引量：3

计算机时代

2020年第4期

浏览历史

内容加载中请稍等...

基于Scrapy分布式的暗网探测爬虫构建被引量：8

参考文献5

二级参考文献35

共引文献33

同被引文献33

引证文献8

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

基于Scrapy分布式的暗网探测爬虫构建 被引量：8

参考文献5

二级参考文献35

共引文献33

同被引文献33

引证文献8

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

基于Scrapy分布式的暗网探测爬虫构建被引量：8