基于C#+ScrapySharp+Selenium的数据采集技术研究被引量：2

Research on Data Acquisition Technology Based on C# +ScrapySharp+Selenium

下载PDF

导出

摘要 ScrapySharp在HtmlAgilityPack类库的基础上进行了扩展,能够模拟Web浏览器操作,支持CSS选择器解析HTML节点,是基于.NET的数据采集框架。ScrapySharp高效、易用,但模拟浏览器的能力有限,而Selenium自动化测试框架具备强大的浏览器操作能力。通过对开发环境搭建、ScrapySharp与Selenium结合使用、JSON数据的采集方法、反反爬虫手段、数据批量存储等技术进行研究,得出一种基于C#+ScrapySharp+Selenium的数据采集解决方案。 ScrapySharp is extended on the basis of HtmlAgilityPack class library.It can simulate the operation of web browser and support CSS selector to parse HTML nodes.It is a data acquisition framework based on NET.ScrapySharp is efficient and easy to use,but its ability to simulate browsers is limited,while Selenium automated test framework has powerful browsing capabilities.Through the research of development environment construction,combined use of ScrapySharp and Selenium,JSON data acquisition method,anti-anti-reptile means,data bulk storage,etc.,a data acquisition solution based on C#+ScrapySharp+Selenium is obtained.

作者叶文全 YE Wen-quan(Department of Information,Minbei Vocational and Technical College,Nanping Fujian 353000,China)

机构地区闽北职业技术学院信息系

出处《湖北第二师范学院学报》 2019年第8期44-48,共5页 Journal of Hubei University of Education

基金闽北职业技术学院校级科研项目“基于大数据的跨境电商多平台数据分析系统开发”(MJKA1907)

关键词 C# ScrapySharp SELENIUM 数据采集 C# ScrapySharp Selenium data acquisition

分类号 TP319 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献6

1余豪士,匡芳君.基于Python的反反爬虫技术分析与应用[J].智能计算机与应用,2018,8(4):112-115. 被引量：14
2韩贝,马明栋,王得玉.基于Scrapy框架的爬虫和反爬虫研究[J].计算机技术与发展,2019,29(2):139-142. 被引量：24
3郭鹏程,李迎春,付春燕,曹炳尧.海量日志数据采集系统的设计与优化[J].电子测量技术,2018,41(1):12-17. 被引量：9
4姜文,刘立康.基于Selenium的Web软件自动化测试[J].计算机技术与发展,2018,28(9):47-52. 被引量：22
5胡锦玲,甘宏.基于Cookie的Web平台身份认证机制的研究与设计[J].江西科学,2018,36(1):141-144. 被引量：5
6苏国新,苏聿.基于Python的可配置网络爬虫[J].宁德师范学院学报（自然科学版）,2018,30(4):364-368. 被引量：12

二级参考文献40

1徐雷,刘文才.基于Web服务和工作流的MIS框架模型的研究[J].计算机工程与设计,2004,25(12):2234-2236. 被引量：14
2韩伟,范植华.基于SAML的单点登录技术在Web服务中的应用研究[J].计算机工程与设计,2005,26(3):634-636. 被引量：33
3吕林涛,万经华,周红芳.基于AJAX的Web无刷新页面快速更新数据方法[J].计算机应用研究,2006,23(11):199-200. 被引量：96
4刘润达,诸云强,宋佳,冯敏.一种简单跨域单点登录系统的实现[J].计算机应用,2007,27(2):288-291. 被引量：44
5马群利.嵌入式WEB服务器及其安全机制研究[J].计算机测量与控制,2007,15(4):538-540. 被引量：10
6李馥娟.基于Cookies的Web应用分析及其安全研究[J].网络安全技术与应用,2009(6):88-91. 被引量：10
7杨定中,赵刚,王泰.网络爬虫在Web信息搜索与数据挖掘中应用[J].计算机工程与设计,2009,30(24):5658-5662. 被引量：37
8彭宇,罗清华,彭喜元.网络化测试体系中不确定性数据处理方法浅析[J].仪器仪表学报,2010,31(1):229-240. 被引量：18
9孙苗钟,谈炳发,崔世海,胡殿璞.基于Delphi连续大容量数据采集与处理的编程实现[J].测控技术,2010,29(10):20-23. 被引量：4
10杨俊强,毛征,曹锋,吕春花,齐南.多通道数据实时采集标时系统设计[J].国外电子测量技术,2011,30(3):29-32. 被引量：17

共引文献78

1邓子云.基于Scrapy的网站增量式爬取功能的研制与应用[J].湖南工业职业技术学院学报,2022,22(6):25-29.
2程卫东,范爱军.果肉型胡萝卜汁饮料加工工艺[J].食品工业,2000,21(2):11-12. 被引量：3
3欧阳智.大数据专业下的数据采集与处理教学改革探讨[J].大数据时代,2018,0(5):18-20. 被引量：3
4孙龙根,刘从军.智能手机APP安全登录认证机制的研究[J].电子设计工程,2019,27(4):84-87. 被引量：4
5赵佳钐,李坤伦,徐江,李院春.基于混合架构的高校多源异构数据集成系统[J].电子技术与软件工程,2019(7):160-161. 被引量：1
6张喜红,王玉香.基于Python Tkinter课堂手机监管系统的设计[J].中州大学学报,2019,36(2):125-128. 被引量：6
7郝光兆,杨静,吴迪,生龙.“Python程序设计”课程智能答疑系统的设计与实现[J].电脑知识与技术,2019,15(3):86-88. 被引量：4
8杜晓旭,贾小云.基于Python的新浪微博爬虫分析[J].软件,2019,40(4):182-185. 被引量：14
9黄永锋,孙自诚,罗保国.笔记本电脑自动化测试的任务分配模型与方法[J].计算机系统应用,2019,28(6):183-188. 被引量：1
10苏艺航,徐海蛟,何佳蕾,杨振宇,王佳鹏.基于Python爬虫的校园数据获取[J].电脑知识与技术,2019,15(6Z):86-88. 被引量：2

同被引文献19

1魏少鹏,夏小玲.基于Chrome扩展的爬虫系统设计与实现[J].软件导刊,2016,15(3):76-80. 被引量：5
2王莉敏,梁正和,段全锋.基于HTML5大文件断点续传的实现方案[J].计算机与现代化,2016(3):91-95. 被引量：18
3沈洪洲.一种基于Chrome扩展程序的网络数据采集方法[J].计算机应用与软件,2016,33(7):10-13. 被引量：5
4旷志光,纪婷婷,吴小丽.基于Vue.js的后台单页应用管理系统的研究与实现[J].现代计算机,2017,23(20):51-55. 被引量：16
5姜文,刘立康.基于Selenium的Web软件自动化测试[J].计算机技术与发展,2018,28(9):47-52. 被引量：22
6杨君,陈春玲,余瀚.基于Scrapy技术的数据采集系统的设计与实现[J].计算机技术与发展,2018,28(10):177-181. 被引量：13
7孙雅静,颜学雄,王清贤,刘树凯,柴川森.浏览器安全机制自动测试系统分析与实现[J].信息工程大学学报,2018,19(3):364-368. 被引量：3
8梁国潮.能源资源消费统计分析报告生成系统的开发实践[J].金融科技时代,2019,27(1):54-57. 被引量：3
9曹灿,刘志刚.基于SSH和Layui的工程科学前沿与实践系统[J].工业控制计算机,2019,32(2):91-92. 被引量：19
10曾健荣,张仰森,郑佳,黄改娟,陈若愚.面向多数据源的网络爬虫实现技术及应用[J].计算机科学,2019,46(5):304-309. 被引量：44

引证文献2

1朱明超,宋晖.多任务数据采集系统的设计与实现[J].新一代信息技术,2021,4(10):8-12.
2叶文全.基于Chrome扩展的跨境电商选品上架程序化实现[J].宁德师范学院学报（自然科学版）,2021,33(2):159-165.

1沈意吉,唐松,张一帆.基于Selenium的信息化运维工作应用[J].数码世界,2019,0(11):41-42.
2马生香,宁银仓.多媒体+导学案在英语课堂中的应用[J].课程教育研究,2019,0(41):96-96. 被引量：1
3李臣龙,陶皖.基于Hadoop的电商评论获取与研究[J].九江学院学报（自然科学版）,2019,34(3):64-68.
4古再努尔·艾尔肯,姑丽牙尔·艾尼.关于大剂量阿托伐他汀强化治疗急性缺血性脑卒中的效果分析[J].今日健康,2016,15(10):76-76. 被引量：1
5洪仁忠,胡元闯,吴东吹,李玲.网上二手商店构建与实践研究[J].时代经贸,2019,0(30):15-16.
6宋旭东,刘毅,邓学云.尼莫地平在高血压脑出血患者治疗中的效果观察[J].医学信息（医学与计算机应用）,2016,29(25):51-52.
7朱丽英,吴锦晶.基于自动化测试的定向网络爬虫的设计与实现[J].微型电脑应用,2019,35(10):8-10. 被引量：7
8李兴蓉.帕罗西汀治疗产后抑郁症的临床疗效探究[J].今日健康,2016,15(7):15-15.
9叶玉宝.超声引导清除高血压性脑出血的疗效观察[J].医学信息（医学与计算机应用）,2014,0(18):269-270. 被引量：1
10降低机器学习门槛的六大工具[J].电脑知识与技术（经验技巧）,2019,0(10):95-96.

湖北第二师范学院学报

2019年第8期

浏览历史

内容加载中请稍等...

基于C#+ScrapySharp+Selenium的数据采集技术研究被引量：2

参考文献6

二级参考文献40

共引文献78

同被引文献19

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于C#+ScrapySharp+Selenium的数据采集技术研究 被引量：2

参考文献6

二级参考文献40

共引文献78

同被引文献19

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于C#+ScrapySharp+Selenium的数据采集技术研究被引量：2