面向多数据源的网络爬虫实现技术及应用被引量：44

Implementation Technology and Application of Web Crawler for Multi-data Sources

下载PDF

导出

摘要基于大数据技术的社会计算方法是目前学术界研究的热点,如何从网络上快速获取相应的数据资源是相关研究的关键。网络爬虫技术是目前进行网络数据采集的主要手段,针对现有爬虫技术不便于采集多源数据的问题,提出了一种面向多数据源的网络爬虫数据采集技术,在研究新浪微博、人民日报、百度百科、百度贴吧、微信公众号、东方财富股吧等6类媒体平台的数据采集爬虫的基础上,采用Servlet后台调度技术,将面向多数据源的网络爬虫进行融合,解决了面向不同媒体平台的数据采集问题。在实现过程中,首先借助Web应用程序测试工具包selenium实现模拟登录等人工操作,然后采用Xpath元素查询技术来解析网页源码,并提取出数据信息存入数据库,最后将爬取到的数据从数据库中读取出来并展示在前端页面中。实验表明,爬虫在保证数据完整性的前提下实现了采集效率的最大化。 The research of social computing method based on big data technology is the hot spot in the academic circle,and how to obtain the corresponding data resources from the network is the key to the research.At present,network crawler techno-logy is the main method to collect network data.In light of the problem that the existing crawler technology is not easy to collect multi-source data,this paper proposed a network-crawler data-acquisition technology facing multi-data sources.On the basis of six data collection crawlers on media platforms including Sina micro-blog,People’s Daily,Baidu Baike,Baidu Tieba,wechat public account and Easter Wealth Stock Bar,the Web crawlers for multiple data sources are fused to solve the problem of data collection for different media platforms by backstage scheduling technology Servlet.During the implementation process,firstly,the Web application test kit selenium is used to simulate the artificial actions like logining,then the element query technology Xpath is used to analyze the source code of the Web page and extract the data information and put them into the database,finally the data crawled from multi sources are read out from database and displayed on front webpages.Experiments show that the crawler achieves the maximization of acquisition efficiency under the premise of ensuring data integrity.

作者曾健荣张仰森郑佳黄改娟陈若愚 ZENG Jian-rong;ZHANG Yang-sen;ZHENG Jia;HUANG Gai-juan;CHEN Ruo-yu(Institute of Intelligent Information,Beijing Information Science and Technology University,Beijing 100101,China)

机构地区北京信息科技大学智能信息研究所

出处《计算机科学》 CSCD 北大核心 2019年第5期304-309,共6页 Computer Science

基金国家自然科学基金项目(61772081 61602044) 北京市教委科研计划项目(KM201711232014)资助

关键词数据采集网络爬虫多数据源数据展示信息处理 Data acquisition Network crawler Multiple data source Data display Information processing

分类号 TP391. [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1高峰,刘震,高辉.结合有监督广度优先搜索策略的通用垂直爬虫方法[J].计算机工程,2018,44(11):289-299. 被引量：7
2罗咪.基于Python的新浪微博用户数据获取技术[J].电子世界,2018,0(5):138-139. 被引量：10
3胡萍瑞,李石君.基于URL模式集的主题爬虫[J].计算机应用研究,2018,35(3):694-699. 被引量：17
4刘宇,郑成焕.基于Scrapy的深层网络爬虫研究[J].软件,2017,38(7):111-114. 被引量：29
5孙青云,王俊峰,赵宗渠,高梦超.一种基于模拟登录的微博数据采集方案[J].计算机技术与发展,2014,24(3):6-10. 被引量：30
6王曙燕,王璇,孙家泽.基于XPath路径的Web应用测试脚本修复[J].计算机应用研究,2017,34(5):1393-1396. 被引量：6
7于营.面向微博的网络爬虫数据采集[J].信息系统工程,2017,30(12):36-37. 被引量：7

二级参考文献44

1郑冬冬,赵朋朋,崔志明.Deep Web爬虫研究与设计[J].清华大学学报（自然科学版）,2005,45(S1):1896-1902. 被引量：28
2吴小竹.基于JAVA的多线程SPIDER的设计与实现[J].福建电脑,2004,20(6):62-63. 被引量：1
3林雅榕,侯整风.对哈希算法SHA-1的分析和改进[J].计算机技术与发展,2006,16(3):124-126. 被引量：24
4郑冬冬,崔志明.Deep Web爬虫爬行策略研究[J].计算机工程与设计,2006,27(17):3154-3158. 被引量：13
5刘世涛.简析搜索引擎中网络爬虫的搜索策略[J].阜阳师范学院学报（自然科学版）,2006,23(3):59-62. 被引量：15
6杜谦,张文霞.多语言可实现的SHA-1散列算法[J].武汉理工大学学报（信息与管理工程版）,2007,29(7):42-44. 被引量：7
7WenE,SunV.新浪微博研究报告[EB/OL].2011-05-20.http://www.tech Web.com.cn/data/2011-02-25/916941.shtml.
8Han Ruixia. The influence of microblogging on personal public participation[ C]//Proceedings of the 2010 IEEE 2nd sympo- sium on web society. Beijing, China:Association for Computing Machinery ,2010:615 -618.
9Sion R, Atallah M,Prabhakar S. Rights protection for relational databases[ J ]. IEEE transaction on knowledge and data engi- neering,2004,16(12) :1509-1525.
10Boldi P, Codenotti B, Santini M. UbiCrawler: A scalable fully distributed web crawler [ J ]. Software : Practice & experience, 2004,34:711-726.

共引文献97

1方联青,左秀然.基于图像识别的编程工具在医院信息化的应用研究[J].中国数字医学,2020,15(1):28-29. 被引量：4
2亚森.伊斯马伊力,吐尔根.依布拉音,卡哈尔江.阿比的热西提.基于用户关系的维吾尔文微博数据获取方法的研究[J].新疆大学学报（自然科学版）,2015,32(1):74-79. 被引量：4
3张晓琳,付英姿,褚培肖.杰卡德相似系数在推荐系统中的应用[J].计算机技术与发展,2015,25(4):158-161. 被引量：35
4李俊丽.基于Linux的python多线程爬虫程序设计[J].计算机与数字工程,2015,43(5):861-863. 被引量：19
5陈宇,孟凡龙,刘培玉,朱振方.基于 Regex 网页去噪 Hash 比对的网络爬虫无登陆微博采集技术[J].山东师范大学学报（自然科学版）,2015,30(3):14-17. 被引量：1
6徐辉,林芳.基于Oauth2.0的微博信息采集系统的设计[J].福建电脑,2015,31(8):21-22.
7付华峥,陈翀,向勇,刘春.分布式大数据采集关键技术研究与实现[J].广东通信技术,2015,35(10):7-10. 被引量：15
8钟明翔,唐晋韬,谢松县,王挺.一种基于动态网页解析的微博数据抓取方法[J].舰船电子工程,2015,35(10):95-99. 被引量：3
9杨跃东,鲁欣正.国家教育考试网上有害信息自动监测模型研究[J].中国考试,2016(3):8-14. 被引量：1
10王萍,王贺颖.基于新浪微博的冰雹实况信息挖掘[J].计算机与现代化,2016(3):24-29.

同被引文献416

1刘渊,冯兴兵,王晓锋,邓赵红.面向虚实互联网络的链路采集技术研究[J].系统仿真学报,2020,32(3):421-429. 被引量：4
2严锴,李红霞.公共安全视域下的舆情热点及发展趋势可视化分析[J].西安科技大学学报,2019,39(6):1082-1089. 被引量：9
3沈承放,莫达隆,黄文韬.网页数据采集算法及在住户调查中的应用[J].统计与决策,2021(7):52-56. 被引量：2
4郭肇强,周慧聪,刘释然,李言辉,陈林,周毓明,徐宝文.基于信息检索的缺陷定位:问题、进展与挑战[J].软件学报,2020(9):2826-2854. 被引量：12
5郑志忠,庄凌晖.构建以客户诉求为导向的一体化、全过程舆情风险管控体系[J].企业管理,2019(S01):174-175. 被引量：2
6王健.新冠疫情对煤炭行业的影响分析[J].煤炭经济研究,2020,0(4):42-49. 被引量：11
7王杨,许闪闪,李昌,艾世成,张卫东,甄磊,孟丹.基于支持向量机的中文极短文本分类模型[J].计算机应用研究,2020,37(2):347-350. 被引量：30
8于再富,袁满.融合BabelNet的多语言智能信息检索模型[J].吉林大学学报（信息科学版）,2020,38(1):99-106. 被引量：7
9周晓丽,唐承财.基于网络搜索大数据的5A级景区客流量预测分析[J].干旱区资源与环境,2020,0(3):204-208. 被引量：21
10张宁蒙.基于Python的网络爬虫技术探析[J].移动信息,2020(2):84-85. 被引量：1

引证文献44

1金昌锦.多数据源招聘信息采集的爬虫系统实现[J].福建电脑,2019,35(11):13-16. 被引量：1
2杨毅.基于爬虫大数据的网络负载异常监测方法[J].河南科技,2019,38(34):33-35. 被引量：2
3王中伟,裘杭萍,孙毅,邓巧雨.基于时间上下文的军事信息推荐方法[J].指挥信息系统与技术,2019,10(6):55-59. 被引量：4
4曹睿娟,姜仁贵,解建仓,赵勇.基于大数据的城市内涝网络舆情监测及演化机理[J].西安理工大学学报,2020,36(2):151-158. 被引量：7
5朱琪.基于网络爬虫的舆情分析预警系统设计[J].电子设计工程,2020,28(22):56-60. 被引量：9
6李传科.基于Python的网页数据爬虫设计分析[J].信息与电脑,2020,32(24):130-132. 被引量：6
7李艳,丁国强,张庆.网络招聘数据可视化系统的设计与实现[J].信息与电脑,2021,33(1):112-115. 被引量：2
8陆春阳,郭天驹,李晓溪.基于大数据的事故舆情分析系统研究[J].电力大数据,2021,24(1):70-78. 被引量：2
9谷葆春.基于爬虫的股票涨停板复盘软件的研究与实现[J].现代计算机,2021,27(7):64-68. 被引量：2
10朱明超,宋晖.多任务数据采集系统的设计与实现[J].新一代信息技术,2021,4(10):8-12.

二级引证文献102

1周丽媛,高红梅,赵启军,高定国.基于多特征融合结合深度学习模型的药材切片鉴别[J].世界科学技术-中医药现代化,2024,26(1):211-217.
2陈翀昊,黄周捷,蔡飞,余权,郑建明,陈洪辉.基于实体图神经网络的事实核实方法[J].指挥信息系统与技术,2020,11(3):17-21.
3李雯,姜仁贵,解建仓,赵勇,朱记伟,王尹萍.基于文献计量学的城市洪涝灾害研究可视化知识图谱分析[J].西安理工大学学报,2020,36(4):523-529. 被引量：18
4黄玉萍,郑梦飞,谢翔.基于运单及POI数据的快递企业客户发现方法[J].物流技术,2021,40(1):122-127.
5曹丽娜,朱方娥,郭建方.面向对象软件的数据异常智能监测方法[J].信息与电脑,2021,33(3):1-3.
6袁国栋.网络舆情危机演变特征及其预警方案研究[J].现代情报,2021,41(7):154-159. 被引量：5
7李俊华.基于Python的数据可视化[J].新型工业化,2021,11(3):69-70. 被引量：2
8唐绍华.新一代信息技术在规划辅助平台中的应用研究[J].现代信息科技,2021,5(3):110-113. 被引量：2
9贺宗平,王正路.一种面向互联网文本数据采集框架的设计[J].电子技术与软件工程,2021(12):187-189. 被引量：4
10石慧,陈培辉.基于大数据技术的房价数据采集及可视化分析应用[J].计算机时代,2021(8):71-75. 被引量：3

1吴熙琄.心累的孩子容易变成“小大人”[J].自我保健,2019,0(4):7-7.
2胡少宇,刘志民,董科.大数据数字媒体时代网络爬虫技术下的精准招商[J].电子技术与软件工程,2019(5):4-5. 被引量：3
3黄克敏.网站信息安全之反爬虫策略[J].保密科学技术,2018(10):62-63. 被引量：3
4张鹏,李嘉妮,刘侃.基于综合测试云平台的兼容性测试工具Selenium Grid的应用[J].科学技术创新,2018(31):82-83.
5王英杰.基于Python的微博数据爬虫程序设计研究[J].信息与电脑,2018,0(23):93-94. 被引量：8
6赵林斌,邵战强,魏威.基于海量数据的快速查询技术研究[J].智能城市,2019,5(4):26-27.
7杨羊,何柳柳,尚颖,李征.面向测试生成的ASM模型约简研究[J].计算机工程与科学,2018,40(6):1084-1092. 被引量：1
8范文茜,游丛瑞.《地球最后的夜晚》:口碑票房断崖下跌,营销错位惹的祸?[J].商学院,2019,0(2):45-47. 被引量：1
9李玲玲,孙贺,史捷龙.高校网络舆情承载平台的演进及启示[J].佳木斯职业学院学报,2018,34(11):211-212.
10周辉,钱巨.基于ANTLR的Web应用测试脚本自动重构方法[J].计算技术与自动化,2017,36(3):109-113.

计算机科学

2019年第5期

浏览历史

内容加载中请稍等...

面向多数据源的网络爬虫实现技术及应用被引量：44

参考文献7

二级参考文献44

共引文献97

同被引文献416

引证文献44

二级引证文献102

相关作者

相关机构

相关主题

浏览历史

面向多数据源的网络爬虫实现技术及应用 被引量：44

参考文献7

二级参考文献44

共引文献97

同被引文献416

引证文献44

二级引证文献102

相关作者

相关机构

相关主题

浏览历史

面向多数据源的网络爬虫实现技术及应用被引量：44