期刊文献+

面向多数据源的网络爬虫实现技术及应用 被引量:44

Implementation Technology and Application of Web Crawler for Multi-data Sources
下载PDF
导出
摘要 基于大数据技术的社会计算方法是目前学术界研究的热点,如何从网络上快速获取相应的数据资源是相关研究的关键。网络爬虫技术是目前进行网络数据采集的主要手段,针对现有爬虫技术不便于采集多源数据的问题,提出了一种面向多数据源的网络爬虫数据采集技术,在研究新浪微博、人民日报、百度百科、百度贴吧、微信公众号、东方财富股吧等6类媒体平台的数据采集爬虫的基础上,采用Servlet后台调度技术,将面向多数据源的网络爬虫进行融合,解决了面向不同媒体平台的数据采集问题。在实现过程中,首先借助Web应用程序测试工具包selenium实现模拟登录等人工操作,然后采用Xpath元素查询技术来解析网页源码,并提取出数据信息存入数据库,最后将爬取到的数据从数据库中读取出来并展示在前端页面中。实验表明,爬虫在保证数据完整性的前提下实现了采集效率的最大化。 The research of social computing method based on big data technology is the hot spot in the academic circle,and how to obtain the corresponding data resources from the network is the key to the research.At present,network crawler techno-logy is the main method to collect network data.In light of the problem that the existing crawler technology is not easy to collect multi-source data,this paper proposed a network-crawler data-acquisition technology facing multi-data sources.On the basis of six data collection crawlers on media platforms including Sina micro-blog,People’s Daily,Baidu Baike,Baidu Tieba,wechat public account and Easter Wealth Stock Bar,the Web crawlers for multiple data sources are fused to solve the problem of data collection for different media platforms by backstage scheduling technology Servlet.During the implementation process,firstly,the Web application test kit selenium is used to simulate the artificial actions like logining,then the element query technology Xpath is used to analyze the source code of the Web page and extract the data information and put them into the database,finally the data crawled from multi sources are read out from database and displayed on front webpages.Experiments show that the crawler achieves the maximization of acquisition efficiency under the premise of ensuring data integrity.
作者 曾健荣 张仰森 郑佳 黄改娟 陈若愚 ZENG Jian-rong;ZHANG Yang-sen;ZHENG Jia;HUANG Gai-juan;CHEN Ruo-yu(Institute of Intelligent Information,Beijing Information Science and Technology University,Beijing 100101,China)
出处 《计算机科学》 CSCD 北大核心 2019年第5期304-309,共6页 Computer Science
基金 国家自然科学基金项目(61772081 61602044) 北京市教委科研计划项目(KM201711232014)资助
关键词 数据采集 网络爬虫 多数据源 数据展示 信息处理 Data acquisition Network crawler Multiple data source Data display Information processing
  • 相关文献

参考文献7

二级参考文献44

共引文献97

同被引文献416

引证文献44

二级引证文献102

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部