一种深层网的数据采集方法被引量：1

A method of data collection for deep web

下载PDF

导出

摘要为了解决网络信息采集过程中复杂的脚本解析和异步数据交互等一系列问题,提出了基于浏览器内核的网络信息采集方法;构建了以浏览器内核为核心的网络爬虫系统;在采集性能和采集可行性两个方面对系统进行了测试。以浏览器内核作为数据采集系统的网页解析引擎,来执行网页中的各种客户端脚本以及完成复杂的数据交互,从而完整地将隐藏在深层网中的URL等有用数据提取出来。随着网络应用的发展,未来的网页结构会越来越复杂化,因此传统网络爬虫的采集难度会逐步增加,而基于浏览器内核的网络爬虫则可以很好地适应这些变化。 In order to solve a asynchronization of data interaction in series of problems such as complex script parsing and the process of web information collection, a method of web information collection based on browser kernel is proposed. A web crawler system based on the kernel of browser is constructed, and the system is tested in both performance and feasibility. The browser kernel is used as the web page parsing engine of the web crawler to execute various client scripts in the web page and to complete the complex data interaction, thus the useful data hidden in the deep web such as URL can be extracted. With the development of network applications, the structure of the web pages will become more and more complex, leading to the mounting difficulty of the traditional web crawler, but the web crawler based on the browser kernel can well accommodate these changes.

作者陈新都云程肖诗斌 CHEN Xin;DU Yuncheng;XIAO Shibin(Computer School,Beijing Information Science ＆ Technology University,Beijing 100101,China;Beijing TRS Information Technology Co.,Ltd,Beijing 100101,China)

机构地区北京信息科技大学计算机学院北京拓尔思信息技术股份有限公司

出处《北京信息科技大学学报（自然科学版）》 2018年第5期60-64,共5页 Journal of Beijing Information Science and Technology University

基金 863计划课题"面向基础教育的知识能力智能测评与类人答题验证系统"(2015AA015409)

关键词浏览器内核脚本解析网络爬虫深层网 brower kernel script parsing web crawler deep web

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献12

1刘奕群.搜索引擎用户满意度评估[J].计算机研究与发展,2017,54(6):1133-1143. 被引量：5
2徐雁飞,刘渊,吴文鹏.社交网络数据采集技术研究与应用[J].计算机科学,2017,44(1):277-282. 被引量：14
3杨俊峰,黎建辉,杨风雷.深层网站Ajax页面数据采集研究综述[J].计算机应用研究,2013,30(6):1606-1610. 被引量：26
4于娟,刘强.主题网络爬虫研究综述[J].计算机工程与科学,2015,37(2):231-237. 被引量：103
5郑迪文,沈立炜,彭鑫,赵文耘.基于AJAX的Web应用构件组装技术及工具[J].计算机科学,2014,41(11):152-156. 被引量：18
6段虎才,倪宏,邓峰,胡琳琳.WebKit内核的嵌入式浏览器磁盘缓存方法[J].计算机工程与设计,2015,36(3):624-629. 被引量：4
7赵小厦,范冰冰,夏嵬.基于WebKit的一种渲染改进方法[J].计算机应用与软件,2014,31(1):246-248. 被引量：9
8王豫中,范磊,李建华.基于广度优先搜索的局部社区发现算法[J].计算机工程,2015,41(10):37-41. 被引量：4
9许兆伟,王颖.HTTP/2新特性与Web性能关系的研究与实验[J].计算机技术与发展,2017,27(11):192-195. 被引量：5
10丁麟轩,黄昆,张大方.基于并行字符索引的多步长正则表达式匹配算法[J].计算机研究与发展,2015,52(3):681-690. 被引量：7

二级参考文献168

1范慧萍,宣蕾,陈曙晖,黄高平.基于正则表达式的应用层协议识别加速[J].计算机研究与发展,2008,45(z1):438-443. 被引量：9
2杨学明,刘柏嵩.主题爬虫在数字图书馆中的应用[J].图书馆杂志,2007,26(8):47-50. 被引量：3
3周立柱,林玲.聚焦爬虫技术研究综述[J].计算机应用,2005,25(9):1965-1969. 被引量：153
4以科技手段辅助网络舆情突发事件的监测分析——方正智思舆情辅助决策支持系统[J].信息化建设,2005(10):50-52. 被引量：16
5沈贺丹,潘亚楠,邵良杉.关于搜索引擎的研究综述[J].计算机技术与发展,2006,16(4):147-149. 被引量：17
6连浩,刘悦,许洪波,程学旗.改进的基于布尔模型的网页查重算法[J].计算机应用研究,2007,24(2):36-39. 被引量：7
7刘毅.略论网络舆情的概念、特点、表达与传播[J].理论界,2007(1):11-12. 被引量：312
8严莉莉,王倩倩,孟杰,张燕平.基于聚类的个性化元搜索引擎设计[J].计算机技术与发展,2007,17(4):186-188. 被引量：7
9夏崇镨,康丽.基于叙词表的主题爬虫技术研究[J].现代图书情报技术,2007(5):41-44. 被引量：8
10夏冰,高军,王腾蛟,杨冬青.一种高效的动态脚本网站有效页面获取方法[J].软件学报,2009(20):176-183.

共引文献194

1李家瑞,李华昱,闫阳,付亚凤.基于事件抽取的学科建设知识图谱构建与应用[J].计算机系统应用,2022,31(11):100-110. 被引量：2
2齐虎春.高职化工院校网络化工数据采集课程实践研究[J].内蒙古石油化工,2020,46(10):88-90. 被引量：1
3井世洁,邹利.“校园欺凌”的网络表达与治理——基于LDA主题模型的大数据分析[J].青少年犯罪问题,2020(6):60-68.
4徐旭,唐青松.基于B/S模式的公招考试报名系统设计与实现[J].现代计算机,2013,19(14):69-73.
5金碧漪,郭金龙,许鑫.利用领域本体优化文档检索的研究——基于KIM平台的设计与实现[J].现代图书情报技术,2013(12):27-33. 被引量：3
6唐青松.Web页面展示系统处理进度的研究与实现[J].计算机与现代化,2014(5):136-140.
7胡光永,韦鹏飞.基于智能推荐的学习空间大数据处理技术架构设计研究（英文）[J].机床与液压,2018,46(24):120-124. 被引量：8
8李慧敏,孙佳亮.论爬虫抓取数据行为的法律边界[J].电子知识产权,2018(12):58-67. 被引量：49
9殷帅,胡越黎,刘思齐,燕明.基于YOLO网络的数据采集与标注[J].仪表技术,2018(12):22-25. 被引量：7
10李静力.面向高危风险漏洞修复行为的系统研究[J].自动化技术与应用,2019,38(1):39-45. 被引量：2

同被引文献13

1曾伟辉,李淼.深层网络爬虫研究综述[J].计算机系统应用,2008,17(5):122-126. 被引量：39
2周德懋,李舟军.高性能网络爬虫:研究综述[J].计算机科学,2009,36(8):26-29. 被引量：90
3王建.手机浏览器的发展趋势[J].中国电信业,2012(6):76-77. 被引量：2
4林子皓.主题爬虫的设计与实现[J].计算机技术与发展,2014,24(8):99-102. 被引量：6
5孙立伟,何国辉,吴礼发.网络爬虫技术的研究[J].电脑知识与技术（过刊）,2010,0(15):4112-4115. 被引量：133
6李健,马延周.支持DOM模板可视化配置的网页抽取方法[J].现代计算机,2018,24(7):56-60. 被引量：4
7彭智鑫.基于Python的深度网络爬虫的设计与实现[J].信息记录材料,2018,19(8):140-141. 被引量：4
8梁东,杨永全,魏志强.基于支持向量机的网页正文内容提取方法[J].计算机与现代化,2018(9):21-26. 被引量：2
9杨君,陈春玲,余瀚.基于Scrapy技术的数据采集系统的设计与实现[J].计算机技术与发展,2018,28(10):177-181. 被引量：14
10胡萍瑞,李石君.基于URL模式集的主题爬虫[J].计算机应用研究,2018,35(3):694-699. 被引量：17

引证文献1

1李健.基于Gecko浏览器内核的谷歌翻译爬虫[J].现代计算机,2021,27(18):32-37.

1何梦秋.基于Hawk的互联网数据采集方法研究[J].信息通信,2018,31(10):71-72.
2邵晓刚,宋茂忠.DSP与FPGA异步数据传输方法[J].电子设计工程,2017,25(21):27-29. 被引量：1
3刘杰,葛晓玢,闻顺杰.基于Python的网络爬虫系统的设计与实现[J].信息与电脑,2018,30(12):92-93. 被引量：4
4高宇,杨小兵.基于聚焦型网络爬虫的影评获取技术[J].中国计量大学学报,2018,29(3):299-303. 被引量：6
5师毅.椒图科技:在安全红海中寻找蓝海[J].中关村,2018,0(11):115-117.
6徐颖,王春虎,郝庆兰.OBE工程教育理念下的化工干燥实验教学改革[J].中国轻工教育,2018,21(5):69-73. 被引量：7
7李枭,任维政.基于SpringMVC的多平台J2EE开发方式研究[J].吉林大学学报（信息科学版）,2017,35(5):569-575. 被引量：17
8白光磊,江昊,史佳雯,江威,张琪.基于扩展无线充电Qi协议的数据采集方法[J].电子技术应用,2018,44(11):76-80. 被引量：5
9杨国志,江业峰.基于python的聚焦网络爬虫数据采集系统设计与实现[J].科学技术创新,2018(27):73-74. 被引量：16
10高波,周源,李永铭,吴南,庞霄,张旸,马海莉,马伟,黄霞,侯玲,尤榕,田志彬,黄泽,郭成城,邱艳.我国献血不良反应监测管理现状[J].中国输血杂志,2018,31(9):974-977. 被引量：20

北京信息科技大学学报（自然科学版）

2018年第5期

浏览历史

内容加载中请稍等...

一种深层网的数据采集方法被引量：1

参考文献12

二级参考文献168

共引文献194

同被引文献13

引证文献1

相关作者

相关机构

相关主题

浏览历史

一种深层网的数据采集方法 被引量：1

参考文献12

二级参考文献168

共引文献194

同被引文献13

引证文献1

相关作者

相关机构

相关主题

浏览历史

一种深层网的数据采集方法被引量：1