基于Hadoop的可视化Deep Web采集平台设计被引量：4

Design of a visual Deep Web crawler platform based on Hadoop

下载PDF

导出

摘要随着信息技术的发展,互联网信息资源变得越来越丰富,大数据技术的发展使得我们能够从互联网复杂的信息数据中获得相应的知识。这其中最基本的技术就是大数据采集技术,它使我们能够将互联网数据快速采集下来并结构化存储。设计的基于Hadoop的可视化Deep Web采集平台是一种简单易操作的高效深度采集平台,运用Webkit技术作为核心引擎实现可视化配置和深度采集功能,同时通过优化采集算法,调整Hadoop任务分配策略提升效率。实验结果表明,设计的数据采集平台获得了较好的效果。 With the development of IT technology, internet information resources become much richer. We can obtain relevant knowledge from complicated internet information thanks to the rapid development of big data technology. The most essential part is the big data crawler technology which can crawl and save Internet data structurally. In this paper, we present and develop an efficient Deep Web information crawler based on Hadoop. This crawler employs the Webkit as the core engine which can implement the visual configuration and the deep data collection. To improve the efficiency, the data collection algorithm is also optimized by adjusting the strategy of task distribution in Hadoop. Experimental results demonstrate that the developed data collection platform can obtain better results.

作者刘彤张阳孙琦袁翀

机构地区北京市计算中心云计算关键技术与应用北京市重点实验室北京市计算中心云计算关键技术与应用北京市重点实验室物联网与大数据应用事业部

出处《计算机工程与科学》 CSCD 北大核心 2016年第2期217-223,共7页 Computer Engineering & Science

基金国家自然科学基金(71303023) 北京市科学技术研究院萌芽计划基金

关键词数据采集 HADOOP 可视化 data crawler Hadoop visualization

分类号 TP393.027 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1刘金红,陆余良.主题网络爬虫研究综述[J].计算机应用研究,2007,24(10):26-29. 被引量：131
2宫进,胡长军,曾广平.互联网信息定向采集系统的设计与实现[J].计算机应用,2007,27(B06):16-17. 被引量：7
3曾伟辉,李淼.深层网络爬虫研究综述[J].计算机系统应用,2008,17(5):122-126. 被引量：39
4杨一柳.基于模板的网页信息抽取技术研究[J].渤海大学学报（自然科学版）,2013,34(3):320-322. 被引量：3
5陈娟,刘东飞.基于Webkit的Web开发在移动互联网上的应用[J].软件导刊,2011,10(5):105-107. 被引量：3
6许丞,刘洪,谭良.Hadoop云平台的一种新的任务调度和监控机制[J].计算机科学,2013,40(1):112-117. 被引量：52
7程苗,陈华平.基于Hadoop的Web日志挖掘[J].计算机工程,2011,37(11):37-39. 被引量：64

二级参考文献70

1郑冬冬,赵朋朋,崔志明.Deep Web爬虫研究与设计[J].清华大学学报（自然科学版）,2005,45(S1):1896-1902. 被引量：28
2李卫,刘建毅,何华灿,王枞.基于主题的智能Web信息采集系统的研究与实现[J].计算机应用研究,2006,23(2):163-166. 被引量：15
3彭建荣,罗永会.搜索引擎的基本原理及发展趋势[J].电脑知识与技术,2006,1(1):84-85. 被引量：7
4龙银香.基于HTML标记的信息隐藏方法[J].微计算机信息,2006(07X):129-131. 被引量：5
5郑冬冬,崔志明.Deep Web爬虫爬行策略研究[J].计算机工程与设计,2006,27(17):3154-3158. 被引量：13
6王文平,刘希玉,韩杰.基于并行遗传算法的关联规则挖掘[J].山东师范大学学报（自然科学版）,2006,21(4):29-31. 被引量：7
7陈珂,陈小英,徐科.Hidden Web信息获取[J].计算机时代,2007(5):54-56. 被引量：3
8孙彬,王东,李娟.基于XQuery的Deep Web搜索系统的设计与实现[J].科学技术与工程,2007,7(16):4080-4084. 被引量：2
9Savasere A,Omiecinski E,Navathe S.An Efficient Algorithm for Mining Association Rules in Large Databases[C] //Proceedings of the 21st VLDB Conference.Zurich,Switzerland:[s.n.] ,1995:432-444.
10陈松桥.计算机应用[M].长沙:湖南科学技术出版社,2002.191-193.

共引文献289

1陈旭文,林若波.云存储在高校信息化管理中的应用研究[J].兰州文理学院学报（自然科学版）,2013,27(4):70-73. 被引量：4
2刘春勇,黄志球,王进,徐丙凤.基于SLA的动态云体系结构[J].计算机工程,2011,37(S1):7-9. 被引量：2
3赵志滨,贾岩峰,姚兰,鲍玉斌.含有丰富结构化数据的Web页面分类技术的研究[J].计算机研究与发展,2013,50(S1):53-60. 被引量：5
4董新华,李瑞轩,周湾湾,王聪,薛正元,廖东杰.Hadoop系统性能优化与功能增强综述[J].计算机研究与发展,2013,50(S2):1-15. 被引量：69
5周宇,吕强.基于模板和数据采集的综合信息查询平台的实现[J].福建电脑,2008,24(2):138-139.
6尹江,尹治本,黄洪.网络爬虫效率瓶颈的分析与解决方案[J].计算机应用,2008,28(5):1114-1116. 被引量：18
7曾伟辉,李淼.深层网络爬虫研究综述[J].计算机系统应用,2008,17(5):122-126. 被引量：39
8王岩.搜索引擎中网络爬虫技术的发展[J].电信快报（网络与通信）,2008(10):20-22. 被引量：11
9王燕,吴灏,毛天宇.基于K-中心点聚类算法的论坛信息识别技术研究[J].计算机工程与设计,2009,30(1):210-212. 被引量：3
10戚欣.基于本体的主题网络爬虫设计[J].武汉理工大学学报,2009,31(3):138-141. 被引量：14

同被引文献36

1曹岩,张英杰,周光辉,张定红,江平宇.基于Web的数控编程动态仿真及可视化[J].工程图学学报,2004,25(2):170-175. 被引量：3
2兰月新.突发事件网络舆情安全评估指标体系构建[J].情报杂志,2011,30(7):73-76. 被引量：64
3王宏宇.Hadoop平台在云计算中的应用[J].软件,2011,32(4):36-38. 被引量：41
4吕终亮,罗兵,吴焕萍,郑卫江,唐卫,白新萍.MESIS信息检索及可视化产品制作平台实现[J].应用气象学报,2012,23(5):631-637. 被引量：29
5孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,50(1):146-169. 被引量：2377
6陈巧,施佺.基于蚂蚁算法的Deep Web页面信息抽取方法研究[J].煤炭技术,2013,32(2):176-178. 被引量：3
7杨俊峰,黎建辉,杨风雷.深层网站Ajax页面数据采集研究综述[J].计算机应用研究,2013,30(6):1606-1610. 被引量：26
8王元卓,靳小龙,程学旗.网络大数据:现状与展望[J].计算机学报,2013,36(6):1125-1138. 被引量：711
9陈以增,于齐.基于SERVQUAL模型的商圈服务质量模糊综合评价[J].上海大学学报（自然科学版）,2014,20(3):296-303. 被引量：9
10李长东,孙爱庐,贾莹.城市中心商圈空间品质评价意义及指标体系研究[J].西部人居环境学刊,2014,29(4):98-106. 被引量：4

引证文献4

1陈巧,丁卫泽,施佺.基于云计算面向网络舆情的Deep Web数据抽取关键技术研究[J].电脑知识与技术,2016,12(5X):23-25. 被引量：1
2王家辉,过弋,文欣秀,万锋.面向智慧商圈的多源数据采集与综合评价系统[J].计算机工程,2019,45(1):284-291. 被引量：6
3刘霞,张威.基于Web的数据可视化教学系统设计与实现[J].电子设计工程,2019,27(5):72-76. 被引量：8
4王雪芹.基于Hadoop平台的大学多媒体教学管理研究[J].现代电子技术,2020,43(9):175-178. 被引量：7

二级引证文献22

1张雪梅.人工智能在语言文化教学资源管理系统中的应用[J].现代科学仪器,2020(3):139-142.
2彭学勤,董梦雪,马琳.大数据背景下塑料光纤通信系统安全态势诊断研究[J].塑料科技,2020,48(8):73-76. 被引量：10
3马耀家,曹扬,陈骏,曾艺坤,陈珊珊.面向智慧中台的多源数据集成技术研究[J].电子技术与软件工程,2020(19):178-179. 被引量：1
4张雪梅.人工智能在日语语言文化教学资源管理系统中的应用[J].现代科学仪器,2021,38(1):171-174.
5吴淑珍.智慧教育背景下应用型高校教学资源管理系统的优化设计[J].信息与电脑,2021,33(8):233-235. 被引量：2
6徐胜超.基于Web的防火墙课程远程教学系统设计[J].信息与电脑,2021,33(15):113-115.
7王萍利.基于J2EE平台高职院校网络教学系统的设计与实现[J].微型电脑应用,2021,37(11):41-43.
8王晓晗.基于Hadoop技术的远程教学智慧云平台设计[J].微型电脑应用,2021,37(11):90-93. 被引量：3
9齐瑛.基于ZigBee的任务型语文课堂互动教学系统设计[J].自动化技术与应用,2022,41(2):51-54. 被引量：2
10郝俊博,王立东,解瑶.多源数据采集的动态分配与分组方法[J].通信电源技术,2021,38(19):4-6.

1彭俊.网络环境下的计算机病毒及防范[J].信息安全与技术,2011,2(1):57-59. 被引量：4
2钱秀槟.基于数据库的动态网页内容监控技术[J].计算机安全,2003(32):15-16.
3杨超晶.新闻专业网站：专业才是王牌[J].新闻与写作,2008(7):61-61.
4梁广洪.Internet安全及个人计算机安全应用浅探[J].铜仁职业技术学院学报,2008,0(2):51-54. 被引量：2
5刘彤.个性化Web采集算法研究及其应用[J].贵州大学学报（自然科学版）,2006,23(3):305-313. 被引量：1
6王忠,程磊.基于元搜索引擎的个性化Web信息采集[J].计算机工程与设计,2009,30(13):3117-3119. 被引量：12
7张玲,许亮,姜华.Web采集中信息组合自学习的研究[J].计算机技术与发展,2013,23(11):216-219.
8徐飞,郑秋生,高艳霞.基于云存储的网页归档方案的研究[J].计算机时代,2017(4):21-24. 被引量：5
9李文东.基于WEB的智能信息采集及处理系统研究[J].科技创新导报,2008,5(23):15-15. 被引量：1
10快讯[J].中国科技画报,2001(6):41-41.

计算机工程与科学

2016年第2期

浏览历史

内容加载中请稍等...

基于Hadoop的可视化Deep Web采集平台设计被引量：4

参考文献7

二级参考文献70

共引文献289

同被引文献36

引证文献4

二级引证文献22

相关作者

相关机构

相关主题

浏览历史

基于Hadoop的可视化Deep Web采集平台设计 被引量：4

参考文献7

二级参考文献70

共引文献289

同被引文献36

引证文献4

二级引证文献22

相关作者

相关机构

相关主题

浏览历史

基于Hadoop的可视化Deep Web采集平台设计被引量：4