网络数据采集框架Nutch及其应用研究被引量：2

下载PDF

导出

摘要随着大数据与云计算、物联网、人工智能进一步融合,各行各业产生了海量电子化数据,建立大数据应用首要解决的问题就是采集数据,其中,Apache Nutch是用于数据采集的爬虫框架。为采集若干人才招聘网站职位需求数据,采用MySQL数据库进行数据存储,采用Nutch实现网站数据采集,采用排程框架Quartz实现数据定时采集和更新。

作者周飚

机构地区重庆财经职业学院

出处《中国管理信息化》 2019年第18期167-169,共3页 China Management Informationization

关键词 NUTCH 分布式爬虫框架 CRAWLER Quartz排程

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1孙立伟,何国辉,吴礼发.网络爬虫技术的研究[J].电脑知识与技术（过刊）,2010,0(15):4112-4115. 被引量：134

二级参考文献24

1郑冬冬,赵朋朋,崔志明.Deep Web爬虫研究与设计[J].清华大学学报（自然科学版）,2005,45(S1):1896-1902. 被引量：28
2孙彬,王东,李娟.基于XQuery的Deep Web搜索系统的设计与实现[J].科学技术与工程,2007,7(16):4080-4084. 被引量：2
3Hersovici M,Heydon A,Mitzenmacher M et al.The shark-search algorithm-an application:Tailored web site mapping. Pro-ceedings of the7th International World Wide Web Conference . 1998
4Kleinberg J.Authoritative sources in a hyperlinked environment. Journal of the ACM . 1998
5J.Cho,H.Garcia-Molina.The evolution of the web and implications for an incremental crawler. Proceedings of the26th Inter-national Conference on Very Large Database . 2000
6M.Najork,J.L.Wiener.Breadth-first crawling yields high-quality pages. Proceedings of the10th International Conference on World Wide Web . 2001
7Yan HF,Wang JY,Li XM,et al.Architectual design and evaluation of an efficient Web-crawling system. The Journal of Systems and Software . 2002
8M K.Bergman.The Deep Web:Surfaceing Hidden Value. http://www.completeplanet.com/Tutorials/DeepWeb . 2000
9Yiyao Lu,Hai He,Hongkun Zhao,et al.Annotating Structured Data of the Deep Web. IEEE23rd International Conference on Data Engineering . 2007
10Cho J.Crawling the Web:Discovery and maintenance of large-scale Web data. . 2001

共引文献133

1周璐,杨保岑,李伟凡,张秋实.内河航道综合信息服务中助航数据获取的方法研究与应用[J].中国水运（下半月）,2021(2):10-12.
2彭新林,赵辉.恶意网络爬虫行为的刑事规制及其完善[J].刑法论丛,2022(1):217-236.
3饶传平.论数据抓取法律风险的流程化管理[J].东方法学,2023(6):28-42. 被引量：5
4金静梅.基于网络爬虫的城市天气服务系统设计与实现[J].办公自动化,2021,26(19):58-59. 被引量：2
5于成龙,于洪波.网络爬虫技术研究[J].东莞理工学院学报,2011,18(3):25-29. 被引量：23
6张睿涵,林振荣,李建民,衷湾.基于主题定制的专利网络爬虫的设计与实现[J].计算机与现代化,2011(7):52-55. 被引量：2
7李志义.网络爬虫的优化策略探略[J].现代情报,2011,31(10):31-35. 被引量：17
8王鲁荣.基于主题网络爬虫的高校网络信息动态搜索策略研究[J].四川师范大学学报（自然科学版）,2011,34(6):919-921. 被引量：3
9王娟,吴金鹏.网络爬虫的设计与实现[J].软件导刊,2012,11(4):136-137. 被引量：7
10焦改香.试谈社会信息意识的形成条件和影响因素[J].地震科技情报,2000(2):11-12.

同被引文献17

1孟晨,赵春亮,张建国.泛型DAO模式在Java Web开发中的应用[J].计算机应用与软件,2012,29(1):175-177. 被引量：18
2申德荣,于戈,王习特,聂铁铮,寇月.支持大数据管理的NoSQL系统研究综述[J].软件学报,2013,24(8):1786-1803. 被引量：194
3王金龙,宋斌,丁锐.Node.js:一种新的Web应用构建技术[J].现代电子技术,2015,38(6):70-73. 被引量：41
4刘世成,韩笑,王继业,张东霞,朱朝阳,邓春宇,王晓蓉.“互联网+”行动对电力工业的影响研究[J].电力信息与通信技术,2016,14(4):27-34. 被引量：15
5余双双,曾一,刘慧君,杨燕宁.基于UML模型的多态性与Java接口代码信息一致性检测的方法[J].计算机应用与软件,2017,34(2):8-13. 被引量：5
6杨晓东,郜鲁涛,杨林楠,刘建阳.基于Hadoop平台的农产品价格数据爬取和存储系统的研究[J].计算机应用与软件,2017,34(3):76-80. 被引量：4
7王建军,张英成,战非,赵侃.基于Sqoop的高校海量结构化数据导入研究[J].无线互联科技,2018,15(20):52-53. 被引量：5
8王小洁.基于PHP的网络数据采集[J].山西电子技术,2018(6):65-66. 被引量：2
9刘国玺,刘江,徐海峰,张雁,吕丹桔.基于Go的多线程模块化爬虫框架设计与实现[J].现代计算机,2019,0(21):74-77. 被引量：1
10朱二莉.基于WebMagic框架的面向招聘网站的爬虫技术研究[J].信息与电脑,2019,31(19):141-142. 被引量：1

引证文献2

1毕玉冰,王文庆,刘超飞,崔逸群,董夏昕,金晶.基于泛型思想的电力工业互联网爬虫框架研究[J].热力发电,2020,49(11):20-27. 被引量：2
2王树国,皮宗辉,付文豪.高校大数据分析平台设计与实现[J].信息通信,2020(9):104-106. 被引量：1

二级引证文献3

1奚增辉,王卫斌,陆嘉铭,瞿海妮.应用主题爬虫的电力网络舆情数据采集[J].西安工程大学学报,2022,36(2):72-78. 被引量：6
2李梅,朱明宇.基于蚁群算法的无线通信网络安全漏洞检测方法[J].计算机测量与控制,2022,30(10):51-56. 被引量：6
3王世华.基于用户需求的高校图书馆智慧服务大数据分析系统构建——以上海大学为例[J].高校图书馆工作,2022,42(6):43-47. 被引量：5

1王蕾.幼儿园教师职业吸引力的困境与出路[J].河南教育（幼教）,2019,0(7):20-23.
2李婷,郭雅馨,李雪莲,刘占军.基于0～1规划的汽车零件喷涂排程设计[J].科学咨询,2019,0(29):29-29.
3王挺.移动互联网时代人才招聘网站用户体验提升策略[J].中国人事科学,2018,0(6):49-53. 被引量：6
4赵欣,张虹,刘洋,马艳慧.医学高职院校高水平专业群建设路径的研究[J].中国卫生产业,2019,16(17):90-91. 被引量：2
5张屹,陈立军,蒋慧勇.基于大数据的无线传感网络数据采集的研究[J].信息技术与网络安全,2019,38(9):39-43. 被引量：11
6张少军,曾嘉.利用Python爬虫分析影评与舆情关系的启示[J].东南传播,2019,0(8):76-78. 被引量：2
7年梅,范祖奎,黄欣欣.校园网学生上网行为分析研究[J].计算机时代,2019,0(9):67-70.
8赵秀芹,刘杨青,李瑞祥.MySQL数据库使用技巧三例[J].网络安全和信息化,2019,0(8):90-91. 被引量：5
9Yan-ping Niu,Chuan-yao Sun,Wan-zhong Yin,Xing-rong Zhang,Hong-feng Xu,Xu Zhang.Selective flotation separation of andalusite and quartz and its mechanism[J].International Journal of Minerals,Metallurgy and Materials,2019,26(9):1059-1068. 被引量：8
10王宁邦,徐博.基于爬虫和网页防篡改的高校门户网站群预警监控系统构建[J].云南民族大学学报（自然科学版）,2019,28(5):502-509. 被引量：7

中国管理信息化

2019年第18期

浏览历史

内容加载中请稍等...

网络数据采集框架Nutch及其应用研究被引量：2

参考文献1

二级参考文献24

共引文献133

同被引文献17

引证文献2

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

网络数据采集框架Nutch及其应用研究 被引量：2

参考文献1

二级参考文献24

共引文献133

同被引文献17

引证文献2

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

网络数据采集框架Nutch及其应用研究被引量：2