基于Hadoop平台的农产品价格数据爬取和存储系统的研究被引量：4

RESEARCH ON DATA CRAWLING AND STORAGE SYSTEM OF AGRICULTURAL PRODUCT PRICE BASED ON HADOOP PLATFORM

下载PDF

导出

摘要目前许多大型农贸市场和农业信息商务平台都在实时发布每天各地区不同农产品的价格数据。针对数据更新快、数据量大、数据形式多样,使数据的爬取和存储以及后续的分析工作变得困难,提出基于Hadoop的农产品价格爬取及存储系统。利用HttpClient框架结合线程池通过多线程爬取,爬取结束后执行完整性检查,过滤出信息不完整的网页,进行二次爬取直到信息完整。对爬取到的网页使用正则表达式进行解析和清洗,提取有用的数据,以文本文件的形式存入HDFS(Hadoop Distributed File System),此后爬取到的数据以追加的方式写入HDFS文件中。实验表明HDFS的写入性能满足爬取数据不断递增的现状,副本数越少,数据块越大,写入性能越好。 At present, many large farm product markets and agricultural information commerce platforms release the information of agricultural product prices from different regions in real-time each day. Because of a large number Of various fast-updating data, the data crawling and storage as well as the following analysis work come to be difficult. Therefore, we put forward a data crawling and storage system of agricultural product price based on Hadoop. We implement multi-threaded crawling by HttpClient framework combined with thread pool and finish integrity checking. After filtering out the web pages whose information is incomplete, we crawl again until the information comes to be complete. We analyze and clean the crawled web pages by regular expression, and save the useful extracted data in the form of text file into HDFS （ Hadoop Distributed File System）. The data crawled later is supplemented into HDFS. Experiment shows that the writing performance of HDFS can satisfy the incremental crawling data. The less duplicates are, the bigger the data block is, then the better the writing performance is.

作者杨晓东郜鲁涛杨林楠刘建阳 Yang Xiaodong Gao Lutao Yang Linnan Liu Jianyang(College of Basic Science and Information Engineering, Yunnan Agriculture University, Kunming 650201, Yunnan, China Yunnan Information Technology Development Center, Kunming 650228, Yunnan, China)

机构地区云南农业大学基础与信息工程学院云南省信息技术发展中心

出处《计算机应用与软件》 2017年第3期76-80,共5页 Computer Applications and Software

基金国家"十二五"科技支撑计划课题(2014BAD10B03)

关键词分布式系统爬虫 HADOOP HDFS 正则表达式 Distributed system Crawler Hadoop HDFS Regular expression

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1张海,马建红.基于HDFS的小文件存储与读取优化策略[J].计算机系统应用,2014,23(5):167-171. 被引量：14
2李铁,燕彩蓉,黄永锋,宋亚龙.面向Hadoop分布式文件系统的小文件存取优化方法[J].计算机应用,2014,34(11):3091-3095. 被引量：12
3张春明,芮建武,何婷婷.一种Hadoop小文件存储和读取的方法[J].计算机应用与软件,2012,29(11):95-100. 被引量：39
4尹颖,林庆,林涵阳.HDFS中高效存储小文件的方法[J].计算机工程与设计,2015,36(2):406-409. 被引量：10
5孔涛,曹丙章,邱荷花.基于MapReduce的视频爬虫系统研究[J].华中科技大学学报（自然科学版）,2015,43(5):129-132. 被引量：7
6王庆红,李广凯,周育忠,韦嵘晖.一种基于银行家算法的网络爬虫资源配置策略[J].智能系统学报,2015,10(3):494-498. 被引量：2
7于娟,刘强.主题网络爬虫研究综述[J].计算机工程与科学,2015,37(2):231-237. 被引量：103
8周中华,张惠然,谢江.基于Python的新浪微博数据爬虫[J].计算机应用,2014,34(11):3131-3134. 被引量：61

二级参考文献91

1杨学明,刘柏嵩.主题爬虫在数字图书馆中的应用[J].图书馆杂志,2007,26(8):47-50. 被引量：3
2周立柱,林玲.聚焦爬虫技术研究综述[J].计算机应用,2005,25(9):1965-1969. 被引量：153
3夏崇镨,康丽.基于叙词表的主题爬虫技术研究[J].现代图书情报技术,2007(5):41-44. 被引量：8
4石磊,孟彩霞,韩英杰.基于预测的Web缓存替换策略[J].计算机应用,2007,27(8):1842-1845. 被引量：6
5Tom White.Hadoop权威指南[M].2版.北京:清华大学出版社,2011.
6Armbrust M, Fox A. Griffith R, et al. Above the Clouds: A Berkeley View of Cloud Computing[ D ]. UCB/EECS-2009-28, EECS Department, University of California, Berkeley, 2009.
7Tom White. Hadoop: The Definitive Guide[M]. 2rid ed. O' Reilly Media, Inc ,2011.
8Konstantin Shvachko , Hairing Kuang , Sanyjy Radia , et al. The Ha- doop Distributed File System [ C ]//Proceedings of the 2010 IEEE 26th Symposium on Mass Storage Systems and Technologies (MSST), May 03 -07, 2010:1 -10.
9Hadooparchives[ OL]. http ://hadoop. apache. org/common/docs/current/hadoop_ archives. html.
10Sequence File Wiki [ OL ]. http ://wiki. apache.org/hadoop/Seq uen ce File.

共引文献232

1李家瑞,李华昱,闫阳,付亚凤.基于事件抽取的学科建设知识图谱构建与应用[J].计算机系统应用,2022,31(11):100-110. 被引量：2
2沈承放,莫达隆,黄文韬.网页数据采集算法及在住户调查中的应用[J].统计与决策,2021(7):52-56. 被引量：2
3陈紫菡.基于银行家算法的研究和应用分析[J].网络安全技术与应用,2020,0(2):44-48. 被引量：4
4齐虎春.高职化工院校网络化工数据采集课程实践研究[J].内蒙古石油化工,2020,46(10):88-90. 被引量：1
5井世洁,邹利.“校园欺凌”的网络表达与治理——基于LDA主题模型的大数据分析[J].青少年犯罪问题,2020(6):60-68.
6项博良,唐淳淳,钱前,曹健东.基于网络爬虫的就业数据分析[J].智能计算机与应用,2020,10(1):223-226. 被引量：4
7张媛.基于Hadoop云平台的数据传输保护研究[J].兰州文理学院学报（自然科学版）,2013,27(5):82-84.
8董新华,李瑞轩,周湾湾,王聪,薛正元,廖东杰.Hadoop系统性能优化与功能增强综述[J].计算机研究与发展,2013,50(S2):1-15. 被引量：69
9童丽萍,李明.风荷载作用下玻璃幕墙结构的受力分析与计算[J].工业建筑,2000,30(4):27-30. 被引量：13
10陈吉荣,乐嘉锦.基于Hadoop生态系统的大数据解决方案综述[J].计算机工程与科学,2013,35(10):25-35. 被引量：116

同被引文献44

1彭觅.固态硬盘SSD的性能分析和组建方案设计[J].硅谷,2008,1(20). 被引量：10
2曾绍华,魏延.共享存储器多处理机并行计算编译及调度机制[J].重庆师范大学学报（自然科学版）,2006,23(1):27-30. 被引量：5
3张传富,刘云生,张童,查亚兵.基于SGE的仿真网格及其作业调度研究[J].计算机仿真,2006,23(6):274-278. 被引量：6
4张阳,窦勇,夏飞.生物信息学双序列比对算法加速器设计与实现[J].计算机科学与探索,2008,2(5):519-528. 被引量：7
5杨健,马小兰,杨邓奇.基于案例推理的中医诊疗专家系统[J].计算机工程,2008,34(21):178-180. 被引量：9
6李媛,张建林,张锐,宋凤珍.集群作业管理系统SGE及其应用[J].计算机工程与设计,2009,30(12):2911-2914. 被引量：4
7DO Thanh-Nghi,NGUYEN Van-Hoa,POULET Franqois.GPU的并行支持向量机算法(英文)[J].计算机科学与探索,2009,3(4):368-377. 被引量：6
8王翼,徐六通,杨胜琦.DMGrid:基于网格计算的数据挖掘系统(英文)[J].计算机科学与探索,2010,4(2):180-190. 被引量：2
9周超,孙海龙,胡春明,葛在兴.面向生物信息的网格工作流开发与运行环境[J].计算机科学与探索,2010,4(3):275-282. 被引量：2
10李铁军,唐庆华,王洁.专家系统及常用开发语言[J].辽宁工业大学学报（自然科学版）,2010,30(3):147-150. 被引量：7

引证文献4

1彭国明,樊臻,张森林.基于丝绸文物的配色专家系统[J].计算机应用与软件,2018,35(2):69-73.
2王小宁,魏圆圆,王儒敬.基于OneNET平台的智能设备的数据获取与显示[J].仪表技术,2018(8):1-4. 被引量：6
3杨双浩.利用网格计算加速基因大数据分析的方法实现[J].计算机与现代化,2019,0(8):85-91. 被引量：1
4毕玉冰,王文庆,刘超飞,崔逸群,董夏昕,金晶.基于泛型思想的电力工业互联网爬虫框架研究[J].热力发电,2020,49(11):20-27. 被引量：2

二级引证文献9

1马玉昆,杨延宁,徐陈帅,朱鹏.基于OneNET云平台的山体滑坡监测预警系统设计[J].电子设计工程,2019,27(14):92-96. 被引量：7
2王西刚,任佳.基于Qt的工业互联网数据管理平台开发及信息保护设计[J].计算机系统应用,2019,28(8):78-86. 被引量：5
3闫茂印,徐乐年,郇志浩.基于窄带物联网的钻孔水位智能监测系统[J].煤矿安全,2020,51(3):115-118. 被引量：4
4周世航,林木泉,张勇.一种领导在岗状态指示系统的设计[J].装备制造技术,2020(8):35-39.
5冯贤凤,陈威.工业企业主数据管理平台设计与实现[J].微型电脑应用,2021,37(2):166-168. 被引量：3
6纪志峰,孙小磊,羊月祺,金奇.基于物联网的新生儿培养箱外环境监测报警装置的设计[J].中国医疗设备,2021,36(6):59-62. 被引量：3
7楚志刚,陶永才.遗传优化的混合网格计算调度模型SCE部署研究[J].计算机仿真,2021,38(5):329-333.
8奚增辉,王卫斌,陆嘉铭,瞿海妮.应用主题爬虫的电力网络舆情数据采集[J].西安工程大学学报,2022,36(2):72-78. 被引量：6
9李梅,朱明宇.基于蚁群算法的无线通信网络安全漏洞检测方法[J].计算机测量与控制,2022,30(10):51-56. 被引量：3

1曾梓虎.谷歌浏览器字体我做主[J].电脑爱好者,2013(3):44-44.
2田涛.DHTML让你的网页起来[J].新浪潮,2001(12):92-93.
3毛莉娜,唐林燕,王晓军.基于网页分析的可视化系统[J].广东技术师范学院学报,2015,36(11):34-38.
4大江东去.更换金山快盘背景[J].电脑迷,2013(11):86-86.
5郑步生,梁飞鸿,蒋璇.基于ASP技术的数字电路辅助教学网站的开发[J].现代电子技术,2003,26(6):35-38. 被引量：8
6江洪.Java Applet开发大鱼吃小鱼游戏[J].电脑编程技巧与维护,2009(17):73-76.
7王斌.网络数据智能提取[J].计算机仿真,2004,21(1):84-86. 被引量：1
8PPC网络通信[J].通信技术,2005(9):108-109.
9王斌,王汉飞.网络数据智能提取[J].计算机与农业,2003(6):25-27.
10为什么网站会有“stm”或“html”这样不同的后缀？[J].科技新时代,2006(8):110-110.

计算机应用与软件

2017年第3期

浏览历史

内容加载中请稍等...

基于Hadoop平台的农产品价格数据爬取和存储系统的研究被引量：4

参考文献8

二级参考文献91

共引文献232

同被引文献44

引证文献4

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

基于Hadoop平台的农产品价格数据爬取和存储系统的研究 被引量：4

参考文献8

二级参考文献91

共引文献232

同被引文献44

引证文献4

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

基于Hadoop平台的农产品价格数据爬取和存储系统的研究被引量：4