基于Python的电商书籍数据爬虫研究被引量：5

Research on Data Crawler of Electric Business Books Based on Python

下载PDF

导出

摘要随着互联网的迅速发展,电商已经成为人们主要的日常消费渠道。以购买计算机相关书籍为例,清楚了解众多种类书籍的相关信息成为一种需求。为解决这种需求进行了一种基于Python语言Scrapy爬虫框架的模拟登陆浏览器和网页解析技术的研究,将获取的电商书籍信息存入Mongo DB数据库或者本地硬盘以便后续进行数据分析。所实现的爬虫程序编程简单、性能稳定,能有效获取电商书籍数据。 With the rapid development of the internet, the online mall has become the main consumption pattern in our daily life. If people want to buy some books about computer, for example, to clearly understand related information about the various types of books become a demand. In order to solve this demand, we make a research about a kind of simulated landing browser and web page analysis technology based on the Scrapy crawler framework of Python language. And program stores the acquired book＇s information into the Mongo DB database or local hard drive for subsequent data analysis. The implementation of the reptile program programming is simple,stable performance, and can effectively obtain electricity business book＇s data.

作者晋振杰曹少中项宏峰王明道李新佩 JIN Zhenjie;CAO Shaozhong;XlANG Hongfeng;WANG Mingdao;LI Xinpei(Beijing Institute of Graphic Communication,Beijing 102600,China)

机构地区高端印刷设备信号与信息处理北京市重点实验室北京印刷学院

出处《北京印刷学院学报》 2018年第3期39-42,共4页 Journal of Beijing Institute of Graphic Communication

基金国家自然基金(61472461) 国家重大科学仪器设备开发专项(2013YQ140517)

关键词电商书籍爬虫 PYTHON Scrapy框架 electric business books Crawler Python Scrapy

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献6

1李金昌.大数据与统计新思维[J].统计研究,2014,31(1):10-17. 被引量：184
2刘光金.大数据处理对电子商务的影响分析[J].计算机光盘软件与应用,2014,17(17):25-26. 被引量：10
3高波.大数据:电子数据证据的挑战与机遇[J].重庆大学学报（社会科学版）,2014,20(3):111-119. 被引量：36
4阳黎明,苏理云.基于Nutch爬虫的电商交易价格统计研究[J].重庆理工大学学报（自然科学）,2017,31(1):152-157. 被引量：3
5彭磊,李先国.大数据量Excel数据导入系统的设计与实现[J].现代电子技术,2014,37(14):57-59. 被引量：6
6周立柱,林玲.聚焦爬虫技术研究综述[J].计算机应用,2005,25(9):1965-1969. 被引量：156

二级参考文献52

1赵信会.民事诉讼中的证据调查制度[J].现代法学,2004,26(6):87-92. 被引量：9
2杨善林,李永森,胡笑旋,潘若愚.K-MEANS算法中的K值优化问题研究[J].系统工程理论与实践,2006,26(2):97-101. 被引量：191
3EHRIG M, MAEDCHE A. Ontology-focused crawling of Web documents[A]. Proceedings of the 2003 ACM symposium on Applied computing[C], March 2003.
4GUO Q, GUO H, ZHANG ZQ, et al. Schema Driven Topic Specific Web Crawling[A]. DASFAA[C], 2005.
5GRAUPMANN J, BIWER M, ZIMMER C, et al. COMPASS: A Concept-based Web Search Engine for HTML, XML, and Deep Web Data[A]. Proceedings of the 30th VLDB Conference[C],2004.
6QIN JL, ZHOU YL, CHAU M. Building domain-specific web collections for scientific digital libraries: a meta-search enhanced focused crawling method[A]. Proceedings of the 4th ACM/IEEE-CS joint conference on Digital libraries[C], June 2004.
7CHO J , GARCIA - MOLINA H , PAGE L . Efficient crawling through URL ordering[A]. Proceedings of the seventh international conference on World Wide Web 7[C], April 1998.
8FLORESCU D, LEVY AY, MENDELZON AO. Database techniques for the world-wide web: A survey[J]. SIGMOD Record, 1998,27(3) :59 -74.
9LAWRENCE S, GILES CL. Searching the World Wide Web[J].Science, 1998,280(5360):98.
10CHAKRABARTI S, VAN DEN BERG M, DOM B. Focused crawling: A new approach to topicspecific web resource discovery[A].Proceedings of the Eighth International World-Wide Web Conference[C], 1999.

共引文献387

1汤银芬.《Python金融大数据分析》课程教学研究[J].时代金融,2021(5):82-84. 被引量：8
2李金昌,余卫.新时代发挥统计监督职能的思考[J].统计研究,2021,38(6):3-17. 被引量：12
3齐虎春.高职化工院校网络化工数据采集课程实践研究[J].内蒙古石油化工,2020,46(10):88-90. 被引量：1
4黄江玉,郭威威,苟洪波,戴侗坤.大数据思维和应用能力培养研究:基于1287所本科院校数据[J].科教导刊,2022(19):152-155. 被引量：2
5邱东.数据科学在社会经济领域应用的重心——兼评《十字路口的统计学,谁来应对挑战》[J].计量经济学报,2021(2):250-265. 被引量：6
6梁泽敏.大数据证据质证的现实困境及其化解[J].荆楚法学,2023(6):66-77. 被引量：3
7姜孟.语言研究中的小数据统计范式及其人工智能变革——“语言智能学科”方法论构建(之一)[J].英语研究,2023(1):140-160. 被引量：2
8郭明军,王建冬,安小米,李慧颖,张何灿.政务数据与社会数据平台化对接的演进历程及政策启示[J].电子政务,2020,0(3):32-39. 被引量：20
9胡瑞香.基于信息技术的学生数据思维培养实践[J].电子技术（上海）,2020(12):43-45. 被引量：1
10杨学明,刘柏嵩.主题爬虫在数字图书馆中的应用[J].图书馆杂志,2007,26(8):47-50. 被引量：3

同被引文献23

1刘智慧,张泉灵.大数据技术研究综述[J].浙江大学学报（工学版）,2014,48(6):957-972. 被引量：478
2任磊,杜一,马帅,张小龙,戴国忠.大数据可视分析综述[J].软件学报,2014,25(9):1909-1936. 被引量：419
3李明江,卢玉.基于数据挖掘的电商中贵州茶叶产品分类分析[J].黔南民族师范学院学报,2015,35(4):78-82. 被引量：4
4王鑫.跨行业数据挖掘在农产品电子商务中的应用研究[J].山东行政学院学报,2016(1):74-76. 被引量：3
5卢长宝,庄晓燕.餐饮业服务质量在线评论的聚焦维度:基于网络爬虫技术的实证研究[J].天津商业大学学报,2016,36(4):14-22. 被引量：7
6阳黎明,苏理云.基于Nutch爬虫的电商交易价格统计研究[J].重庆理工大学学报（自然科学）,2017,31(1):152-157. 被引量：3
7刘乙颖,余函.重庆市房地产市场价格变动趋势探析[J].市场周刊,2017,0(4):38-39. 被引量：2
8谢克武.大数据环境下基于python的网络爬虫技术[J].电子制作,2017,25(9):44-45. 被引量：50
9刘宇,郑成焕.基于Scrapy的深层网络爬虫研究[J].软件,2017,38(7):111-114. 被引量：29
10熊畅.基于Python爬虫技术的网页数据抓取与分析研究[J].数字技术与应用,2017,35(9):35-36. 被引量：48

引证文献5

1张玉梅,晋艺波.基于Web数据挖掘的武威特色农产品数据分析——以淘宝电商平台为例[J].企业科技与发展,2019,0(9):161-163. 被引量：1
2赵绿草,饶佳冬.基于python的二手房数据爬取及分析[J].电脑知识与技术,2019,15(7):1-3. 被引量：5
3刘航.基于Python的重庆二手房爬取及分析[J].电脑知识与技术,2019,15(12X):6-7. 被引量：5
4葛琳,杨娜.Python招聘数据分析[J].计算机与网络,2020,46(16):62-65. 被引量：10
5王福成,齐平.基于Python的合肥市二手房信息爬取与数据分析[J].九江学院学报（自然科学版）,2020,35(3):49-51. 被引量：3

二级引证文献21

1管小卫.网络爬虫探讨及应用[J].科技创新与应用,2020(27):178-179. 被引量：3
2边倩,王振铎,库赵云.基于Python的招聘岗位数据分析系统的设计与实现[J].微型电脑应用,2020,36(9):18-19. 被引量：5
3戴瑗,郑传行.基于Python的南京二手房数据爬取及分析[J].计算机时代,2021(1):37-40. 被引量：8
4罗宝刚,韩景灵.农村电商平台建设应用分析与实践探索[J].企业科技与发展,2020(12):140-142. 被引量：4
5李艳,丁国强,张庆.网络招聘数据可视化系统的设计与实现[J].信息与电脑,2021,33(1):112-115. 被引量：2
6宋超,华臻.Python数据工具在高职院校市场调研中的应用[J].电脑编程技巧与维护,2021(2):57-58. 被引量：1
7刘玉玲,郑力新.新冠肺炎疫情数据的抓取及可视化研究[J].电子设计工程,2021,29(7):40-44. 被引量：4
8张禄成,陶冶,崔文华.基于Python的鞍山市二手房数据爬取及分析[J].今日自动化,2021(2):157-158.
9刘一,王跟成.基于Python的就业趋势可视化分析系统[J].信息与电脑,2021,33(5):99-101. 被引量：4
10陈昕,阮永娇,曹景胜,陈娅鑫,孙承臻.基于Python的汽车安全气囊跌落实验数据分析[J].辽宁工业大学学报（自然科学版）,2021,41(4):232-235. 被引量：2

1付茗.互联网电视集成平台数据爬虫软件[J].电子测试,2017,28(12X):27-31. 被引量：2
2饶志芳.论斤论两、斤斤计较——我们如何选购刻录机[J].电子测试,2001(3):130-131.
3张新春,郑景辉,莫云秋,宁桂兰,伍新诚.基于GEO数据库芯片的早期ST段抬高性心肌梗死标志物的筛选及生物信息学分析[J].当代医学,2018,24(12):1-6. 被引量：6
4侯亚军,王燕.高中历史核心素养之“时空观念”养成之我见[J].新课程,2018,0(15):188-188. 被引量：1
5陈政伊,袁云静,贺月锦,武瑞轩.基于Python的微博爬虫系统研究[J].大众科技,2017,19(8):8-11. 被引量：9
6王盛华.验机中易忽视的几个问题[J].家电检修技术,1995(4):33-34.
7张国梅.小学数学教学中怎样培养学生的倾听习惯[J].报刊荟萃（下）,2018,0(7):157-157.
8许丽云.基于“深度阅读”的交互书籍设计[J].河北工程大学学报（社会科学版）,2018,35(2):124-126. 被引量：1
9左文.增强现实技术在书籍创新设计中的研究[J].参花（上）,2018,0(8):151-152.
10高宠,赵丹丹,白哓宇,张金金,毕瑞,徐俊婷.豆瓣影评网络数据爬虫设计与实现[J].中国高新科技,2018(15):88-90. 被引量：1

北京印刷学院学报

2018年第3期

浏览历史

内容加载中请稍等...

基于Python的电商书籍数据爬虫研究被引量：5

参考文献6

二级参考文献52

共引文献387

同被引文献23

引证文献5

二级引证文献21

相关作者

相关机构

相关主题

浏览历史

基于Python的电商书籍数据爬虫研究 被引量：5

参考文献6

二级参考文献52

共引文献387

同被引文献23

引证文献5

二级引证文献21

相关作者

相关机构

相关主题

浏览历史

基于Python的电商书籍数据爬虫研究被引量：5