Python框架下基于主题的数据爬取技术研究与实现被引量：3

Research and implementation of theme-based data crawling technology with Python framework

下载PDF

导出

摘要如今上网查询和购物已经成为人们的生活必需。由于在很多系统上查看商品或资源需要点击跳转多个页面,随着浏览时间的增加,经常会出现眼花缭乱的感觉。若只为用户呈现必要的数据,必将提高筛选资源的效率。文章使用Python语言结合目前流行的Spring MVC框架来爬取目标网站的数据,设计了数据爬取模块和数据展示模块,实现了基于主题的爬虫框架。通过爬取实验与结果测试,成功爬取到了目标网站的数据并展示到自己的页面上,实现了预期的目标。 Nowadays, online enquiries and shopping have become the indispensable of people＇s daily life. Because viewing goodsor resources on many systems requires clicking and jumping over multiple pages, it is often a dazzling feeling as browsing timeincreases. If only provide users with the necessary data, the efficiency of screening resources will certainly be improved.Combining with the popular Spring MVC framework, this paper uses Python language to crawl the data of the target website,designs the data crawling module and data display module, and implements the theme-based crawler framework. The crawlingexperiment and the test result show that, the data of the target website is crawled and displayed on its own page, and theexpected goal is achieved.

作者严斐肖璞 Yan Fei;Xiao Pu(Sanjiang University,Nanjing,Jiangsu 210012,China)

机构地区三江学院计算机科学与工程学院

出处《计算机时代》 2018年第11期10-13,共4页 Computer Era

基金江苏省高等学校自然科学研究面上项目(17KJD520007)

关键词数据爬取基于主题爬虫 SPRINGMVC data crawling theme-based crawler Spring MVC

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献6

1管华.对当今Python快速发展的研究与展望[J].信息系统工程,2015,28(12):114-114. 被引量：6
2姜杉彪,黄凯林,卢昱江,张俊杰,曾志高,刘强.基于Python的专业网络爬虫的设计与实现[J].企业科技与发展,2016(8):17-19. 被引量：32
3孙立伟,何国辉,吴礼发.网络爬虫技术的研究[J].电脑知识与技术（过刊）,2010,0(15):4112-4115. 被引量：135
4成功,李小正,赵全军.一种网络爬虫系统中URL去重方法的研究[J].中国新技术新产品,2014(12):23-23. 被引量：14
5牛率仁.简析主题网络爬虫搜索策略[J].电脑迷,2016(10). 被引量：1
6刘艳平,俞海英,戎沁.Python模拟登录网站并抓取网页的方法[J].微型电脑应用,2015,31(2):58-60. 被引量：16

二级参考文献34

1郑冬冬,赵朋朋,崔志明.Deep Web爬虫研究与设计[J].清华大学学报（自然科学版）,2005,45(S1):1896-1902. 被引量：28
2周立柱,林玲.聚焦爬虫技术研究综述[J].计算机应用,2005,25(9):1965-1969. 被引量：156
3孙彬,王东,李娟.基于XQuery的Deep Web搜索系统的设计与实现[J].科学技术与工程,2007,7(16):4080-4084. 被引量：2
4Hersovici M,Heydon A,Mitzenmacher M et al.The shark-search algorithm-an application:Tailored web site mapping. Pro-ceedings of the7th International World Wide Web Conference . 1998
5Kleinberg J.Authoritative sources in a hyperlinked environment. Journal of the ACM . 1998
6J.Cho,H.Garcia-Molina.The evolution of the web and implications for an incremental crawler. Proceedings of the26th Inter-national Conference on Very Large Database . 2000
7M.Najork,J.L.Wiener.Breadth-first crawling yields high-quality pages. Proceedings of the10th International Conference on World Wide Web . 2001
8Yan HF,Wang JY,Li XM,et al.Architectual design and evaluation of an efficient Web-crawling system. The Journal of Systems and Software . 2002
9M K.Bergman.The Deep Web:Surfaceing Hidden Value. http://www.completeplanet.com/Tutorials/DeepWeb . 2000
10Yiyao Lu,Hai He,Hongkun Zhao,et al.Annotating Structured Data of the Deep Web. IEEE23rd International Conference on Data Engineering . 2007

共引文献192

1周璐,杨保岑,李伟凡,张秋实.内河航道综合信息服务中助航数据获取的方法研究与应用[J].中国水运（下半月）,2021(2):10-12.
2彭新林,赵辉.恶意网络爬虫行为的刑事规制及其完善[J].刑法论丛,2022(1):217-236.
3饶传平.论数据抓取法律风险的流程化管理[J].东方法学,2023(6):28-42. 被引量：7
4金静梅.基于网络爬虫的城市天气服务系统设计与实现[J].办公自动化,2021,26(19):58-59. 被引量：2
5于成龙,于洪波.网络爬虫技术研究[J].东莞理工学院学报,2011,18(3):25-29. 被引量：23
6张睿涵,林振荣,李建民,衷湾.基于主题定制的专利网络爬虫的设计与实现[J].计算机与现代化,2011(7):52-55. 被引量：2
7李志义.网络爬虫的优化策略探略[J].现代情报,2011,31(10):31-35. 被引量：17
8王鲁荣.基于主题网络爬虫的高校网络信息动态搜索策略研究[J].四川师范大学学报（自然科学版）,2011,34(6):919-921. 被引量：3
9王娟,吴金鹏.网络爬虫的设计与实现[J].软件导刊,2012,11(4):136-137. 被引量：7
10焦改香.试谈社会信息意识的形成条件和影响因素[J].地震科技情报,2000(2):11-12.

同被引文献19

1陈涛,栾禹鑫,谭英杰,栾悦,乔意凡.基于爬虫技术的校园网络舆情分析和监测系统[J].网络安全技术与应用,2018(12):54-55. 被引量：6
2曾路.探析中国少数民族文化对外话语体系之主流文化价值观建设[J].西南民族大学学报（人文社会科学版）,2015,36(2):26-29. 被引量：13
3陈忠菊.一种基于多线程的高并发任务实现[J].电脑编程技巧与维护,2015(5):41-41. 被引量：6
4李敏杰.模因论与少数民族典籍英译[J].中南民族大学学报（人文社会科学版）,2016,36(2):143-147. 被引量：10
5魏清光,曾路.当代少数民族文学对外译介:成效与不足[J].西南民族大学学报（人文社会科学版）,2017,38(3):191-196. 被引量：15
6阳灵芬,于志强.基于大数据的高校财务样本数据库研究[J].云南民族大学学报（自然科学版）,2017,26(4):327-330. 被引量：4
7花君林.基于Selenium的Python网络爬虫的实现[J].电脑编程技巧与维护,2017(15):30-31. 被引量：17
8曹敏,江雄,赵艳峰,李翔,赵旭,蒋婷婷,王昕.面向大数据分析的省网电能计量管理系统设计与实现[J].云南民族大学学报（自然科学版）,2017,26(5):400-405. 被引量：11
9翟高粤.基于Python的数据分析概述[J].甘肃科技纵横,2018,47(11):5-7. 被引量：15
10尹诗玉,陈小奎,师琳.基于Python的数据脱敏与可视化分析[J].电脑知识与技术,2019,15(2X):14-17. 被引量：6

引证文献3

1张敏,李野.基于网络爬虫的少数民族文学对外传播成效研究[J].西南民族大学学报（自然科学版）,2019,45(2):173-177. 被引量：1
2朱未.基于质量诊断与改进的大数据学生管理平台搭建的探讨[J].科技资讯,2020,18(2):12-13. 被引量：4
3邢策梅,周松.基于计算几何的公交站点上下行判定方法研究与实现——以宜兴市为例[J].现代测绘,2024,47(1):70-74.

二级引证文献5

1白岚.基于学生管理信息系统的学生发展诊断与改进——以常州信息职业技术学院为例[J].内江科技,2022,43(2):60-61. 被引量：1
2石英.高职护理学生教育管理模式改革的思路与方案[J].科技创新导报,2020,17(21):237-238.
3杨帆.大数据技术在高校学生信息化管理中的应用探索[J].信息记录材料,2022,23(2):157-160. 被引量：3
4黄君,黄贤智.职业院校诊改工作下学生层面增值评价的建设路径[J].大众科技,2023,25(1):138-141.
5王军.海南非遗“黎族民间故事”外译策略研究[J].今古文创,2024(1):102-112.

1赵华.下载外星人[J].学生阅读世界（小学生）,2018,0(7):56-59.
2文芳.如何使用微信传电子邮件[J].老同志之友（上半月）,2018,0(5):57-57.
3吴昊.PPT中线条的那些套路[J].电脑爱好者,2018,0(4):58-59.
4刘丽媛.方便搜索引擎抓取内容的SEO优化如何做[J].计算机与网络,2017,43(24):46-47. 被引量：1
5刘勇,生晓婷,李青.人工智能在我国教育领域应用的可视化分析[J].现代教育技术,2018,28(10):27-34. 被引量：18
6陈永华,张翼文.关于提升校本研训成效的几点思考[J].新课程研究（上旬）,2018,0(9):17-20.
7赵丽宏.童年笨事[J].小读者,2018,0(21):7-7.
8田丽.情报分析中提取主题信息核心要素的模型及方法[J].计算机与现代化,2018(10):22-25.
9梁铭之.大数据经济网络舆情监测系统构建[J].电子世界,2018,0(10):80-81.
10李娜,程传蕊.EasyUI+SpringMVC的异步树在廉政档案系统中的应用[J].漯河职业技术学院学报,2018,17(5):27-29.

计算机时代

2018年第11期

浏览历史

内容加载中请稍等...

Python框架下基于主题的数据爬取技术研究与实现被引量：3

参考文献6

二级参考文献34

共引文献192

同被引文献19

引证文献3

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

Python框架下基于主题的数据爬取技术研究与实现 被引量：3

参考文献6

二级参考文献34

共引文献192

同被引文献19

引证文献3

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

Python框架下基于主题的数据爬取技术研究与实现被引量：3