基于Python的美食数据爬取及可视化研究被引量：1

Research on Data Crawling and Visualization of Food Based on Python

下载PDF

导出

摘要本文主要研究中国菜谱里面的美食词汇资源的爬取、构建、数据处理并对词汇资源进行数据可视化分析。本文首先采用Python语言使用Scrapy框架进行数据爬取并对目标网站的网页进行页面分析,采集的是豆果美食网里最新发布的中国菜系菜谱,然后用Pandas、Numpy等库进行清洗数据并做可视化分析。除此之外,用Pyecharts库制作各大菜系菜品量的饼状图。最后通过Jieba库进行中文分词处理,筛选出高频词汇并制作了词云图。为了使乏味的文本数据散发活力,深入分析数据,以词云图展示数据分析的结果,增加数据可视化。 This paper mainly studies the crawling, construction, data processing and data visualization analysis of Chinese cuisinevocabulary resources in Chinese recipes. In this paper, we first use Python language to Scrapy framework to crawl data and analyzethe web pages of the target website. We collected the latest Chinese cuisine recipes from the Douguo Cuisine Network. Then we uselibraries such as Pandas and Numpy to clean the data and do visual analysis. In addition, Pyecharts library is used to make piecharts of the quantity of dishes in each major cuisine. Finally, word segmentation is carried out through JIEBA library to screen outhigh-frequency words and make word cloud map. In order to make boring text data exude vitality, in-depth analysis of the data, theword cloud map to show the results of data analysis, increase data visualization.

作者依力·吐尔孙艾孜尔古丽 Eli Tursun;Azragul(Xinjiang Normal University,Urumqi 830054,China)

机构地区新疆师范大学

出处《电脑知识与技术》 2021年第10期19-20,29,共3页 Computer Knowledge and Technology

基金国家自然科学基金(61662081) 新疆维吾尔自治区社会科学基金(2016CYY067) 国家语言资源监测与研究中心少数民族语言分中心项目(NMLR201602) 新疆维吾尔自治区自然科学基金(2017D01A58) 新疆维吾尔自治区青年科技创新人才培养工程(QN2016BS0365)。

关键词美食词汇 PYTHON 网络爬虫数据分析词云图 food vocabulary Python Web crawler Data analysis Word cloud

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1杜鹏辉,仇继扬,彭书涛,柴沣伟,刘意先.基于Scrapy的网络爬虫的设计与实现[J].电子设计工程,2019,27(22):120-123. 被引量：22
2李培.基于Python的网络爬虫与反爬虫技术研究[J].计算机与数字工程,2019,47(6):1415-1420. 被引量：51

二级参考文献13

1漆志辉,杨天奇.网络爬虫性能研究[J].微型机与应用,2011,30(5):72-74. 被引量：3
2邹科文,李达,邓婷敏,李嘉振,陈义明.网络爬虫针对“反爬”网站的爬取策略研究[J].电脑知识与技术,2016,0(3):61-63. 被引量：15
3鲁萍.带你进入网络爬虫与反爬虫的世界[J].软件和集成电路,2016(12):12-13. 被引量：3
4孙歆,戴桦,孔晓昀,赵明明.基于Scrapy的工业漏洞爬虫设计[J].网络空间安全,2017,8(1):66-71. 被引量：6
5刘宇,郑成焕.基于Scrapy的深层网络爬虫研究[J].软件,2017,38(7):111-114. 被引量：29
6陆文.十分钟解决爬虫问题超轻量级反爬虫方案[J].计算机与网络,2017,43(17):58-60. 被引量：1
7罗平,陆红梅,施威,夏斌.基于Scrapy的商品评价获取系统设计[J].微型机与应用,2017,36(19):12-15. 被引量：7
8李代祎,谢丽艳,钱慎一,吴怀广.基于Scrapy的分布式爬虫系统的设计与实现[J].湖北民族学院学报（自然科学版）,2017,35(3):317-322. 被引量：17
9姜同庆,于海兰,王亚楠.Web网络大数据分类系统开发应用[J].信息技术与信息化,2018(9):105-107. 被引量：3
10焦萍萍.基于python技术面向校园网原型搜索引擎设计[J].电脑知识与技术,2017,13(3X):20-21. 被引量：4

共引文献69

1姚万勤,宋俊豪.在技术与法律之间:网络爬虫刑法规制的边界[J].法治论坛,2023(1):3-17.
2徐勤亚,楚士杰.基于Tableau的北京市房屋租赁市场现状分析[J].无线互联科技,2019,16(15):129-130.
3尤天琪,冯思毓,周陈雯淑,潘润超.电商数据的爬取及价格模型的建立[J].信息与电脑,2019,0(17):138-140.
4成文莹,李秀敏.基于Python的电影数据爬取与数据可视化分析研究[J].电脑知识与技术,2019,15(11):8-10. 被引量：14
5温娅娜,袁梓梁,何咏宸,黄猛.基于Python爬虫技术的网页解析与数据获取研究[J].现代信息科技,2020,4(1):12-13. 被引量：14
6李依潼,王骥,任肖丽.基于Scrapy的电商数据分析系统设计与实现[J].电子技术与软件工程,2020(2):178-181. 被引量：1
7赵俊杰,李思霖,孙博瑞,李梦浩.浅谈大数据环境下基于python的网络爬虫技术[J].中国新通信,2020,22(4):68-68. 被引量：6
8吴阳波,董昌谨.基于Python语言的图片爬虫程序设计研究[J].新一代信息技术,2019,2(22):46-52. 被引量：1
9钟机灵.基于Python网络爬虫技术的数据采集系统研究[J].信息通信,2020(4):96-98. 被引量：28
10付顺顺.基于Scrapy的赌博网站数据采集与分析[J].网络安全技术与应用,2020(6):150-151. 被引量：2

同被引文献4

1陈倩倩,彭甜典,张琦.大数据背景下Python技术在审计工作中的应用[J].中国集体经济,2021(4):155-156. 被引量：5
2张俊威,肖潇.基于Python爬虫技术的网页数据抓取与分析研究[J].信息系统工程,2021,34(2):155-156. 被引量：8
3刘玉玲,郑力新.新冠肺炎疫情数据的抓取及可视化研究[J].电子设计工程,2021,29(7):40-44. 被引量：4
4阙金煌.基于Anaconda环境下的Python数据分析及可视化[J].信息技术与信息化,2021(4):215-218. 被引量：27

引证文献1

1李传科,肖自乾.基于Python的网页数据分析及可视化应用[J].信息记录材料,2021,22(9):203-205. 被引量：4

二级引证文献4

1金剑忠.Python数据处理Excel中的若干问题[J].电脑编程技巧与维护,2022(3):100-102. 被引量：3
2千文.Python在商品销售数据分析中的使用[J].电子技术与软件工程,2022(10):211-214.
3王景.基于Python语言的数据表文件批量处理技术[J].信息技术与信息化,2022(9):66-69. 被引量：2
4丁宣伊.基于Python的高校电信诈骗数据收集及可视化系统设计[J].电脑编程技巧与维护,2023(3):90-93. 被引量：1

1几时.德国人的偏执[J].时代青年（悦读）,2020(12):52-52.
2马玉娇,李丹琳.护理大数据背景下可视化分析的应用现状[J].卫生职业教育,2021,39(7):81-83. 被引量：1
3文巧风.Why do you like pandas?教学案例[J].东西南北（教育）,2021(9):54-54.
4宋泽芬,刘少轩,付永利,韦启顺.瓮安县6个油橄榄品种果实性状及含油率分析[J].种子科技,2021,39(7):18-19. 被引量：3
5曹成章,金洪霞,田憬若.《齐民要术》对鲁菜大系发展的文化影响[J].南宁职业技术学院学报,2020,25(4):5-9.
6上海菜代表文献[J].餐饮世界,2021(4):28-31.
7马太龙.基于Python的青海省科技金融绩效评价[J].北方经贸,2021(4):121-123. 被引量：1
8应国庆.基于Airtest爬虫与智能中签潮鞋系统设计[J].电子技术与软件工程,2021(1):156-158. 被引量：1
9王珊,徐昱.网络时代国内高校教学方法研究的热点与趋势--基于CiteSpace的量化研究[J].北京印刷学院学报,2021,29(4):126-130.
10油橄榄良种——‘科罗莱卡’‘豆果’[J].林业科技通讯,2021(3).

电脑知识与技术

2021年第10期

浏览历史

内容加载中请稍等...

基于Python的美食数据爬取及可视化研究被引量：1

参考文献2

二级参考文献13

共引文献69

同被引文献4

引证文献1

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于Python的美食数据爬取及可视化研究 被引量：1

参考文献2

二级参考文献13

共引文献69

同被引文献4

引证文献1

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于Python的美食数据爬取及可视化研究被引量：1