摘要
本文主要研究中国菜谱里面的美食词汇资源的爬取、构建、数据处理并对词汇资源进行数据可视化分析。本文首先采用Python语言使用Scrapy框架进行数据爬取并对目标网站的网页进行页面分析,采集的是豆果美食网里最新发布的中国菜系菜谱,然后用Pandas、Numpy等库进行清洗数据并做可视化分析。除此之外,用Pyecharts库制作各大菜系菜品量的饼状图。最后通过Jieba库进行中文分词处理,筛选出高频词汇并制作了词云图。为了使乏味的文本数据散发活力,深入分析数据,以词云图展示数据分析的结果,增加数据可视化。
This paper mainly studies the crawling, construction, data processing and data visualization analysis of Chinese cuisinevocabulary resources in Chinese recipes. In this paper, we first use Python language to Scrapy framework to crawl data and analyzethe web pages of the target website. We collected the latest Chinese cuisine recipes from the Douguo Cuisine Network. Then we uselibraries such as Pandas and Numpy to clean the data and do visual analysis. In addition, Pyecharts library is used to make piecharts of the quantity of dishes in each major cuisine. Finally, word segmentation is carried out through JIEBA library to screen outhigh-frequency words and make word cloud map. In order to make boring text data exude vitality, in-depth analysis of the data, theword cloud map to show the results of data analysis, increase data visualization.
作者
依力·吐尔孙
艾孜尔古丽
Eli Tursun;Azragul(Xinjiang Normal University,Urumqi 830054,China)
出处
《电脑知识与技术》
2021年第10期19-20,29,共3页
Computer Knowledge and Technology
基金
国家自然科学基金(61662081)
新疆维吾尔自治区社会科学基金(2016CYY067)
国家语言资源监测与研究中心少数民族语言分中心项目(NMLR201602)
新疆维吾尔自治区自然科学基金(2017D01A58)
新疆维吾尔自治区青年科技创新人才培养工程(QN2016BS0365)。