摘要
本文利用Hadoop大数据平台和Python语言工具,从网页中提取电影相关数据,对票房、导演和影片类型等入手进行分析,经过大数据的采集、存储、抽取、转换和装载(ETL)过程,简要论述清洗过程,着重从多重角度完成电影分析报告,同时进行分析结果的图表绘制。
In this paper the Hadoop big data platform and Python language tools,extract the relevant data from the web page in the movie,the box office,and the director of the film type,through the acquisition,storage,extraction,conversion and loading of data(ETL)process,briefly discusses the cleaning process,mainly from multiple angles to complete film analysis the report,at the same time analysis results chart.
出处
《现代信息科技》
2017年第5期11-13,共3页
Modern Information Technology
基金
2017年江苏省高等学校大学生创新创业训练计划项目成果(201712685023T)