摘要
在分析网站结构的基础上,采用Python语言,设计正则表达式,分析获取网站具体数据页面的链接,进而对其中的资源进行数据抓取。正则表达式能有效地抓取需要的数据,是大数据采集的一种较好的解决方案。
On the basis of analyzing the structure of the web site, using the Python language, the regular expression is designed, and the link of the specific data page is obtained. Regular expression can effectively capture the required data, is a good solution for large data collection.
出处
《佳木斯职业学院学报》
2017年第4期408-,共1页
Journal of Jiamusi Vocational Institute
基金
国家级大学生创新创业训练项目(201635108003)
福建省省教育厅科研项目(JAT160624)