摘要
互联网作为第四次工业革命的基石,已经深入到社会各行各业发展中。近几年“互联网+”概念的提出,加速了社会数字化、网络化、智能化转型升级的历史进程。大数据获取和大数据分析就是强有力的支撑之一。数据挖掘获取是数据分析的基础,在每天都会产生庞大的数据海洋中,准确获取所需要的数据信息,需要性能稳定的抓取工具和逻辑功能完善的抓取流程。数据分为结构化数据和非结构化数据,目前常用的火车浏览器是获取非结构化数据的工具之一,是将互联网上的网页信息,放到指定的位置,如数据库或下载到本地,形成一个互联网的镜像备份。本文重点讨论的是非结构化数据,如文本数据、图片数据在火车浏览器使用中的研究和优化的逻辑流程。
出处
《移动信息》
2019年第5期45-47,共3页
MOBILE INFORMATION