摘要
随着大数据技术的发展,数据质量问题日益成为图书馆大数据技术的研究热点。数据采集的技术缺陷会导致所采集的数据存在一定的错误,这些错误会对后续的数据分析产生不良影响,因此图书馆在数据分析之前需要对数据进行相应的数据清洗修复。本文提出了一种基于最优化数据质量的图书馆大数据动态清洗策略,该数据清洗策略适用于大规模、多源异构、高维度和强时空相关实时数据,能够为图书馆大数据应用平台提供较高质量的数据支持。
With the development of big data technology,data quality issue increasingly becomes a hot spot in research of big data technology of library.Technical defects in data collection will cause certain anomalies in collected data,which will have a significant impact on subsequent data analysis processes.Thus,data should be processed and cleaned accordingly before data analyze in library.This article presents a dynamic big data cleaning strategy for library based on optimized data quality,which is suitable for large-scale,multi-source heterogeneous,high-dimensional,and strong spatio-temporal correlation of real-time data,and able to provide high-quality data support for big data application platform of library.
出处
《图书馆理论与实践》
CSSCI
2021年第6期76-80,共5页
Library Theory and Practice
基金
2017年教育部人文社会科学研究规划基金项目“基于大数据的智慧图书馆构建与智慧服务模式研究”(项目编号:17XJA870001)
2021年甘肃省科技厅重点研发计划项目“平安甘肃大数据智慧调度与实时可视化展示研究”(项目编号:21YFSFA087)的研究成果之一。