期刊文献+

科技创新大数据清洗框架研究 被引量:5

Research on big data cleaning framework of scientific and technological innovation
下载PDF
导出
摘要 河北省科技创新大数据公共平台是以海量数据资源为基础,基于数据仓库与数据挖掘技术构建,面向管理部门开展决策服务,面向社会公众开展信息服务的网络信息平台。但是,在构建数据仓库的过程中,存在各种各样的数据质量问题,最终产生各种错误的分析结果,所以,在进入数据仓库前,必须对数据进行清洗,从而保证进入数据仓库的数据质量。根据河北省科技攻关项目科技大数据标准化处理与应用系统,提出科技创新大数据清洗框架,在框架的基础上,定义清洗规则,改进清洗算法,在真实数据集上进行实验,解决了进入数据仓库的数据质量问题,从而保证了数据在数据仓库中的一致性和正确性,为后期的分析和处理提供了坚实的数据基础。 Hebei Province science and technology innovation big data public platform is based on massive data resources,the construction is based on data warehouse and data mining technology,oriented management departments to carry out the decision-making service,network information platform for the public to provide information service.However,during the construction of data warehouse,there are all kinds of data quality problems,resulting in various error analysis results,so,before the data get into the data warehouse,data cleaning should be done,so as to ensure the quality of the data into data warehouse.According to the scientific and technological big data standardization processing and application system of science and technology project in Hebei Province,put forward the innovation of science and technology of data cleaning framework,on the basis of the framework,the definition of data cleaning rules,improved data cleaning algorithm,experiments were carried out on the technological innovation of large data system on real data sets,solving the problems of data quality in data warehouse,so as to ensure consistency and the correctness of the datain the data warehouse,providing a solid foundation for data analysis and processing of the late.
作者 赵月琴 范通让 ZHAO Yue-qin;FAN Tong-rang(School of Information Science and Technology,Shijiazhuang Tiedao University,Shijiazhuang Hebei 050043,China)
出处 《河北省科学院学报》 CAS 2018年第2期35-42,共8页 Journal of The Hebei Academy of Sciences
基金 国家自然科学基金"互联网中信息流行为特征的分析"(#61373160) 河北省科技厅"科技大数据标准化处理与应用系统研发"项目(17210113D) "科技创新大数据综合服务平台"项目(344008) "科技基础条件资源调查 统计分析与创新平台年报系统开发"项目(179676334D)
关键词 科技创新大数据 数据质量 数据清洗 数据清洗框架 Big data of scientific and technological innovation Data quality Data cleaning data cleaning framework
  • 相关文献

参考文献5

二级参考文献95

  • 1韩京宇,徐立臻,董逸生.一种大数据量的相似记录检测方法[J].计算机研究与发展,2005,42(12):2206-2212. 被引量:32
  • 2ISO 8402:1994 Quality Management and Quality Assarance-Vocabulary[Sl.lntemational Organization for Standardization.
  • 3ISO 9000:2000 Quality Management System-Fundamentals and Volcabulary[S].Intemational Organization for Standardization.
  • 4ISO 9001:2000 Quality Management System-Requirements [S].International Organization for Standardization.
  • 5William H Inmon.Building the Data Warehouse[M].Second Edition, John Wiley & Sons, 1996-03.
  • 6Jarke M,Jeusfeld M,Quix C et al.Architecture and Quality in Data Warehouse:An Extended Repository Approach[J].Information Systems, 1999;24(3).
  • 7林瑞,马少平.人工智能导论[M].北京:清华大学出版社,1999.
  • 8杨伦标, 高英仪. 模糊数学原理及应用(第二版)[M].广州:华南理工大学出版社,1996.
  • 9陈广明, 方南晖. 企业级数据共享研究-权威数据[A]. 中国计算机学会2001全国软件技术研讨会论文集[C].中国计算机学会大连计算机学会,2001.
  • 10EricSperley 陈武 袁国忠译.企业数据仓库规划建立与实现[M].北京:中国机械工业出版社,2000..

共引文献144

同被引文献55

引证文献5

二级引证文献21

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部