-
题名科技创新大数据清洗框架研究
被引量:5
- 1
-
-
作者
赵月琴
范通让
-
机构
石家庄铁道大学信息科学与技术学院
-
出处
《河北省科学院学报》
CAS
2018年第2期35-42,共8页
-
基金
国家自然科学基金"互联网中信息流行为特征的分析"(#61373160)
河北省科技厅"科技大数据标准化处理与应用系统研发"项目(17210113D)
+2 种基金
"科技创新大数据综合服务平台"项目(344008)
"科技基础条件资源调查
统计分析与创新平台年报系统开发"项目(179676334D)
-
文摘
河北省科技创新大数据公共平台是以海量数据资源为基础,基于数据仓库与数据挖掘技术构建,面向管理部门开展决策服务,面向社会公众开展信息服务的网络信息平台。但是,在构建数据仓库的过程中,存在各种各样的数据质量问题,最终产生各种错误的分析结果,所以,在进入数据仓库前,必须对数据进行清洗,从而保证进入数据仓库的数据质量。根据河北省科技攻关项目科技大数据标准化处理与应用系统,提出科技创新大数据清洗框架,在框架的基础上,定义清洗规则,改进清洗算法,在真实数据集上进行实验,解决了进入数据仓库的数据质量问题,从而保证了数据在数据仓库中的一致性和正确性,为后期的分析和处理提供了坚实的数据基础。
-
关键词
科技创新大数据
数据质量
数据清洗
数据清洗框架
-
Keywords
Big data of scientific and technological innovation
Data quality
Data cleaning
data cleaning framework
-
分类号
TP311.131
[自动化与计算机技术—计算机软件与理论]
-
-
题名面向多数据源的数据清洗关键技术的研究
被引量:5
- 2
-
-
作者
王咏梅
嵇晓
汪恒杰
冯安平
-
机构
上海工程技术大学高职学院
上海宝信软件
-
出处
《科技资讯》
2009年第1期13-15,共3页
-
文摘
对于各个领域的信息资源管理而言,数据质量一直是一个非常关键的问题。现实世界中的数据往往存在着各种各样的问题,从简单的拼写错误到复杂的语义不一致错误。数据清洗的目标就是检测并去除数据中存在的各种错误和不一致,提高数据的质量。该文归纳、总结了数据清洗相关研究的现状,提出一个面向多数据源的数据清洗框架的定义。框架实现了术语模型、处理描述文件和共享库等概念和技术。
-
关键词
数据质量
数据清洗
面向多数据源的数据清洗框架
-
Keywords
Data quality
Data cleaning
multi-source Data-cleaning framework
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名软件及软件开发工具
- 3
-
-
-
出处
《电子科技文摘》
2006年第4期122-128,共7页
-
-
关键词
软件开发工具
大学学报
自然科学版
粗糙关系数据库
计算机工程
集成模型
软件体系
元搜索引擎
系统开发平台
过滤驱动
被控对象
工程学院
组态软件
数据访问中间件
嵌入式系统
计算机系统
测试用例
驱动程序
编译程序
数据清洗框架
-
分类号
TP273
[自动化与计算机技术—检测技术与自动化装置]
-