-
题名一个可扩展的数据清洗系统
被引量:11
- 1
-
-
作者
郭志懋
俞荣华
田增平
周傲英
-
机构
复旦大学计算机系
-
出处
《计算机工程》
CAS
CSCD
北大核心
2003年第3期95-96,183,共3页
-
文摘
在给数据挖掘这类应用准备数据的过程中,面临着一系列数据清洗问题。要把数 据清洗过程做得很灵活并不容易,已有的工具往往过于依赖特定的应用。该文提出并实现 了 一个可扩展的数据清洗框架。它以术语模型、过程描述文件、共享库等概念和技术实现 了模 块的高度独立性和系统的可扩展性,并提供了一个可视化的流程定义环境。
-
关键词
数据挖掘
数据库
数据清洗系统
数据标准化
数据集成
可视化
-
Keywords
Data preparation
Data cleaning
Term model
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-
-
题名一种可交互的数据清洗系统
被引量:7
- 2
-
-
作者
王咏梅
陈家琪
耿玉良
-
机构
上海理工大学计算机工程系
-
出处
《计算机工程与设计》
CSCD
北大核心
2005年第4期955-957,共3页
-
基金
上海市教育委员会科研基金项目(04EB12)
-
文摘
对于各个领域的信息资源而言,数据质量一直是一个非常关键的问题,而现实世界中的数据往往存在着各种各样的质量问题,从简单的拼写错误到复杂的语义不一致错误。数据清洗的目标就是检测并去除数据中存在的各种错误和不一致,提高数据质量。在归纳总结数据质量问题和数据清洗相关研究的现状的基础上提出一个可交互的数据清洗框架的定义。系统提供了方便、易用的可视化的数据清洗流程定义环境。
-
关键词
数据质量
数据清洗系统
可交互式
数据仓库
检测
-
Keywords
data quality
data cleaning
interactive
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名分布式数据清洗系统设计
被引量:7
- 3
-
-
作者
李垚周
李光明
-
机构
陕西科技大学电子信息与人工智能学院
-
出处
《网络安全技术与应用》
2020年第2期60-62,共3页
-
基金
陕西省科技厅农业科技攻关工程(项目编号2015NY028).
-
文摘
针对传统系统在清洗数据时出现速度缓慢,数据分布不均时造成数据倾斜等问题。本文试图设计分布式数据清洗系统,首先使用Hadoop集群进行系统搭建,然后对系统进行流程设计、架构设计以及功能设计,最后采用改进后的分区聚合算法对Reduce操作进行优化,避免发生数据倾斜。实验结果表明,分布式数据清洗系统相比传统系统而言,清洗速率更快,系统稳定性更高。
-
关键词
集群
分布式
数据清洗系统
数据倾斜
分区聚合算法
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-
-
题名税务审计系统电算化探讨
- 4
-
-
作者
王强
-
机构
辽宁税务高等专科学校
-
出处
《中国管理信息化》
2015年第18期49-49,共1页
-
文摘
随着经济技术的不断发展,电算化普遍应用于会计行业中,传统的税务审计方法主要以手工为主,已不能满足信息化的发展需求。税务审计系统电算化是税务信息化建设的重要组成部门,已经在一些发达国家普遍应用,并取得了良好效果。本文介绍税务审计系统电算化建立的必要性及其特点,并在此基础上提出加强税务审计系统电算化的措施。
-
关键词
税务
审计系统
电算化
数据采集系统
数据清洗子系统
-
分类号
F239.1
[经济管理—会计学]
-