-
题名基于SNM改进算法的相似重复记录消除
被引量:9
- 1
-
-
作者
余肖生
胡孙枝
-
机构
三峡大学计算机与信息学院
-
出处
《重庆理工大学学报(自然科学)》
CAS
2016年第4期91-96,共6页
-
基金
国家自然科学基金资助项目(71473185)
-
文摘
高质量的数据是构建数据仓库的最重要因素,低质量的数据可能对决策产生不利影响。来自不同数据源的相似重复记录是数据仓库构建中影响数据质量的主要问题之一,在源数据进入数据仓库之前尽可能地消除相似重复记录能很大程度地提高数据质量。为此,比较了现有的相似重复记录消除算法,改进了SNM算法,并通过实验比较了传统SNM方法与改进SNM算法。实验结果显示:在相似重复记录消除方面,SNM改进算法具有明显的优势。
-
关键词
SNM算法
SNM改进算法
相似重复记录消除
-
Keywords
SNM algorithm
SNM improved algorithm
approximately duplicate records elimination
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名数据仓库构建之数据预备域的数据质量研究
被引量:1
- 2
-
-
作者
余肖生
胡孙枝
王东娟
王缓缓
-
机构
三峡大学计算机与信息学院
-
出处
《重庆理工大学学报(自然科学)》
CAS
2014年第10期60-65,共6页
-
基金
宜昌市科学技术研究与开发项目(A2012-302-19)
-
文摘
数据仓库环境由数据预备域、数据处理域和数据存储域等3个相互独立的组件组成,其中数据预备域主要负责接收和转换来自源应用系统的数据,其输出的数据质量直接决定着整个数据仓库的质量。首先讨论数据仓库的数据预备域和数据仓库的数据质量维度,然后在此基础上讨论从操作源应用系统来的数据可能存在的质量问题,最后针对这些问题,讨论在数据预备域中如何进行处理以得到高质量的数据。
-
关键词
数据仓库构建
数据预备域
数据质量维度
-
Keywords
data warehouse construction
staging region
data quality dimensions
-
分类号
TP39
[自动化与计算机技术—计算机应用技术]
-