-
题名数据分析和清理中相关算法研究
被引量:6
- 1
-
-
作者
冯玉才
桂浩
李华
李又奎
-
机构
华中科技大学计算机学院
-
出处
《小型微型计算机系统》
CSCD
北大核心
2005年第6期1018-1022,共5页
-
基金
高等学校博士学科点专项科研基金(20030487032)资助.
-
文摘
数据清理的一个主要作用是识别重复的记录.结合过滤算法和启发式剪枝算法提出了启发式剪枝改进算法.然后,针对重复记录的特点提出了长度约束条件,能有效地提高比较字段不等长时的执行速度.数据库中经常会出现各种形式不同的缩写,而启发式剪枝算法等无法识别缩写情况下的重复记录,本文因此提出了基于动态规划的缩写发现算法,该算法既可以用于缩写发现也可用于缩写存在时的重复记录识别.另外,重复记录的甄别目前必须人工处理,传统方式下用户不得不逐条浏览和分析,工作时间冗长而且乏味,容易引入新的数据质量隐患,作者提出了聚类清除方案和聚类闭包算法,它将重复的记录聚类显示,用户一次可以处理完一个重复聚类,在有效提高速度的同时方便了用户.
-
关键词
数据清理
字符串相似匹配
缩写算法
聚类清除
-
Keywords
data cleaning
string approximate matching
abbreviation algorithm
clustering cleaning
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-