-
题名基于不完备集双聚类的缺失数据填补算法
被引量:12
- 1
-
-
作者
韩飞
沈镇林
-
机构
暨南大学信息科学与技术学院
暨南大学信息管理办公室
-
出处
《计算机工程》
CAS
CSCD
北大核心
2016年第4期20-26,共7页
-
基金
广东省高新技术产业化基金资助项目(2011B080701046)
-
文摘
缺失数据填补是数据清洗领域的一个重要问题。由于绝大部分局部填补方法基于全部属性进行分类,未考虑对象属性之间的关联性,因此基于不完备集双聚类,提出一种缺失数据填补算法。该算法利用双聚类完美簇的平均平方残基为0及簇内的属性值波动一致的特点,对缺失数据进行填补。通过数学分析,把寻找含有缺失值的最大完美簇问题转化为求解缺失对象与其他对象之间的最大相似属性集问题,在相同的最大相似属性集下,以缺失值的众数作为填补值。采用4组UCI数据集进行实验,结果表明,该算法相比ROUSTIDA算法平均提高了77.13%的填补值精确度。
-
关键词
缺失数据填补
不完备集
双聚类
最大相似属性集
数据清洗
完美簇
-
Keywords
missing data filling
incomplete set
biclustering
maximum similarity attribute set
data cleaning
perfect cluster
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-