结合局部敏感哈希的k近邻数据填补算法被引量：4

k-nearest neighbor data imputation algorithm combined with locality sensitive Hashing

下载PDF

导出

摘要 k近邻(kNN)算法是缺失数据填补的常用算法,但由于需要逐个计算所有记录对之间的相似度,因此其填补耗时较高。为提高算法效率,提出结合局部敏感哈希(LSH)的k NN数据填补算法LSH-k NN。首先,对不存在缺失的完整记录进行局部敏感哈希,为之后查找近似最近邻提供索引;其次,针对枚举型、数值型以及混合型缺失数据分别提出对应的局部敏感哈希方法,对每一条待填补的不完整记录进行局部敏感哈希,按得到的哈希值找到与其疑似相似的候选记录;最后在候选记录中通过逐个计算相似度来找到其中相似程度最高的k条记录,并按照k NN算法对不完整记录进行填补。通过在4个真实数据集上的实验表明,结合局部敏感哈希的k NN填补算法LSH-k NN相对经典的k NN算法能够显著提高填补效率,并且保持准确性基本不变。 k-Nearest Neighbor（ k NN） algorithm is commonly used in data imputation. It is of poor efficiency because of the similarity computation between every tow records. To solve the efficiency problem, an improved k NN data imputation algorithm combined with Locality Sensitive Hashing（ LSH） named LSH-k NN was proposed. First, all the complete records were indexed in LSH way. Then corresponding LSH ways for nominal, numeric and mixed-type incomplete data were put forward, and LSH values for all the incomplete records were computed in the proposed way to find candidate similar records.Finally, the incomplete records＇ real distance to candidate similar records were calculated, and the top-k similar records for k NN imputation were found. The experimental results show that the proposed method LSH-k NN has higher efficiency than traditional k NN as well as keeping almost the same accuracy.

作者郑奇斌刁兴春曹建军周星许永平

机构地区解放军理工大学指挥信息系统学院总参第六十三研究所

出处《计算机应用》 CSCD 北大核心 2016年第2期397-401,共5页 journal of Computer Applications

基金国家自然科学基金资助项目(61371196) 中国博士后科学基金特别资助项目(201003797) 解放军理工大学预研基金项目(20110604 41150301)~~

关键词数据质量数据完整性数据填补 K近邻算法局部敏感哈希 data quality data integrity data imputation k-nearest neighbor（k NN） algorithm Locality Sensitive Hashing（LSH）

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献13

1GARCIA-LAENCINA P J, SANCHO-GOMEZ J-L, FIGUEIRAS-VIDAL A R, et al. K nearest neighbors with mutual information for simultaneous classification and missing data imputation[J]. Neurocomputing, 2009, 72(7/8/9): 1483-1493.
2WANG H, WANG S. Discovering patterns of missing data in survey databases: An application of rough sets[J]. Expert System with Applications, 2009, 36(3): 6256-6260.
3LITTLE R J A, RUBIN D B. Statistical analysis with missing data[M]. New York: John Wiley & Sons, 2002: 19-20.
4DONDERS A R, VAN DER HEIJDEN G J, STIJNEN T, et al. Review: a gentle introduction to imputation of missing values[J]. Journal of Clinical Epidemiology, 2006, 59(10): 1087-1091.
5AITTOKALLIO T. Dealing with missing values in large-scale studies: microarray data imputation and beyond[J]. Briefings in Bioinformatics, 2010, 11(2): 253-264.
6ANAGNOSTOPOULOS C, TRIANTAFILLOU P. Scaling out big data missing value imputations: pythia vs. godzilla[C]//KDD '14: Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2014: 651-660.
7Rajaraman A,Ullman J D.大数据:互联网大规模数据挖掘与分布式处理[M].王斌,译.北京:人民邮电出版社,2012:150-155.
8BRODER A Z, CHARKAR M, FRIEZE A M, et al. Min-wise independent permutations[J]. Journal of Computer and System Sciences, 2000, 60(3): 630-659.
9DATAR M, IMMORLICA N, INDYK P, et al. Locality-sensitive hashing scheme based on p-stable distributions[C]//SCG '04: Proceedings of the twentieth Annual Symposium on Computational Geometry. New York: ACM, 2004: 253-262.
10ANDONI A, INDYK P. LSH Algorithm and Implementation (E2LSH) [EB/OL]. [2015-06-22]. http://web.mit.edu/andoni/www/LSH.

共引文献6

1邓全.决策树算法与客户流失分析[J].西安邮电学院学报,2013,18(3):49-51. 被引量：6
2郭进伟,皮建勇.基于MapReduce的SON算法实现[J].计算机应用,2014,34(A01):100-102. 被引量：7
3陈博文,刘功申,张浩霖,郭弘毅.融合标签传播和信任扩散的个性化推荐方法[J].计算机工程,2014,40(12):33-38. 被引量：4
4过云燕,王宏志,张玮奇.社交网络中基于分类属性的好友推荐[J].计算机工程与应用,2015,51(12):99-106. 被引量：4
5李嫚,姚文胜.电信企业IT去IOE迎LAMP的探索[J].电信科学,2016,32(2):148-152. 被引量：3
6赵文清,杨璐,李刚.基于KL-散度的智能电网用户特征提取方法[J].计算机测量与控制,2016,24(8):200-202. 被引量：1

同被引文献35

1张国英,沙芸,江慧娜.基于粒子群优化的快速KNN分类算法[J].山东大学学报（理学版）,2006,41(3):120-123. 被引量：8
2郑黎明,邹鹏,贾焰,韩伟红.网络流量异常检测中分类器的提取与训练方法研究[J].计算机学报,2012,35(4):719-729. 被引量：23
3武森,冯小东,单志广.基于不完备数据聚类的缺失数据填补方法[J].计算机学报,2012,35(8):1726-1738. 被引量：64
4杨恒宇.生物序列数据挖掘技术研究[J].合肥工业大学学报（自然科学版）,2012,35(9):1212-1216. 被引量：3
5唐明田,王允艳.异方差回归模型的经验似然拟合优度检验[J].江西理工大学学报,2012,33(5):74-77. 被引量：3
6王凤梅,胡丽霞.一种基于近邻规则的缺失数据填补方法[J].计算机工程,2012,38(21):53-55. 被引量：15
7陶卿,高乾坤,姜纪远,储德军.稀疏学习优化问题的求解综述[J].软件学报,2013,24(11):2498-2507. 被引量：23
8许行,梁吉业,王宝丽.基于双向有序互信息的单调分类决策树算法[J].南京大学学报（自然科学版）,2013,49(5):628-636. 被引量：5
9李孝伟,陈福才,李邵梅.基于分类规则的C4.5决策树改进算法[J].计算机工程与设计,2013,34(12):4321-4325. 被引量：22
10何清,李宁,罗文娟,史忠植.大数据下的机器学习算法综述[J].模式识别与人工智能,2014,27(4):327-336. 被引量：331

引证文献4

1石红姣.基于改进随机决策树算法的分布式数据挖掘[J].计算机与数字工程,2017,45(9):1802-1808. 被引量：5
2徐彭娜,魏静,林劼,江育娥.基于位置信息熵的局部敏感哈希聚类方法[J].计算机应用与软件,2018,35(3):230-235. 被引量：1
3王丽雯,黄旭.大数据分析下不完备数据多重准确填补仿真[J].计算机仿真,2019,36(7):367-370. 被引量：3
4谢霖铨,赵楠,徐浩,毕永朋.基于属性相关性的K N N近邻填补算法改进[J].江西理工大学学报,2019,40(1):95-101. 被引量：10

二级引证文献19

1范英铭.基于数据挖掘的机电故障数据集离群点检测算法[J].新一代信息技术,2019,2(22):53-59.
2解小东,陈治华.基于kNN-DBSCAN的缺失数据填补优化算法[J].工业控制计算机,2020,33(4):58-60. 被引量：4
3黄紫成,李影.基于模糊C均值聚类的缺失数据填充方法[J].吉首大学学报（自然科学版）,2020,41(2):23-26. 被引量：4
4白玲玲.基于尺度划分的多尺度数据挖掘算法设计[J].宁夏师范学院学报,2020,41(7):65-72. 被引量：1
5蒋一锄.基于灰狼优化聚类算法的读者行为分析[J].吉首大学学报（自然科学版）,2020,41(4):38-43. 被引量：1
6金秋,林馥.定向网络中隐藏可逆数据的分层追踪算法[J].计算机仿真,2020,37(10):226-229.
7岳根霞,刘金花,刘峰.基于决策树算法的医疗大数据填补及分类仿真[J].计算机仿真,2021,38(1):451-454. 被引量：19
8岳根霞,王剑,刘金花.决策树算法在诊断机械故障信息挖掘中的应用[J].机械设计与制造,2022(1):168-171. 被引量：4
9孙鸿昌,周风余,单明珠,翟文文,牛兰强.基于模式划分的空调能耗混合填补方法[J].山东大学学报（工学版）,2022,52(1):9-18. 被引量：4
10陈小杰.一种优化权重的k-近邻填补缺失值的算法研究[J].无线互联科技,2022,19(8):121-125. 被引量：1

1符欲梅,朱芳,昝昕武.基于支持向量机的桥梁健康监测系统残缺数据填补[J].传感技术学报,2012,25(12):1706-1710. 被引量：7
2郝胜轩,宋宏,周晓锋.基于近邻噪声处理的KNN缺失数据填补算法[J].计算机仿真,2014,31(7):264-268. 被引量：29
3聂庆华,杨利华.缺失或不完备数据的填补方法分析[J].科技创新与应用,2012,2(9):46-46.
4李建强,赵凯,潘文凯,陈星旭,李世博.电站历史数据缺失值填补策略研究[J].电力科学与工程,2017,33(1):43-48. 被引量：8
5郝胜轩,宋宏,周晓锋.一种基于双聚类的缺失数据填补方法[J].计算机应用研究,2015,32(3):674-678. 被引量：12
6张星,郝伟.不完备或缺失数据及其填补方法研究[J].福建电脑,2007,23(4):32-33. 被引量：2
7高雅平,陈一民,邹一波,黄晨,高明柯,李启明.优化改进的深度图像空洞填补算法[J].计算机工程与设计,2016,37(11):3040-3044. 被引量：2
8张赤,丰洪才,金凯,杨婷.基于聚类分析的缺失数据最近邻填补算法[J].计算机应用与软件,2014,31(5):282-284. 被引量：13
9毛玫静,鄂旭,谭艳,杨明婧.基于属性相关度的缺失数据填补算法研究[J].计算机工程与应用,2016,52(6):74-79. 被引量：9
10韩飞,沈镇林.基于不完备集双聚类的缺失数据填补算法[J].计算机工程,2016,42(4):20-26. 被引量：12

计算机应用

2016年第2期

浏览历史

内容加载中请稍等...

结合局部敏感哈希的k近邻数据填补算法被引量：4

参考文献13

共引文献6

同被引文献35

引证文献4

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

结合局部敏感哈希的k近邻数据填补算法 被引量：4

参考文献13

共引文献6

同被引文献35

引证文献4

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

结合局部敏感哈希的k近邻数据填补算法被引量：4