基于协同过滤加权预测的主动学习缺失值填补算法被引量：2

Missing value imputation with active learning based on collaborative filtering weighted prediction

下载PDF

导出

摘要在机器学习应用中,缺失值填补作为一种预处理技术,能有效提高数据的可用性,然而在缺失值较多或不均衡时,这些技术的效果并不理想.主动学习场景允许机器与用户交互,以获取少量关键数据,提高分类精度.针对主动获取数据量有限的问题,提出基于协同过滤加权预测的主动学习缺失值填补算法(Collaborative Filtering weighted prediction based Active Learning,CFAL).首先采用基于样本和基于属性的协同过滤方法分别预测缺失值;然后根据预测值的差异对数据进行排序,差异大的少量数据进行主动获取,差异小的少量数据利用预测值的平均值进行填补;重复该过程直到主动获取数据达到所给阈值上限,其余缺失值则使用预测值均值填补.实验在七个UCI常用数据集上进行,结果表明,与流行的几种填补算法相比,CFAL算法能更好地提升数据质量,应用于C4.5,kNN等算法能获得更高的分类精度. In machine learning applications,missing value imputation is an effective preprocessing technique designed to increase data availability.However,if there are many missing values or the values of different attributes are imbalanced,these techniques may not produce satisfactory results.The active learning scenario allows the machine to interact with the users(also known as oracle)to get a small amount of critical data and improve classification accuracy.Most of the existing methods focus on obtaining class labels,and rarely discuss obtaining missing values.This paper studies the active learning problem,in which the number of missing values which can be actively obtained is pre-specified.We propose a missing value imputation algorithm called Collaborative Filtering weighted prediction based Active Learning(CFAL).First,both user-based and item-based collaborative filtering approaches are employed to predict missing values.Second,the missing values are sorted according to the bias of different prediction approaches.Missing values with high deviation are actively obtained,while those with low deviation are filled with the average prediction.This process repeats until the number of active acquisitions achieves the pre-specified value.Remaining missing values are filled with average prediction.We compare CFAL with popular missing valueimputation algorithms including EBN(Imputation algorithm of missing values based on EM and Bayesian network),Mean,NB(Na6 ve-Bayes),and kNN(k Nearest Neighbors)on seven popular UCI(University of California,Irvine)datasets.Results show while coupled with classifiers such as C4.5 and kNN,CFAL produces better classification accuracy than its counterparts.

作者黄帷闵帆任杰

机构地区西南石油大学计算机科学学院

出处《南京大学学报（自然科学版）》 CAS CSCD 北大核心 2018年第4期758-765,共8页 Journal of Nanjing University（Natural Science）

基金国家自然科学基金(61379089)

关键词数据缺失协同过滤预测填补主动学习分类 data missing collaborative filtering predictive imputation active learning classification

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献4

1武森,冯小东,单志广.基于不完备数据聚类的缺失数据填补方法[J].计算机学报,2012,35(8):1726-1738. 被引量：62
2李聪,梁昌勇,马丽.基于领域最近邻的协同过滤推荐算法[J].计算机研究与发展,2008,45(9):1532-1538. 被引量：93
3李宏,阿玛尼,李平,吴敏.基于EM和贝叶斯网络的丢失数据填充算法[J].计算机工程与应用,2010,46(5):123-125. 被引量：21
4刘星毅.GBNN-填充缺失属性值算法[J].微计算机信息,2007(05X):246-248. 被引量：6

二级参考文献24

1邓聚龙.社会经济灰色系统的理论与方法[J].中国社会科学,1984(6):47-60. 被引量：100
2周军锋,汤显,郭景峰.一种优化的协同过滤推荐算法[J].计算机研究与发展,2004,41(10):1842-1847. 被引量：102
3王琪,王丽萍,陈凯迪.一种简单的图案填充算法[J].微计算机信息,2005,21(09X):116-117. 被引量：18
4张锋,常会友.使用BP神经网络缓解协同过滤推荐算法的稀疏性问题[J].计算机研究与发展,2006,43(4):667-672. 被引量：85
5邢春晓,高凤荣,战思南,周立柱.适应用户兴趣变化的协同过滤推荐算法[J].计算机研究与发展,2007,44(2):296-301. 被引量：146
6Lakshminarayan K,Harp S A,Samad T.Imputation of missing data in industrial databases[J].Applied Intelligence,1999,11:259-275.
7Li K H.Imputation using Markov chains[J].Journal of Statisticalt Comput Simul,1988,30:57-79.
8Little R J,Rubin D B.Statistical analysis with missing data[M].[S.l] :John Wiley and Sons,1987.
9Gustavo E A,Batista P A,Monard M C.An analysis of four missing data treatment methods for supervised learning[J].Applied Artificial Intelligence,2003,17(5/6):519-533.
10Huang C,Lee H.A grey-based nearegt neighbor approach for missing attribute value prediction[J].Applied Artificial Intelligence,2004,20(3):239-252.

共引文献172

1高旻,吴中福.基于个性化情境和项目的协同推荐研究[J].东南大学学报（自然科学版）,2009,39(S1):27-31. 被引量：8
2李聪.ECRec:基于协同过滤的电子商务个性化推荐管理[J].现代图书情报技术,2009(10):34-39. 被引量：2
3夏秀峰,吴兰兰.一种基于商品基因的个性化推荐模型[J].辽宁大学学报（自然科学版）,2009,36(4):329-334. 被引量：3
4李聪,梁昌勇.适应用户兴趣变化的协同过滤增量更新机制[J].情报学报,2010,29(1):59-66. 被引量：8
5刘星毅,檀大耀,曾春华,韦小铃.基于马氏距离的缺失数据填充算法[J].微计算机信息,2010,26(9):225-226. 被引量：6
6邵伟,袁方,张瑜.融入项目类别信息的协同过滤推荐算法[J].数学的实践与认识,2010,40(6):108-112. 被引量：2
7周涛,李华.基于用户情景的协同过滤推荐[J].计算机应用,2010,30(4):1076-1078. 被引量：12
8徐德智,李小慧.基于云模型的项目评分预测推荐算法[J].计算机工程,2010,36(17):48-50. 被引量：23
9黄裕洋,金远平.一种综合用户和项目因素的协同过滤推荐算法[J].东南大学学报（自然科学版）,2010,40(5):917-921. 被引量：20
10刘旭东,陈德人,钟苏丽.使用群体兴趣偏好度的协同过滤推荐[J].计算机工程与应用,2010,46(34):129-131. 被引量：1

同被引文献5

1张建军,张天成,隋宇婷,岳德君.基于极限学习机(ELM)岭回归的DNA微阵列数据填补[J].小型微型计算机系统,2014,35(10):2357-2362. 被引量：3
2孟军,李锐,郝涵.基于相交邻域粗糙集的基因微阵列数据分类[J].计算机科学,2015,42(6):37-40. 被引量：4
3刘永楠,李建中,高宏.海量不完整数据的核心数据选择问题的研究[J].计算机学报,2018,41(4):915-930. 被引量：6
4严远亭,吴亚亚,赵姝,张燕平.构造性覆盖下不完整数据修正填充方法[J].智能系统学报,2019,14(6):1225-1232. 被引量：4
5辛利柯,杨琬琪,杨明.基于判别稀疏性表示的不完整多视图分类[J].计算机科学与探索,2021,15(10):1938-1948. 被引量：2

引证文献2

1汪敏,赵飞,闵帆.储层预测的代价敏感主动学习算法[J].南京大学学报（自然科学版）,2020,56(4):561-569.
2朱先远,严远亭,张燕平.邻域信息修正的不完整数据多填充集成分类方法[J].计算机工程与应用,2023,59(23):125-135. 被引量：1

二级引证文献1

1何昀,张川,张继夫,陈伟.基于随机森林的多源小样本数据快速集成方法[J].信息与电脑,2024,36(1):52-54.

1蒋玉敏,苏琳,李娜,李艳,孙翾.护理学实践教学阶梯式考核与多元化评价研究[J].包头医学院学报,2018,34(5):114-117. 被引量：1
2孙莉,张桃桃.参与式教学法在基础护理学教学中的应用[J].实用临床护理学电子杂志,2018,3(25):178-179. 被引量：6
3Lin Yue,Xiao-Xin Sun,Wen-Zhu Gao,Guo-Zhong Feng,Bang-Zuo Zhang.Multiple Auxiliary Information Based Deep Model for Collaborative Filtering[J].Journal of Computer Science & Technology,2018,33(4):668-681. 被引量：1
4庞仕秀,李巍,姜学钧.双侧人工耳蜗植入术治疗双侧感音神经性聋的研究进展[J].医学综述,2018,24(17):3435-3440. 被引量：3
5韩珂,谢强.基于改进KNN的船舶监控数据缺失值填补方法[J].信息与电脑,2016,28(21):128-129. 被引量：2
6王玉秋.微课理念下初中历史课堂教学实践研究[J].中小学电教（综合）,2018,0(7):82-84. 被引量：3
7孙娟.设计多元活动,让学生“动”出精彩[J].内蒙古教育（B）,2018(8):72-73. 被引量：1
8汤敬浩,李剑.基于深度学习的音乐推荐系统[J].移动信息,2018(2):87-91.
9吴欢,薛万国,应俊,冷文修,刘继轩,刘燕玉,杨跃进.基于机器学习方法的PCI术预后主要不良心血管事件预测模型研究[J].中国数字医学,2018,13(8):2-5. 被引量：9
10何波,潘力.融合内容和改进协同过滤的个性化推荐算法[J].控制工程,2018,25(8):1553-1558. 被引量：9

南京大学学报（自然科学版）

2018年第4期

浏览历史

内容加载中请稍等...

基于协同过滤加权预测的主动学习缺失值填补算法被引量：2

参考文献4

二级参考文献24

共引文献172

同被引文献5

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于协同过滤加权预测的主动学习缺失值填补算法 被引量：2

参考文献4

二级参考文献24

共引文献172

同被引文献5

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于协同过滤加权预测的主动学习缺失值填补算法被引量：2