基于精简关联度的基因表达数据迭代填补算法被引量：3

Iterative Imputation Algorithm Based on Reduced Relational Grade for Gene Expression Data

下载PDF

导出

摘要基因表达数据时常出现缺失,阻碍了对基因表达的研究。提出了一种新的相似性度量方案——精简关联度,在此基础上,又提出了基于精简关联度的缺失数据迭代填补算法(RKNNimpute)。精简关联度是对灰色关联度的一种改进,能达到与灰色关联度同样的效果,却显著降低了算法的时间复杂度。RKNNimpute算法以精简关联度作为相似度量,将填补后的基因扩充到近邻的候选基因集,通过迭代的方式填补其他缺失数据,提高了算法的填补效果和性能。选用时序、非时序、混合等不同类型的基因表达数据集进行了大量实验来评估RKNNimpute算法的性能。实验结果表明,精简关联度是一种高效的距离度量方法,所提出的RKNNimpute算法优于常规填补算法。 Gene expression data frequently suffers from missing value, which adversely affects downstream analysis. A new similarity metric method named reduced relational grade was proposed. Based on this, we presented the iterative im- putation algorithm for gene expression data （RKNNimpute）. Reduced relational grade is an improvement of gray rela- tional grade. The former can achieve the same performance as the latter while greatly reducing the time complexity. RKNNimpute imputes missing value iteratively by considering the reduced relational grade as similarity metric and ex- panding the set of candidate genes to nearest neighbors with imputed genes, which improves the effect and performance of the imputation algorithm. We selected data sets of different kind, such as time series, non-time series and mixed, and then experimentally evaluated the proposed method. The results demonstrate that the reduced relational grade is effec- tive and RKNNimpute outperforms common imputation algorithms.

作者何云皮德常

机构地区南京航空航天大学计算机科学与技术学院

出处《计算机科学》 CSCD 北大核心 2015年第11期251-255,283,共6页 Computer Science

基金国家自然科学基金(U1433116) 江苏省"333"高层次人才工程航空科学基金(20145752033)资助

关键词基因表达数据精简关联度填补迭代缺失值 Gene expression data, Reduced relational grade, Imputation, Iteration, Missing value

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献13

1Hoheisel J D. Microarray technology: beyond transcript profilingand genotype analysis [J]. Nature Reviews Genetics,2006. 7(3):200-210.
2De Brevern A G, Hazout S, Malpertuy A. Influence of microar-rays experiments missing values on the stability of gene groupsby hierarchical clustering [J]. BMC Bioinformatics, 2004,5(1):114-119.
3Yang Y H,Buckley M J.Dudoit S,et al. Comparison of methodsfor image analysis on cDNA microarray data [J]. Journal ofComputational and Graphical Statistics, 2002,11(1): 108-136.
4Pedro J, Garcia-Laencina,et al. K nearest neighbours with mutualinformation for simultaneous classification and missing data im-putation [J]. Neurocomputing, 2009,72(7-9) : 1483-1493.
5Moorthy K, Mohamad M S, Deris S. A Review on Missing ValueImputation Algorithms for Microarray Gene Expression Data[J]. Current Bioinformatics.2014.9(l) : 18-22.
6Song Qin-bao,Shepperd M,Chen Xiang-ru,et al. Can k-NN im-putation improve the performance of C4. 5 with small softwareproject data sets. A comparative evaluation [J]. Journal of Sys-tems and Software,2008,81(12) : 2361-2370.
7Troyanskaya O,Cantor M.Sherlock G. Missing value estimationmethods for DNA microarrays [J]. Bioinformatics.2001,17(6):520-525.
8Alan Wee-Chung,Law Ngai-Fong, Yan Hong. Missing value im-putation for gene expression data: computational technique torecover missing data from available information [J]. Briefings inBioinformatics,2010,12(5) :498-513.
9MengFan-chi, Cheng Cai, Hong Yan, A Bicluster-Based Baye-sian Principal Component Analysis Method for Microarray Mis-sing Value Estimation [J]. Biomedical and Health Informatics,2014,18(3):862-871.
10Zhang Shi-chao. Shell-neighbor method and its application inmissing data [J]. Applied Intelligence,2011,35(1) : 123-133.

同被引文献22

1杨涛,骆嘉伟,王艳,吴君浩.基于马氏距离的缺失值填充算法[J].计算机应用,2005,25(12):2868-2871. 被引量：24
2王雪飘,张宏亭,李学仁.基于马氏距离的飞行缺失数据估计方法[J].火力与指挥控制,2009,34(8):113-115. 被引量：4
3童先群,周忠眉.基于属性值信息熵的KNN改进算法[J].计算机工程与应用,2010,46(3):115-117. 被引量：31
4庞新生.缺失数据处理方法的比较[J].统计与决策,2010,26(24):152-155. 被引量：27
5王凤梅,胡丽霞.一种基于近邻规则的缺失数据填补方法[J].计算机工程,2012,38(21):53-55. 被引量：14
6陈静杰,邹迎欢.油耗预测中显著影响参数提取方法的仿真[J].计算机仿真,2013,30(6):55-58. 被引量：10
7肖辉辉,段艳明.基于属性值相关距离的KNN算法的改进研究[J].计算机科学,2013,40(11A):157-159. 被引量：28
8翟东海,鱼江,高飞,于磊,丁锋.最大距离法选取初始簇中心的K-means文本聚类算法的研究[J].计算机应用研究,2014,31(3):713-715. 被引量：107
9潘楚,罗可.基于改进粒计算的K-medoids聚类算法[J].计算机应用,2014,34(7):1997-2000. 被引量：11
10孟杰,李春林.基于随机森林模型的分类数据缺失值插补[J].统计与信息论坛,2014,29(9):86-90. 被引量：27

引证文献3

1陈静杰,车洁.基于IK-medoids算法的飞机油耗聚类方法[J].计算机科学,2018,45(8):306-309. 被引量：4
2于合龙,刘雨帆,张继成,唐友.基于多种机器学习方法填补大豆基因组缺失的比较研究[J].大豆科学,2021,40(1):122-129. 被引量：2
3陈静杰,车洁.基于标准欧氏距离的燃油流量缺失数据填补算法[J].计算机科学,2017,44(S1):109-111. 被引量：8

二级引证文献14

1于宏.倍他乐克治疗左室舒张功能障碍性心力衰竭疗效观察[J].天津医科大学学报,2000,6(1):116-117. 被引量：2
2陈静杰,崔金成.基于不同采样率的短航程油耗估计[J].科学技术与工程,2019,19(24):254-259. 被引量：1
3汤洪涛,闫伟杰,陈青丰,鲁建厦,詹燕.自动化立体仓库货位分配与作业调度集成优化[J].计算机科学,2020,47(5):204-211. 被引量：18
4时巍.云计算下相关性缺失大数据分块填补仿真[J].计算机仿真,2020,37(4):432-435.
5石旭东,姜鸿晔.基于鲸鱼优化小波神经网络的飞行航迹缺失数据预测方法[J].计算机应用与软件,2020,37(7):200-205. 被引量：3
6任澳,孔玲君,刘真,王茜.基于加权欧氏距离的光谱重构训练样本选择[J].包装工程,2020,41(15):253-259. 被引量：3
7冀汶莉,郗刘涛,柴敬.采场覆岩光纤监测数据LSSVM填补方法[J].西安科技大学学报,2021,41(1):160-171. 被引量：5
8陈静杰,王希.重构样本下改进飞机油耗预测方法[J].计算机工程与设计,2021,42(11):3232-3238. 被引量：1
9李佳楠,高兴泉,李卓,滕小华,黄斌,张继成,唐友.四种机器学习算法预测大豆蛋白质定位对比研究[J].大豆科学,2022,41(3):337-344. 被引量：1
10李舒,张伟业,汪坤,段照斌.基于聚类分析的航班油耗组合估计[J].计算机与现代化,2022(8):65-69.

1高雅平,陈一民,邹一波,黄晨,高明柯,李启明.优化改进的深度图像空洞填补算法[J].计算机工程与设计,2016,37(11):3040-3044. 被引量：2
2张赤,丰洪才,金凯,杨婷.基于聚类分析的缺失数据最近邻填补算法[J].计算机应用与软件,2014,31(5):282-284. 被引量：12
3张婵.一种基于支持向量机的缺失值填补算法[J].计算机应用与软件,2013,30(5):226-228. 被引量：14
4马志锋,邢汉承,郑晓妹.一种基于Rough集的时间序列数据挖掘策略[J].系统工程理论与实践,2001,21(12):22-29. 被引量：14
5王新明,冒爱明.基于Haar小波的DEM多尺度表达的研究[J].现代测绘,2003,26(S1):80-81.
6蒋晨阳,张云飞,李鑫.基于时空相关性的连续缺失值填补算法[J].计算机与现代化,2016(9):6-9. 被引量：1
7吴俊杰,赵鹏.非线性噪声数据集上基于随机森林的空缺值填补算法[J].计算机应用与软件,2013,30(7):51-53. 被引量：7
8郝胜轩,宋宏,周晓锋.基于近邻噪声处理的KNN缺失数据填补算法[J].计算机仿真,2014,31(7):264-268. 被引量：29
9郑奇斌,刁兴春,曹建军,周星,许永平.结合局部敏感哈希的k近邻数据填补算法[J].计算机应用,2016,36(2):397-401. 被引量：4
10张扬.知识挖掘在时序信号分析系统中的应用[J].科技致富向导,2014(14):248-248.

计算机科学

2015年第11期

浏览历史

内容加载中请稍等...

基于精简关联度的基因表达数据迭代填补算法被引量：3

参考文献13

同被引文献22

引证文献3

二级引证文献14

相关作者

相关机构

相关主题

浏览历史

基于精简关联度的基因表达数据迭代填补算法 被引量：3

参考文献13

同被引文献22

引证文献3

二级引证文献14

相关作者

相关机构

相关主题

浏览历史

基于精简关联度的基因表达数据迭代填补算法被引量：3