基于马氏距离的缺失值填充算法被引量：24

Missing value estimation for gene expression data based on Mahalanobis distance

下载PDF

导出

摘要提出了一种基于马氏距离的填充算法来估计基因表达数据集中的缺失数据。该算法通过基因之间的马氏距离来选择最近邻居基因,并将已得到的估计值应用到后续的估计过程中,然后采用信息论中熵值的概念计算最近邻居的加权系数,得到缺失数据的填充值。实验结果证明了该算法具有有效性,其性能优于其他基于最近邻居法的缺失值处理算法。 A imputation method based on Mahalanobis distance was proposed to estimate missing values in the gene expression data. The nearest neighbors were chosen by the Mahalanobis distance between genes, and then the concept of entropy was utilized to obtain estimations of missing values. The imputed values were used for the later imputation. Experiments prove that the method is valid and its performance is higher than the other imputation methods based on k-nearest neighbors for gene expression data.

作者杨涛骆嘉伟王艳吴君浩

机构地区湖南大学计算机与通信学院

出处《计算机应用》 CSCD 北大核心 2005年第12期2868-2871,共4页 journal of Computer Applications

基金湖南省自然科学基金(03JJY3095)

关键词微阵列缺失值估计马氏距离信息熵 microarray missing value estimation Mahalanobis distance entropy

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献17

1DUDOIT S,YANG YH,CALLOW MJ,et al.Statistical methods for identifying differentially expressed genes in replicated cDNA microarray experiments[J].Statistica Sinica,2002,12(1):111-139.
2ARBEITMAN MN,FURLONG EEM,IMAM F,et al.Gene expression during the life cycle of Drosophila melanogaster[J].Science,2002,297(5590):2270-2275.
3GASCH AP,SPELLMAN PT,KAO CM,et al.Genomic expression programs in the response of yeast cells to environmental changes[J]. Molecular Biology of the Cell 2000,11:4241-4257.
4BOHEN SP, TROYANSKAYA OG, ALTER O,et al.Variation in gene expression patterns in follicular lymphoma and the response to rituximab[J]. Proc Natl Acad Sci,USA,2003,100(4):1926-1930.
5BROWN MP,GRUNDY WN,LIN D,et al.Knowledge-based analysis of microarray gene expression data by using support vector machines[J]. Proc. Natl Acad. Sci,USA,2000,97,262-267.
6RAYCHAUDHURI S,STUART JM,ALTMAN R.Principal components analysis to summarize microarray experiments:application to sporulation time series[J]. Pac. Symp. 15Biocomput.,2000,455-466.
7ALTER O,BROWN PO,BOTSTEIN D.Singular value decomposition for genome-wide expression data processing and modeling[J]. Proc. Natl Acad. Sci. USA,2000,97(18):10101-10106.
8BUTTE AJ,YE J,NIEDERFELLNER G,et al.Determining significant fold differences in gene expression analysis[J]. Pac. Symp. Biocomput.,2001,6:6-17.
9ALIZADEH AA,EISEN MB,DAVIS RE,et al.Distinct types of diffuse large B-cell lymphoma identified by gene expression profiling[J]. Nature,2000,403,503-511.
10TROYANSKAYA O,CANTOR M,SHERLOCK G,et al.Missing value estimation methods for DNA microarrays[J]. Bioinformatics,2001,17:520-525.

共引文献4

1范赞成.众数之误[J].统计与信息论坛,2005,20(3):103-105. 被引量：1
2严明义,杜鹏.中国消费价格指数季节变动的函数性数据分析[J].统计与信息论坛,2010,25(8):100-106. 被引量：8
3石洪景.基于因子和聚类分析的居民消费价格变动水平评价[J].西南农业大学学报（社会科学版）,2012,10(10):23-27. 被引量：4
4唐晓宁,张宪胜,孙凯凯,刘津玮.基于双因素方差分析混纺面料的设计[J].现代纺织技术,2014,22(5):23-25.

同被引文献206

1林香,姜青山,熊腾科.一种基于遗传BP神经网络的预测模型[J].计算机研究与发展,2006,43(z3):338-343. 被引量：16
2唐四平,黄文杰,李娜.大数据时代,电力营销何以应之?[J].湖北电力,2013,37(5). 被引量：4
3金连,王宏志,黄沈滨,高宏.基于Map-Reduce的大数据缺失值填充算法[J].计算机研究与发展,2013,50(S1):312-321. 被引量：18
4杨永恬,田昕,冯仲科,吴发盛,李树彦.遥感混和分类算法及其在森林分类中的应用[J].测绘科学,2004,29(4):55-57. 被引量：6
5吴炳方,曾源,黄进良.遥感提取植物生理参数LAI/FPAR的研究进展与应用[J].地球科学进展,2004,19(4):585-590. 被引量：54
6张传武.细胞自动机及其理论研究进展[J].贵州大学学报（自然科学版）,2004,21(3):289-292. 被引量：9
7刘鹏,雷蕾,张雪凤.缺失数据处理方法的比较研究[J].计算机科学,2004,31(10):155-156. 被引量：24
8李红梅,韩红香,薛大勇.利用GARP生态位模型预测日本松干蚧在中国的地理分布[J].昆虫学报,2005,48(1):95-100. 被引量：49
9董旭,魏振军.一种加权欧氏距离聚类方法[J].信息工程大学学报,2005,6(1):23-25. 被引量：32
10甄文祥,王文田.遗传算法及其应用[J].计算机应用研究,1994,11(5):9-10. 被引量：6

引证文献24

1王雅男,万方浩,沈文君.外来入侵物种的风险评估定量模型及应用[J].昆虫学报,2007,50(5):512-520. 被引量：21
2周秀梅,李作春,覃泽.有序填充微阵列缺失数据[J].计算机工程与应用,2009,45(22):111-113.
3王雪飘,张宏亭,李学仁.基于马氏距离的飞行缺失数据估计方法[J].火力与指挥控制,2009,34(8):113-115. 被引量：4
4刘星毅.基于马氏距离和灰色分析的缺失值填充算法[J].计算机应用,2009,29(9):2502-2504. 被引量：6
5刘星毅,韦小铃.基于欧式距离的最近邻改进算法[J].广西科学院学报,2010,26(4):409-411. 被引量：9
6陈欢,黄德才.基于广义马氏距离的缺损数据补值算法[J].计算机科学,2011,38(5):149-153. 被引量：11
7任志伟,黄景涛,罗威,江爱朋.电站锅炉缺失数据的遗传自适应填补方法[J].兰州理工大学学报,2013,39(2):75-79. 被引量：2
8包海青,安慧君,贺晓辉,于楠楠.基于马氏距离的TM数据森林分类方法研究[J].内蒙古农业大学学报（自然科学版）,2013,34(2):61-64. 被引量：3
9陈志奎,吕爱玲,张清辰.基于属性重要性的不完备数据填充算法[J].微电子学与计算机,2013,30(7):167-172. 被引量：10
10伍亚舟,易东.基因表达谱缺失数据填补估计方法的研究进展与探讨[J].重庆医学,2014,43(14):1806-1808.

二级引证文献125

1陈雪松,陈秀芳,毕波,唐锦萍.基于改进SURF的图像匹配算法[J].计算机系统应用,2020,29(12):222-227. 被引量：13
2祝文华,师欢瑜.基于Landsat8的保定清苑区土地利用分类研究[J].信息通信,2019,32(11):35-36.
3万方浩,郭建英.农林危险生物入侵机理及控制基础研究[J].中国基础科学,2007(5):8-14. 被引量：6
4徐进,陈林,许景生,张争,张昊,冯洁.香蕉细菌性枯萎病菌在中国的潜在适生区域[J].植物保护学报,2008,35(3):233-238. 被引量：14
5王颖,章桂明,杨伟东,陈枝楠,郑耘,龙海,程颖慧.基于MAXENT的大豆南北方茎溃疡病菌在中国适生区的预测[J].植物检疫,2009,23(4):14-17. 被引量：23
6崔友林,方沩,朱振东,王晓鸣,彭德良,谢丙炎.CLIMEX-GIS预测大豆北方茎溃疡病菌在中国的潜在分布[J].植物保护,2009,35(4):49-53. 被引量：8
7张林艳,叶万辉,江洪.利用反应-扩散模型预测生物入侵[J].生态环境学报,2009,18(4):1565-1572. 被引量：5
8钱勇生,林芳,石培基,尹小亭,曾琼,刘宇斐.基于土地利用特征的竞争性产业生长湮灭CA仿真[J].系统工程理论与实践,2010,30(4):611-614.
9万方浩,张桂芬.我国农业有害生物检疫的研究现状及发展策略[J].植物保护,2010,36(4):6-9. 被引量：6
10李炳清,刘志文,曾华,刘子莹,季林鹏,袁继平,蒋军喜,王建国.基于GARP的马铃薯癌肿病在中国适生性分析[J].江西植保,2011,34(4):145-150. 被引量：2

1陈园园,袁焕丽.WSN中基于线性回归和最大似然的缺失值估计模型[J].周口师范学院学报,2016,33(5):71-74.
2陈爽,宋金玉,刁兴春,曹建军.基于关系马尔可夫模型的枚举型缺失值估计[J].上海交通大学学报,2013,47(8):1246-1250. 被引量：2
3邱保志,甄倩倩,唐耀华.无线传感器网络中缺失数据估计算法[J].计算机应用,2013,33(12):3457-3459. 被引量：2
4李珊,俞瑛,胡康华,宋波,姚叶慧.基于制造云服务QoS序列特性的缺失值估计算法[J].计算机集成制造系统,2016,22(12):2930-2936. 被引量：2
5张涛,任宏雷,洪文学,李慧.基于属性拓扑的可视化形式概念计算[J].电子学报,2014,42(5):925-932. 被引量：18
6尹国定,卫红.云计算——实现概念计算的方法[J].东南大学学报（自然科学版）,2003,33(4):502-506. 被引量：74
7王骅,徐荣灵.浅析计算机云计算中实现概念计算的方法[J].无线互联科技,2013,10(9):110-111. 被引量：4
8任炜,冯丽辉,许胜善.电容法检测烟支点火端[J].传感器世界,2007,13(11):27-28.
9张赤,丰洪才,金凯,杨婷.基于聚类分析的缺失数据最近邻填补算法[J].计算机应用与软件,2014,31(5):282-284. 被引量：12
10黄经纬,杨国亮,胡政伟,王艳芳.基于矩阵填充的肿瘤基因表达谱数据缺失点估计[J].科学技术与工程,2017,17(7):63-68. 被引量：3

计算机应用

2005年第12期

浏览历史

内容加载中请稍等...

基于马氏距离的缺失值填充算法被引量：24

参考文献17

共引文献4

同被引文献206

引证文献24

二级引证文献125

相关作者

相关机构

相关主题

浏览历史

基于马氏距离的缺失值填充算法 被引量：24

参考文献17

共引文献4

同被引文献206

引证文献24

二级引证文献125

相关作者

相关机构

相关主题

浏览历史

基于马氏距离的缺失值填充算法被引量：24