基于最近邻区间的不完整基因表达数据多目标聚类算法被引量：2

Multi-objective clustering algorithm based on the nearest neighbor interval for incomplete gene expression data

下载PDF

导出

摘要针对不完整基因表达数据的聚类问题,提出了一种多目标NSGA-Ⅱ框架下缺失值填补与聚类协同优化的算法.算法根据欧式距离确定不完整基因的近邻基因,以缺失值的最近邻区间为约束,采用混合编码将缺失值填补与聚类中心优化融入NSGA-Ⅱ进化过程,通过将数据集的统计信息与聚类结果共同作为缺失值填补因素,提升不完整基因表达数据的填补准确度及聚类性能.在多个基因表达数据集上的实验结果表明,所提算法得到了更接近真实表达值的填补结果及更紧凑的聚类效果,且聚类结果具有统计显著性. Aiming at the problem of clustering incomplete gene expression data,a collaborative optimization algorithm for missing value imputation and clustering is proposed in the framework of multi-objective NSGA-Ⅱ.The algorithm determines the neighbor genes of incomplete genes according to Euclidean distance.Constrained by the nearest neighbor interval of missing value,the algorithm combines missing value imputation with clustering center optimization into NSGA-Ⅱby mixed encoding.Taking statistical information of datasets and the clustering results into account is helpful to improve the imputation accuracy and clustering performance.Experimental results on multiple gene expression datasets show that the proposed algorithm obtains an imputation result closer to the true expression value and a more compact clustering effect.Furthermore,the proposed algorithm proves to be statistically significant.

作者常巧珍曹隽喆顾宏李丹 CHANG Qiaozhen;CAO Junzhe;GU Hong;LI Dan(School of Control Science and Engineering,Dalian University of Technology,Dalian 116024,China)

机构地区大连理工大学控制科学与工程学院

出处《大连理工大学学报》 CAS CSCD 北大核心 2021年第4期416-423,共8页 Journal of Dalian University of Technology

基金国家自然科学基金资助项目(81872247).

关键词基因表达数据缺失值多目标聚类最近邻规则 gene expression data missing value multi-objective clustering the nearest neighbor rule

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献2

1岳峰,孙亮,王宽全,王永吉,左旺孟.基因表达数据的聚类分析研究进展[J].自动化学报,2008,34(2):113-120. 被引量：25
2任子武,伞冶.实数遗传算法的改进及性能研究[J].电子学报,2007,35(2):269-274. 被引量：42

二级参考文献71

1范瑜,金荣洪,耿军平,刘波.基于差分进化算法和遗传算法的混合优化算法及其在阵列天线方向图综合中的应用[J].电子学报,2004,32(12):1997-2000. 被引量：44
2[1]Brown P O,Botstein D.Exploring the new world of the genome with DNA microarrays.Nature Genetics,1999,21(1):33-37
3[2]Jain A K,Murty M N,Flynn P J.Data clustering:a review.ACM Computing Surveys,1999,31(3):264-323
4[3]Schena M,Shalon D,Davis R W,Brown P O.Quantitative monitoring of gene expression patterns with a complementary DNA microarray.Science,1999,270(5235):467-470
5[4]Schena M,Scalon D,Heller R.Parallel human genome analysis:microarray-based expression monitoring of 1000 genes.Proceedings of the National Academy of Sciences of the United States of America,1996,93(20):10614-10619
6[5]Ramsay G.DNA chips:state-of-the art.Nature Biotechnology,1998,16(1):40-44
7[6]Lockhart D J,Dong H,Byrne M C,Follettie M T,Gallo M V,Chee M S.Expression monitoring by hybridization to high-density oligonucleotide arrays.Nature Biotechnology,1996,14(13):1675-1680
8[7]Lipshutz R J,Fodor S P,Gingeras T R,Lockhart D J.High density synthetic oligonucleotide arrays.Nature Genetics,1999,21(1):20-24
9[8]Harrington C A,Rosenow C,Retief J.Monitoring gene expression using DNA microarrays.Current Opinion in Microbiology,2000,3(3):285-291
10[9]Jiang D X,Pei J,Zhang A D.An interactive approach to mining gene expression data.IEEE Transactions on Knowledge and Data Engineering,2005,17(10):1363-1378

共引文献65

1王文俊,张军英,杨利英.基于类别保留投影的基因表达数据降维方法[J].四川大学学报（工程科学版）,2009,41(6):153-157.
2管小艳,贺冲.改进遗传算法在函数优化中的应用[J].计算机工程,2011,37(S1):186-188. 被引量：3
3姜立,韩战钢.拥挤系统阻碍物位置的遗传算法优化[J].北京师范大学学报（自然科学版）,2015,51(2):144-147. 被引量：2
4张金萍,刘杰,李允公.一种动态种群不对称交叉的新型遗传算法[J].南京理工大学学报,2007,31(4):444-448. 被引量：5
5程德强,钱建生,杨红丽.组播服务节点选择问题的求解算法[J].电子科技大学学报,2008,37(4):523-526.
6朱灿,梁昔明,颜东煌.一种考虑性别特征的遗传算法[J].武汉理工大学学报,2008,30(12):110-113. 被引量：3
7李小青.基于遗传-粒子群混合算法的测试用例生成研究[J].计算机系统应用,2009,18(3):70-72. 被引量：4
8吕梦雅,孙宏岩,唐勇.BFGS-GA优化的RBF网络在动态流量软测量中的应用[J].小型微型计算机系统,2009,30(9):1831-1833. 被引量：1
9金芬,陈小平.函数全局优化的改进实数遗传算法[J].计算机工程与应用,2009,45(29):55-59. 被引量：6
10李文涛,刘淑芳,史小卫,黑永强.改进粒子群算法及其在共形相控阵综合中的应用[J].西安电子科技大学学报,2009,36(5):835-840. 被引量：2

同被引文献15

1刘佳星,张宏烈,刘艳菊,刘彦忠.基于缺失率的不完整数据填补算法[J].统计与决策,2021(2):39-41. 被引量：19
2张安珍,李建中,高宏.基于符号语义的不完整数据聚集查询处理算法[J].软件学报,2020,31(2):406-420. 被引量：8
3方匡南,谢邦昌.基于聚类关联规则的缺失数据处理研究[J].统计研究,2011,28(2):87-92. 被引量：32
4韩希先,李建中,高宏.一种有效的海量数据Top-k Dominating查询算法[J].计算机学报,2013,36(10):2132-2145. 被引量：4
5苏思凡,竹翠,朱文军,赵枫朝.基于时空融合的缺失值填补算法[J].计算机工程与设计,2020,41(1):78-84. 被引量：5
6乔文俞,李野,刘浩宇,李扬,杨挺.基于曲线相似与低秩矩阵的缺失电量数据补全方法[J].电力建设,2020,41(1):32-38. 被引量：20
7任永功,王思雨,张志鹏.缓解数据稀疏问题的协同过滤混合填充算法[J].模式识别与人工智能,2020,33(2):166-175. 被引量：16
8刘莎,杨有龙.基于灰色关联分析的类中心缺失值填补方法[J].四川大学学报（自然科学版）,2020,57(5):871-878. 被引量：14
9钱宇骋,甄超,季坤,赵常威,付龙明,张亚静.变压器在线监测数据异常值检测与清洗[J].哈尔滨理工大学学报,2020,25(5):15-22. 被引量：27
10魏军会,杜文波,张宝,崔佳凯,易俊,康诗琪,李建明,冯春宇.焊道间隔冷却时间对Inconel 625温度场的影响[J].兵器材料科学与工程,2020,43(6):90-94. 被引量：2

引证文献2

1徐超,吴丹琪,陈勇,雷锦涛.一种基于上界值剪枝的用户敏感top-k dominating查询方法[J].计算机应用研究,2023,40(1):198-203.
2王强,周金宇,金超武.基于AP聚类的时序数据缺失值有序填充算法[J].计算机仿真,2024,41(8):521-525.

1高明强.L115机道安全距离确定与边坡稳定性研究[J].露天采矿技术,2021,36(3):19-21. 被引量：1

大连理工大学学报

2021年第4期

浏览历史

内容加载中请稍等...

基于最近邻区间的不完整基因表达数据多目标聚类算法被引量：2

参考文献2

二级参考文献71

共引文献65

同被引文献15

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于最近邻区间的不完整基因表达数据多目标聚类算法 被引量：2

参考文献2

二级参考文献71

共引文献65

同被引文献15

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于最近邻区间的不完整基因表达数据多目标聚类算法被引量：2