基于生成对抗网络的基因数据生成方法被引量：5

Gene data generation method based on generative adversarial network

下载PDF

导出

摘要在深度学习中,随着卷积神经网络(CNN)的深度不断增加,进行神经网络训练所需的数据会越来越多,但基因结构变异在大规模基因数据中属于小样本事件,导致变异基因的图像数据十分匮乏,严重影响了CNN的训练效果,造成了基因结构变异检测精度差、假阳性率高等问题。为增加基因结构变异样本数量,提高CNN识别基因结构变异的精度,提出了一种基于生成对抗网络(GAN)进行基因图像数据扩增的方法——GeneGAN。首先,利用Reads堆叠方法生成初始基因图像数据,将变异基因图像数据与非变异基因图像数据分为两个数据集;然后,为了平衡正负样本数据集,使用GeneGAN对变异图像样本进行扩充;最后,通过CNN对平衡前后数据集进行检测,并对精确率、召回率与F1值进行对比。实验结果显示,与传统扩增方法、生成对抗网络扩增方法、特征提取方法相比,GeneGAN对基因结构变异检测的F1值提升了1.94~17.46个百分点,说明使用GeneGAN进行基因数据生成能够有效提高使用CNN进行基因图像分类的精确率。 In deep learning,as the depth of Convolutional Neural Network(CNN)increases,more and more data is required for neural network training,but gene structure variation is a small sample event in large-scale genetic data,resulting in a very shortage of image data of variant genes,which seriously affects the training effect of CNN and causes the problems of poor gene structure variation detection precision and high false positive rate.In order to increase the number of gene structure variation samples and improve the precision of CNN to identify gene structure variation,a gene image data augmentation method was proposed based on GAN(Generative Adversarial Network),namely GeneGAN.Firstly,initial genetic image data was generated by using the Reads stacking method and it was divided into two datasets including variant gene images and non-variant gene images.Secondly,GeneGAN was used to augment the variant image samples to balance the positive and negative datasets.Finally,CNN was used to detect the datasets before and after augmentation,and precision,recall and F1 score were used as measurement indicators.Experimental results show that compared with tradional augmentation method,GAN based augmentation method and feature extraction method,the F1 score of GeneGAN is improved by 1.94 to 17.46 percentage points,verifying that GeneGAN method can improve the precision of CNN to identify gene structure variation.

作者曹一珉蔡磊高敬阳 CAO Yimin;CAI Lei;GAO Jingyang(College of Information Science and Technology,Beijing University of Chemical Technology,Beijing 100029,China)

机构地区北京化工大学信息科学与技术学院

出处《计算机应用》 CSCD 北大核心 2022年第3期783-790,共8页 journal of Computer Applications

基金北京市自然科学基金资助项目(5182018)。

关键词生成对抗网络残差学习基因图像卷积神经网络数据增强 Generative Adversarial Network(GAN) residual learning gene image Convolution Neural Network(CNN) data augmentation

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1曹仰杰,贾丽丽,陈永霞,林楠,李学相.生成式对抗网络及其计算机视觉应用研究综述[J].中国图象图形学报,2018,23(10):1433-1449. 被引量：68
2邹秀芳,朱定局.生成对抗网络研究综述[J].计算机系统应用,2019,28(11):1-9. 被引量：25
3柴梦婷,朱远平.生成式对抗网络研究与应用进展[J].计算机工程,2019,45(9):222-234. 被引量：14
4林懿伦,戴星原,李力,王晓,王飞跃.人工智能研究的新前线：生成式对抗网络[J].自动化学报,2018,44(5):775-792. 被引量：83

二级参考文献3

1王坤峰,苟超,段艳杰,林懿伦,郑心湖,王飞跃.生成式对抗网络GAN的研究进展与展望[J].自动化学报,2017,43(3):321-332. 被引量：321
2孔德江,汤斯亮,吴飞.时空嵌入式生成对抗网络的地点预测方法[J].模式识别与人工智能,2018,31(1):49-60. 被引量：10
3姚乃明,郭清沛,乔逢春,陈辉,王宏安.基于生成式对抗网络的鲁棒人脸表情识别[J].自动化学报,2018,44(5):865-877. 被引量：45

共引文献179

1卫星,杨国强,李佳,陆阳,石雷.结合多尺度条件生成对抗网络的井下轨道检测[J].中国图象图形学报,2020,25(2):282-293. 被引量：2
2熊伟,高娟娟,刘锴.基于GAN模型优化的神经机器翻译[J].计算机系统应用,2022,31(12):95-103. 被引量：3
3罗国强,梁奂晖,方斌.计算机视觉结构组成分析与应用途径研究[J].计算机产品与流通,2020,0(3):13-13.
4曾瑞,张海翔,马汉杰,蒋明峰,冯杰.基于图卷积的手势骨架生成[J].智能计算机与应用,2021,11(10):33-37.
5M.Beitelschmidt,张志奋,李毓陵.织造过程中织物和经纱张力的模拟[J].国际纺织导报,2000,28(1):35-39. 被引量：4
6周恒刚.咱也谈谈新工艺白酒[J].酿酒科技,2000(3):23-24. 被引量：3
7程乐峰,余涛,张孝顺,殷林飞.机器学习在能源与电力系统领域的应用和展望[J].电力系统自动化,2019,43(1):15-31. 被引量：118
8冯杰,班彪华.生成对抗网络模型的基本介绍和应用综述[J].现代计算机,2019,25(4):34-39. 被引量：4
9王一帏.深度学习分类网络研究及其在计算机视觉中的应用[J].通讯世界,2019,26(3):195-196. 被引量：7
10漆昇翔,裘旭益,张伟.卷积神经网络及其在航空视觉任务中的应用展望[J].航空电子技术,2019,50(1):6-14.

同被引文献31

1李乐义,邵东东,丁向东,张勤.SNP芯片基因型填充至测序数据的策略[J].中国科技论文,2016,11(12):1431-1436. 被引量：3
2王万良,李卓蓉.生成式对抗网络研究进展[J].通信学报,2018,39(2):135-148. 被引量：67
3李辰政,张小俊,朱海涛,张明路.基于迁移学习的危险行为识别方法研究[J].科学技术与工程,2019,19(16):187-192. 被引量：11
4孙晓,丁小龙.基于生成对抗网络的人脸表情数据增强方法[J].计算机工程与应用,2020,56(4):115-121. 被引量：25
5刘航,李扬,袁浩期,王俊影.基于生成对抗网络的语音信号分离[J].计算机工程,2020,46(1):302-308. 被引量：6
6刘坤,文熙,黄闽茗,杨欣欣,毛经坤.基于生成对抗网络的太阳能电池缺陷增强方法[J].浙江大学学报（工学版）,2020,54(4):684-693. 被引量：5
7胡麟苗,张湧.基于生成对抗网络的短波红外-可见光人脸图像翻译[J].光学学报,2020,40(5):69-78. 被引量：16
8郭玥秀,杨伟,刘琦,王玉.残差网络研究综述[J].计算机应用研究,2020,37(5):1292-1297. 被引量：66
9胡年宗,伍世虔,张亦明.基于卷积神经网络的SLAM回环检测算法研究[J].计算机仿真,2020,37(5):282-286. 被引量：6
10陈雷,袁媛.基于深度迁移学习的农业病害图像识别[J].数据与计算发展前沿,2020,2(2):111-119. 被引量：8

引证文献5

1蔡引江,许光俊,马喜波.图结构表示下的药物数据增强方法[J].计算机应用,2023,43(4):1136-1141.
2祝俊辉,周贤勇,徐明升,王圆,侯津津,赵昕宇,陈琳.改进DCGAN数据增强的番茄叶子病害图像识别[J].无线电工程,2023,53(6):1235-1241. 被引量：2
3胡嘉欣,田军.基于生成对抗网络的数字音频信号多声道增强方法[J].现代电子技术,2023,46(19):41-44. 被引量：1
4陈炯环,鲍胜利,王啸飞,李若凡.融合卷积与自注意力机制的基因型填补算法[J].计算机应用,2023,43(11):3534-3539.
5张永梅,齐昊宇,郭奥.基于WGAN和多头注意力机制的学生数据生成模型[J].北方工业大学学报,2024,36(1):76-83.

二级引证文献3

1武田甜,李静.噪声环境中的双声道音频回波抵消模型构建[J].现代电子技术,2023,46(24):24-28.
2张子豪,赵德春,王子琼,韦莉.基于样本增强的帕金森病识别算法研究[J].生物医学工程学杂志,2024,41(1):17-25.
3刘天锴,方睿,石兴,魏袁慧.改进DCGAN数据增强的生活垃圾图像识别[J].软件导刊,2024,23(7):174-180.

1王清华.邦达尔科功能语法理论视域下的话语分析维度与方法[J].外语研究,2021,38(3):14-18.
2薛灵芝,杨爽,王巧霞.一种基于改进深度自编码网络的水声目标识别方法[J].自动化与仪器仪表,2022(1):30-34. 被引量：2
3张欣,王红星,陈玉权,黄郑,沈杰,高小伟.基于改进Cascade R-CNN算法的多类型绝缘子缺陷图像联合检测[J].电瓷避雷器,2022(1):189-196. 被引量：6
4范文洁,陈象逊,周梦熙,罗薇薇,杨林.基于数据挖掘分析RASAL2在胃癌中的表达及其临床意义[J].安徽医学,2021,42(10):1118-1122. 被引量：2
5包云超,周全,孔令军,王茜雯.基于行列信息门的表格结构识别网络[J].无线电工程,2022,52(3):463-469. 被引量：2
6韩东锦,陈长征.基于JSO-VMD的滚动轴承故障特征提取方法[J].起重运输机械,2022(5):20-24.
7刘芳.基于YOLOV5的柑橘果实目标检测研究[J].信息与电脑,2022,34(2):152-154. 被引量：5
8王方伟,柴国芳,李青茹,王长广.基于参数优化元学习和困难样本挖掘的小样本恶意软件分类方法[J].武汉大学学报（理学版）,2022,68(1):17-25. 被引量：5
9陈仲磊,伊鹏,陈祥,雷靖玮,孙重鑫.基于系统调用的入侵检测技术研究[J].网络安全技术与应用,2022(3):1-6. 被引量：4
10沈文霞,曾艳,张锡纲,徐金亮.COL2A1基因新发现的变异致先天性脊柱骨骺发育不良1例[J].中国优生与遗传杂志,2021,29(12):1767-1769.

计算机应用

2022年第3期

浏览历史

内容加载中请稍等...

基于生成对抗网络的基因数据生成方法被引量：5

参考文献4

二级参考文献3

共引文献179

同被引文献31

引证文献5

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于生成对抗网络的基因数据生成方法 被引量：5

参考文献4

二级参考文献3

共引文献179

同被引文献31

引证文献5

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于生成对抗网络的基因数据生成方法被引量：5