《计算机应用》唯一官方网站 ›› 2022, Vol. 42 ›› Issue (3): 783-790.DOI: 10.11772/j.issn.1001-9081.2021040759
• 2021年中国计算机学会人工智能会议(CCFAI 2021) • 上一篇
收稿日期:
2021-05-12
修回日期:
2021-06-03
接受日期:
2021-06-09
发布日期:
2021-11-09
出版日期:
2022-03-10
通讯作者:
高敬阳
作者简介:
曹一珉(1997—),男,河南信阳人,硕士研究生,主要研究方向:生物信息学、深度学习、数据挖掘基金资助:
Yimin CAO, Lei CAI, Jingyang GAO()
Received:
2021-05-12
Revised:
2021-06-03
Accepted:
2021-06-09
Online:
2021-11-09
Published:
2022-03-10
Contact:
Jingyang GAO
About author:
CAO Yimin, born in 1997, M. S. candidate. His research interests include bioinformatics, deep learning, data mining.Supported by:
摘要:
在深度学习中,随着卷积神经网络(CNN)的深度不断增加,进行神经网络训练所需的数据会越来越多,但基因结构变异在大规模基因数据中属于小样本事件,导致变异基因的图像数据十分匮乏,严重影响了CNN的训练效果,造成了基因结构变异检测精度差、假阳性率高等问题。为增加基因结构变异样本数量,提高CNN识别基因结构变异的精度,提出了一种基于生成对抗网络(GAN)进行基因图像数据扩增的方法——GeneGAN。首先,利用Reads堆叠方法生成初始基因图像数据,将变异基因图像数据与非变异基因图像数据分为两个数据集;然后,为了平衡正负样本数据集,使用GeneGAN对变异图像样本进行扩充;最后,通过CNN对平衡前后数据集进行检测,并对精确率、召回率与F1值进行对比。实验结果显示,与传统扩增方法、生成对抗网络扩增方法、特征提取方法相比,GeneGAN对基因结构变异检测的F1值提升了1.94~17.46个百分点,说明使用GeneGAN进行基因数据生成能够有效提高使用CNN进行基因图像分类的精确率。
中图分类号:
曹一珉, 蔡磊, 高敬阳. 基于生成对抗网络的基因数据生成方法[J]. 计算机应用, 2022, 42(3): 783-790.
Yimin CAO, Lei CAI, Jingyang GAO. Gene data generation method based on generative adversarial network[J]. Journal of Computer Applications, 2022, 42(3): 783-790.
像素点 颜色 | 匹配 模式 | 是否 缺失 | 像素点 颜色 | 匹配 模式 | 是否 缺失 |
---|---|---|---|---|---|
红色 | 缺失 | 是 | 蓝色 | 软切 | 否 |
黑色 | 插入 | 否 | 绿色 | 正常 | 否 |
表1 基因图像中四种像素点颜色所代表的意义
Tab. 1 Significance of four pixel colors in gene image
像素点 颜色 | 匹配 模式 | 是否 缺失 | 像素点 颜色 | 匹配 模式 | 是否 缺失 |
---|---|---|---|---|---|
红色 | 缺失 | 是 | 蓝色 | 软切 | 否 |
黑色 | 插入 | 否 | 绿色 | 正常 | 否 |
网络 | 学习率 | 优化器 | Batch_size |
---|---|---|---|
GeneGAN | 0.000 1 | Adam | 64 |
CNN | 1E-8 | SGD | 64 |
表2 网络结构参数
Tab. 2 Network structure parameters
网络 | 学习率 | 优化器 | Batch_size |
---|---|---|---|
GeneGAN | 0.000 1 | Adam | 64 |
CNN | 1E-8 | SGD | 64 |
正负样本比例 | 精确率 | 召回率 | F1值 |
---|---|---|---|
1∶100 | 46.70 | 61.28 | 53.01 |
1∶50 | 47.31 | 65.73 | 55.02 |
1∶25 | 49.17 | 69.13 | 57.46 |
表3 不同正负样本比例的原始数据实验结果 ( %)
Tab. 3 Experimental results of raw data with different proportions of positive and negative samples
正负样本比例 | 精确率 | 召回率 | F1值 |
---|---|---|---|
1∶100 | 46.70 | 61.28 | 53.01 |
1∶50 | 47.31 | 65.73 | 55.02 |
1∶25 | 49.17 | 69.13 | 57.46 |
正负样本比例 | 精确率 | 召回率 | F1值 |
---|---|---|---|
1∶15 | 49.91 | 70.26 | 58.36 |
1∶1 | 50.43 | 72.44 | 59.46 |
表4 不同正负样本比例的传统扩增数据实验结果 (%)
Tab. 4 Experimental results of traditional amplification data with different proportions of positive and negative samples
正负样本比例 | 精确率 | 召回率 | F1值 |
---|---|---|---|
1∶15 | 49.91 | 70.26 | 58.36 |
1∶1 | 50.43 | 72.44 | 59.46 |
正负样本比例 | 精确率 | 召回率 | F1值 |
---|---|---|---|
1∶15 | 50.73 | 71.62 | 59.39 |
1∶1 | 53.17 | 78.31 | 63.33 |
表5 不同正负样本比例的原始GAN扩增数据实验结果 (%)
Tab. 5 Experimental results of original GAN extended data with different proportions of positive and negative samples
正负样本比例 | 精确率 | 召回率 | F1值 |
---|---|---|---|
1∶15 | 50.73 | 71.62 | 59.39 |
1∶1 | 53.17 | 78.31 | 63.33 |
数据 | 正负样本比例 | Precision/% | Recall/% | F1/% | 耗时 /min |
---|---|---|---|---|---|
原始数据 | 1∶25 | 49.17 | 69.13 | 57.46 | 152.1 |
GAN扩增数据 | 1∶15 | 50.73 | 71.62 | 59.39 | 154.4 |
DCGAN扩增数据 | 51.44 | 73.69 | 60.58 | 150.8 | |
WGAN-GP扩增数据 | 51.06 | 72.14 | 59.79 | 151.7 | |
GeneGAN扩增数据 | 51.84 | 75.81 | 61.57 | 152.4 | |
GAN扩增数据 | 1∶1 | 53.17 | 78.31 | 63.34 | 147.8 |
DCGAN扩增数据 | 53.91 | 79.82 | 64.35 | 142.1 | |
WGAN-GP扩增数据 | 53.62 | 79.91 | 64.18 | 143.5 | |
GeneGAN扩增数据 | 55.28 | 82.78 | 66.29 | 144.5 |
表6 不同正负样本比例的四种GAN扩增数据实验结果
Tab. 6 Experimental results of four kinds of GAN amplification data with different proportions of positive and negative samples
数据 | 正负样本比例 | Precision/% | Recall/% | F1/% | 耗时 /min |
---|---|---|---|---|---|
原始数据 | 1∶25 | 49.17 | 69.13 | 57.46 | 152.1 |
GAN扩增数据 | 1∶15 | 50.73 | 71.62 | 59.39 | 154.4 |
DCGAN扩增数据 | 51.44 | 73.69 | 60.58 | 150.8 | |
WGAN-GP扩增数据 | 51.06 | 72.14 | 59.79 | 151.7 | |
GeneGAN扩增数据 | 51.84 | 75.81 | 61.57 | 152.4 | |
GAN扩增数据 | 1∶1 | 53.17 | 78.31 | 63.34 | 147.8 |
DCGAN扩增数据 | 53.91 | 79.82 | 64.35 | 142.1 | |
WGAN-GP扩增数据 | 53.62 | 79.91 | 64.18 | 143.5 | |
GeneGAN扩增数据 | 55.28 | 82.78 | 66.29 | 144.5 |
方法 | Precision | Recall | F1 |
---|---|---|---|
SVIM | 49.20 | 81.79 | 61.44 |
Sniffles | 54.39 | 77.86 | 64.05 |
Pbhoney | 59.18 | 41.56 | 48.83 |
GeneGAN | 55.28 | 82.78 | 66.29 |
表7 各特征提取方法的实验结果对比 ( %)
Tab. 7 Experimental results comparison of different feature extraction methods
方法 | Precision | Recall | F1 |
---|---|---|---|
SVIM | 49.20 | 81.79 | 61.44 |
Sniffles | 54.39 | 77.86 | 64.05 |
Pbhoney | 59.18 | 41.56 | 48.83 |
GeneGAN | 55.28 | 82.78 | 66.29 |
1 | MICHAEL R S, CAMPBELL P J, FUTREAL P A. The cancer genome[J]. Nature, 2009, 458(7239): 719-724. 10.1038/nature07943 |
2 | PAK C H, DANKO T, ZHANG Y, et al. Human neuropsychiatric disease modeling using conditional deletion reveals synaptic transmission defects caused by heterozygous mutations in NRXN1[J]. Cell Stem Cell, 2015, 17(3): 316-328. 10.1016/j.stem.2015.07.017 |
3 | International Human Genome Sequencing Consortium. Finishing the euchromatic sequence of the human genome[J]. Nature, 2004, 431(7011): 931. 10.1038/nature03001 |
4 | KALINSKY K, HEGUY A, BHANOT U K, et al. PIK3CA mutations rarely demonstrate genotypic intratumoral heterogeneity and are selected for in breast cancer progression[J]. Breast Cancer Research and Treatment, 2011, 129(2): 635. 10.1007/s10549-011-1601-4 |
5 | EMILE J F, DIAMOND E L, HÉLIAS-RODZEWICZ Z, et al. Recurrent RAS and PIK3CA mutations in Erdheim-Chester disease[J]. Blood: The Journal of the American Society of Hematology, 2014, 124(19): 3016-3019. 10.1182/blood-2014-04-570937 |
6 | MOLEY J F, BROTHER M B, WELLS S A, et al. Low frequency of ras gene mutations in neuroblastomas, pheochromocytomas, and medullary thyroid cancers[J]. Cancer Research, 1991, 51(6): 1596-1599. 10.1002/1097-0142(19910315)67:6<1713::AID-CNCR2820670639>3.0.CO; |
7 | BAKER S J, PREISINGER A C, JESSUP J M, et al. p53 gene mutations occur in combination with 17p allelic deletions as late events in colorectal tumorigenesis[J]. Cancer Research, 1990, 50(23): 7717-7722. |
8 | SETIO A A A, CIOMPI F, LITJENS G, et al. Pulmonary nodule detection in CT images: false positive reduction using multi-view convolutional networks[J]. IEEE Transactions on Medical Imaging, 2016, 35(5): 1160-1169. 10.1109/tmi.2016.2536809 |
9 | ALDOJ N, LUKAS S, DEWEY M, et al. Semi-automatic classification of prostate cancer on multi-parametric MR imaging using a multi-channel 3D convolutional neural network[J]. European Radiology, 2020, 30(2): 1243-1253. 10.1007/s00330-019-06417-z |
10 | GOODFELLOW I J, POUGET ABADIE J, MIRZA M, et al. Generative adversarial networks [EB/OL]. [2020-12-19]. . 10.1145/3422622 |
11 | WOLTERINK J M, DINKLA A M, SAVENIJE M H F, et al. Deep MR to CT synthesis using unpaired data[C]// Proceedings of the 2017 International Workshop on Simulation and Synthesis in Medical Imaging. Cham: Springer, 2017: 14-23. 10.1007/978-3-319-68127-6_2 |
12 | CALIMERI F, MARZULLO A, STAMILE C, et al. Biomedical data augmentation using generative adversarial neural networks[C]// Proceedings of the 2017 International Conference on Artificial Neural Networks. Cham: Springer, 2017: 626-634. 10.1007/978-3-319-68612-7_71 |
13 | CAI L, WU Y, GAO J. DeepSV: accurate calling of genomic deletions from high-throughput sequencing data using deep convolutional neural network[J]. BMC Bioinformatics, 2019, 20(1): 665. 10.1186/s12859-019-3299-y |
14 | POPLIN R, CHANG P C, ALEXANDER D, et al. A universal SNP and small-indel variant caller using deep neural networks[J]. Nature Biotechnology, 2018, 36(10): 983-987. 10.1038/nbt.4235 |
15 | RADFORD A, METZ L, CHINTALA S. Unsupervised representation learning with deep convolutional generative adversarial networks [EB/OL]. [2020-12-19]. . |
16 | GOODFELLOW I J, POUGET ABADIE J, MIRZA M, et al. Generative adversarial networks [EB/OL]. [2020-12-19]. . 10.1145/3422622 |
17 | RATLIFF L J, BURDEN S A, SASTRY S S. Characterization and computation of local Nash equilibria in continuous games[C]// Proceedings of the 2013 51st Annual Allerton Conference on Communication, Control, and Computing. Piscataway: IEEE, 2013: 917-924. 10.1109/allerton.2013.6736623 |
18 | GOODFELLOW I. NIPS 2016 tutorial: generative adversarial networks [EB/OL]. [2020-12-19]. . |
19 | 曹仰杰, 贾丽丽, 陈永霞, 等. 生成式对抗网络及其计算机视觉应用研究综述[J]. 中国图象图形学报, 2018, 23(10): 1433-1449. 10.11834/jig.180103 |
CAO Y J, JIA L L, CHEN Y X,et al. Review of computer vision based on generative adversarial networks[J]. Journal of Image and Graphics,2018, 23(10):1433-1449. 10.11834/jig.180103 | |
20 | ARJOVSKY M, CHINTALA S, BOTTOU L. Wasserstein GAN [EB/OL]. [2020-12-19]. . |
21 | ARJOVSKY M, BOTTOU L. Towards principled methods for training generative adversarial networks [EB/OL]. [2020-12-19]. . |
22 | 邹秀芳, 朱定局. 生成对抗网络研究综述[J]. 计算机系统应用, 2019, 28(11): 1-9. |
ZOU X F, ZHU D J. Review on generative adversarial network[J]. Computer Systems & Applications, 2019, 28(11): 1-9. | |
23 | 柴梦婷, 朱远平. 生成式对抗网络研究与应用进展[J]. 计算机工程, 2019, 45(9): 222-234. 10.19678/j.issn.1000-3428.0051964 |
CHAI M T, ZHU Y P. Research and application progress of generative countermeasure network[J] Computer Engineering, 2019, 45(9): 222-234. 10.19678/j.issn.1000-3428.0051964 | |
24 | GULRAJANI I, AHMED F, ARJOVSKY M, et al. Improved training of Wasserstein GANs [EB/OL]. [2020-12-19]. . |
25 | 林懿伦, 戴星原, 李力, 等. 人工智能研究的新前线: 生成式对抗网络[J]. 自动化学报, 2018, 44(5): 775-792. 10.16383/j.aas.2018.y000002 |
LIN Y L, DAI X Y, LI L, et al. The new frontier of ai research: generative adversarial networks[J]. Acta Automatica Sinica, 2018, 44(5): 775-792. 10.16383/j.aas.2018.y000002 | |
26 | HELLER D, VINGRON M. SVIM: structural variant identification using mapped long reads[J]. Bioinformatics, 2019, 35(17): 2907-2915. 10.1093/bioinformatics/btz041 |
27 | SEDLAZECK F J, RESCHENEDER P, SMOLKA M, et al. Accurate detection of complex structural variations using single-molecule sequencing[J]. Nature Methods, 2018, 15(6): 461-468. 10.1038/s41592-018-0001-7 |
28 | ENGLISH A C, SALERNO W J, REID J G. PBHoney: identifying genomic variants via long-read discordance and interrupted mapping[J]. BMC Bioinformatics, 2014, 15(1): 1-7. 10.1186/1471-2105-15-180 |
[1] | 杨鼎康, 黄帅, 王顺利, 翟鹏, 李一丹, 张立华. 基于生成对抗网络和网络集成的面部表情识别方法EE-GAN[J]. 《计算机应用》唯一官方网站, 2022, 42(3): 750-756. |
[2] | 黄勇康, 梁美玉, 王笑笑, 陈徵, 曹晓雯. 基于深度时空残差卷积神经网络的课堂教学视频中多人课堂行为识别[J]. 《计算机应用》唯一官方网站, 2022, 42(3): 736-742. |
[3] | 张璐, 方春, 祝铭. 基于Res2Net-YOLACT和融合特征的室内跌倒检测算法[J]. 《计算机应用》唯一官方网站, 2022, 42(3): 757-763. |
[4] | 潘仁志, 钱付兰, 赵姝, 张燕平. 基于卷积神经网络交互的用户属性偏好建模的推荐模型[J]. 《计算机应用》唯一官方网站, 2022, 42(2): 404-411. |
[5] | 富坤, 高金辉, 赵晓梦, 李佳宁. 融合全局结构信息的拓扑优化图卷积网络[J]. 《计算机应用》唯一官方网站, 2022, 42(2): 357-364. |
[6] | 李薇, 樊瑶驰, 江巧永, 王磊, 徐庆征. 基于教与学优化的可变卷积自编码器的医学图像分类方法[J]. 《计算机应用》唯一官方网站, 2022, 42(2): 592-598. |
[7] | 陈薪羽, 刘明哲, 任俊, 汤影. 基于多列卷积神经网络的参数异步更新算法[J]. 《计算机应用》唯一官方网站, 2022, 42(2): 395-403. |
[8] | 邓爽, 何小海, 卿粼波, 陈洪刚, 滕奇志. 基于改进VGG网络的弱监督细粒度阿尔兹海默症分类方法[J]. 《计算机应用》唯一官方网站, 2022, 42(1): 302-309. |
[9] | 李建明, 陈斌, 江志伟, 覃健. 优化搜索空间下带约束的可微分神经网络架构搜索[J]. 《计算机应用》唯一官方网站, 2022, 42(1): 44-49. |
[10] | 许慧青, 陈斌, 王敬飞, 陈志毅, 覃健. 基于卷积神经网络的细长路面病害检测方法[J]. 《计算机应用》唯一官方网站, 2022, 42(1): 265-272. |
[11] | 包银鑫, 曹阳, 施佺. 基于改进时空残差卷积神经网络的城市路网短时交通流预测[J]. 《计算机应用》唯一官方网站, 2022, 42(1): 258-264. |
[12] | 李恒鑫, 常侃, 谭宇飞, 凌铭阳, 覃团发. 应用通道间相关性及增强信息蒸馏的彩色图像去马赛克网络[J]. 《计算机应用》唯一官方网站, 2022, 42(1): 245-251. |
[13] | 王贺兵, 张春梅. 基于非对称卷积-压缩激发-次代残差网络的人脸关键点检测[J]. 计算机应用, 2021, 41(9): 2741-2747. |
[14] | 李康康, 张静. 基于注意力机制的多层次编码和解码的图像描述模型[J]. 计算机应用, 2021, 41(9): 2504-2509. |
[15] | 张永斌, 常文欣, 孙连山, 张航. 基于字典的域名生成算法生成域名的检测方法[J]. 计算机应用, 2021, 41(9): 2609-2614. |
阅读次数 | ||||||
全文 |
|
|||||
摘要 |
|
|||||