融合堆叠自编码神经网络算法和全连接神经网络算法的化合物成药性预测模型被引量：3

Prediction model of the probability of a lead compound becoming a drug based on Stacked AutoEncoder and Fully Connected Neural Network

原文传递

导出

摘要目的:基于深度学习方法建立更加稳定、可靠、高实用性的化合物成药性预测模型。方法:通过Integrity, Chembl和DrugBank这3个数据库收集正、负样本数据,对正负样本大数据集进行数据清洗、解决数据不平衡问题之后,进一步对化合物的简化分子线性输入规范(SMILES)码进行标准化编码,在此基础上基于堆叠自编码神经网络算法(Stacked AutoEncoder, SAE)以及全连接神经网络算法(Fully Connected Neural Network, FCNN)构建并训练深度神经网络模型,对化合物进行特征提取,预测化合物的成药性。结果:模型最终稳定收敛,在验证集上准确率(ACC)和曲线下面积(AUC)分别达到0.995 3和0.992 7,较之前文献报道的基于机器学习的模型提高了约3%的预测精度。结论:基于大数据集和深度神经网络技术构建的化合物成药性预测模型具备一定的实用性,可以提高化合物成药性预测的精准度。 Objective: To build a more stable, reliable and practical model for the probability prediction of a lead compound becoming a drug based on the deep learning method. Methods: The positive and negative sample data sets were collected from Iintegrity, Chembl and Drugbank databases firstly. After cleaning the large data set of positive and negative samples and solving the problem of data imbalance, the compounds’ SMILES were further encoded. Then, Stacked AutoEncoder(SAE) and Fully Connected Neural Network(FCNN) were used to construct and train the deep neural network model to extract the features of the compounds and predict the probability of a lead compound becoming a drug. Results: The model finally converged stably, the ACC value and AUC value reached 0.995 3 and 0.992 9 respectively on the validation set, which improved the prediction accuracy by about 3% compared with the previously reported model based on machine learning. Conclusion: The prediction model based on large data set and deep neural network technology has certain practicability, and can improve the accuracy of the probability prediction of a lead compound becoming a drug.

作者潘蕾倪冰苇赵鸿萍 PAN Lei;NI Bing-wei;ZHAO Hong-ping(School of Science,China Pharmaceutical University,Nanjing 211198,China)

机构地区中国药科大学理学院

出处《中国新药杂志》 CAS CSCD 北大核心 2021年第14期1309-1315,共7页 Chinese Journal of New Drugs

基金国家自然科学基金面上项目(81973512) 中国药科大学校级教学改革研究课题重点项目(3050050188)。

关键词堆叠自编码神经网络全连接神经网络深度学习 SMILES码成药性预测 Stacked AutoEncoder Fully Connected Neural Network deep learning SMILES probability prediction of a lead compound becoming a drug

分类号 R95 [医药卫生—药学]

引文网络
相关文献

参考文献2

1许煌,许晓双,高英,曹依菁,黄险峰,孔韧,宋国强.以PDE2为靶标的抑制剂药物高通量筛选模型的建立[J].中国新药杂志,2020(10):1175-1180. 被引量：1
2赵广军,王旭初,牛彦敏,谭立文,张绍祥.基于SAE深度特征学习的数字人脑切片图像分割[J].计算机辅助设计与图形学学报,2016,28(8):1297-1305. 被引量：6

二级参考文献8

1陈允杰,王顺凤,王利,汤杨,韦志辉,王平安,夏德深.基于各向异性Gibbs随机场与高斯混合模型的脑MR图像分割算法[J].计算机辅助设计与图形学学报,2007,19(12):1558-1563. 被引量：7
2陈允杰,张建伟,王利,王平安,夏德深.基于改进的Mean Shift算法虚拟人脑图像分割[J].计算机辅助设计与图形学学报,2008,20(1):55-60. 被引量：10
3王利,陈允杰,韦志辉,夏德深,王平安.克服灰度不均匀性的脑MR图像分割模型[J].计算机辅助设计与图形学学报,2009,21(11):1624-1631. 被引量：17
4郑枫,刘文英,吴峥.高通量药物筛选现代检测技术研究进展[J].中国科学：化学,2010,40(6):599-610. 被引量：4
5刘小明,喻杰,刘俊,梅明.改进K均值与模糊置信度的脑部MRI分割[J].计算机工程与设计,2015,36(3):710-715. 被引量：3
6王友升,王胜杰,马国为.第二信使环腺苷酸和环鸟苷酸检测方法研究进展[J].食品科学技术学报,2017,35(6):48-54. 被引量：4
7许晓双,张大为.以HIV-1 IN-LEDGF/p75相互作用为靶点的抑制剂筛选[J].中国医药生物技术,2018,13(6):493-499. 被引量：2
8何姝,陈春艳,胡小蕾,杨晓兰.基于人磷酸二酯酶4B2高通量筛选异香兰酸芳酰胺抑制剂[J].基因组学与应用生物学,2016,35(7):1552-1557. 被引量：1

共引文献5

1单祖辉.二维动画人物的特征提取与三维重建[J].沈阳大学学报（自然科学版）,2018,30(2):136-141. 被引量：2
2李琦,于明伟.长短时记忆网络在热力站建模中的应用[J].计算机工程与应用,2018,54(24):227-233. 被引量：5
3王旭初,牛彦敏,赵广军,谭立文,张绍祥.融合候选区域提取与SSAE深度特征学习的心脏MR图像左心室检测[J].计算机辅助设计与图形学学报,2018,30(3):424-435. 被引量：4
4毛君,郭浩,陈洪月.基于深度自编码网络的采煤机截割部减速器故障诊断[J].煤炭科学技术,2019,47(11):123-128. 被引量：17
5袁向兵.深度学习神经网络在电潜泵井口排量预测与工况诊断中的应用[J].新型工业化,2019,9(1):80-86. 被引量：3

同被引文献29

1孟琭,高恒上,张含光,刘阳.基于全连接神经网络的三维人体姿态估计[J].仪器仪表学报,2020(10):165-177. 被引量：9
2姚君厘,杨永年,郁以红,黄绥仁.Ⅱ型糖尿病HbA_1c与神经传导速度关系探讨[J].中华内分泌代谢杂志,1994,10(4):232-233. 被引量：13
3王国胤,张清华,胡军.粒计算研究综述[J].智能系统学报,2007,2(6):8-26. 被引量：112
4胡清华,于达仁,谢宗霞.基于邻域粒化和粗糙逼近的数值属性约简[J].软件学报,2008,19(3):640-649. 被引量：293
5桑袆莹,黄仕鑫,易静,曾庆,罗亚玲.基于随机森林和误差反向传播神经网络的糖尿病性周围神经病变患病风险研究[J].解放军医学杂志,2018,43(10):877-881. 被引量：7
6王艳萍,焦敬义,井立强,王健,陈洪林,孙景和.医院临床决策知识库系统的设计与应用[J].中国卫生信息管理杂志,2018,15(1):74-77. 被引量：11
7蔺素珍,韩泽.基于深度堆叠卷积神经网络的图像融合[J].计算机学报,2017,40(11):2506-2518. 被引量：35
8宋晓茹,吴雪,高嵩,陈超波.基于深度神经网络的手写数字识别模拟研究[J].科学技术与工程,2019,19(5):193-196. 被引量：25
9李桃,郑西川,蒋伏松.基于知识库的临床决策支持系统的设计与应用[J].医疗卫生装备,2019,40(5):29-32. 被引量：24
10刘康,肖娜.基于堆叠稀疏自编码神经网络的航空发动机剩余寿命预测方法研究[J].计算机测量与控制,2019,27(12):29-33. 被引量：6

引证文献3

1傅兴宇,陈颖悦,陈玉明,江海亮,黄涛.一种全连接粒神经网络分类方法[J].山西大学学报（自然科学版）,2023,46(1):91-100. 被引量：2
2刘玉良,丁永川,郭宇佳,赵耕,杨伟明.基于Co-LSTM-FC网络的糖尿病伴周围神经病变临床决策支持系统研究[J].中国医学物理学杂志,2023,40(9):1174-1181. 被引量：2
3查帅.基于堆叠自编码网络与全连接层网络的手写数字识别算法的研究[J].理论数学,2023,13(2):182-188.

二级引证文献4

1侯贤宇,陈玉明,吴克寿.多采样近似粒集成学习[J].南京大学学报（自然科学版）,2024,60(1):118-129.
2温川飙,周力,赵煜,覃旭,慈宏福,谭坤,邓韧,许雅馨,闵新,徐鑫垚,黄朔.中西医结合临床决策支持系统的关键技术研究[J].中国数字医学,2024,19(5):33-39.
3郑晨颖,陈颖悦,侯贤宇,江连吉,廖亮.一种邻域粒的模糊C均值聚类算法[J].山东大学学报（理学版）,2024,59(5):35-44. 被引量：1
4陈佳,宋红霞,王梅杰,任云.临床决策支持系统在原发性肝癌患者围手术期护理中的应用[J].河南医学研究,2024,33(21):3995-3999.

1方世源,刘鹰,王孝霖,皇甫素伟.航天发射设备标准化编码体系设计[J].航空标准化与质量,2020(6):25-28. 被引量：1
2金晓航,许壮伟,孙毅,单继宏.基于SCADA数据分析和稀疏自编码神经网络的风电机组在线运行状态监测[J].太阳能学报,2021,42(6):321-328. 被引量：27
3黄鑫伟,韩筱璞,章剑林.基于商品编码信息的浙江省经济复杂性分析[J].杭州师范大学学报（自然科学版）,2020,19(5):464-471.
4孙鸿飞,王仲平.深层神经网络混合剪枝算法在COD软测量中的应用[J].皮革制作与环保科技,2021,2(13):167-168.
5王桢絮,胡静,顾莺,傅唯佳,沈伟杰.儿童中心静脉置管维护标准化知识库及决策支持方案构建[J].护理学杂志,2021,36(7):50-54. 被引量：8
6杨坤.清洗级联分离同位素的过程中沉积物物质分布的计算方法[J].同位素,2021,34(4):341-345. 被引量：1
7严春满,穆哲.一种改进的梯度加速Landweber算法及其在ECT图像重建中的应用[J].电子测量与仪器学报,2021,35(6):169-175. 被引量：8
8张晗,康国华,张琪,魏建宇,戴涧峰.时间与燃料约束的参数自主寻优变轨滑模控制[J].中国空间科学技术,2021,41(4):59-68. 被引量：1

中国新药杂志

2021年第14期

浏览历史

内容加载中请稍等...

融合堆叠自编码神经网络算法和全连接神经网络算法的化合物成药性预测模型被引量：3

参考文献2

二级参考文献8

共引文献5

同被引文献29

引证文献3

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

融合堆叠自编码神经网络算法和全连接神经网络算法的化合物成药性预测模型 被引量：3

参考文献2

二级参考文献8

共引文献5

同被引文献29

引证文献3

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

融合堆叠自编码神经网络算法和全连接神经网络算法的化合物成药性预测模型被引量：3