基于全血细胞计数的机器学习算法构建侵袭性乳腺癌预测模型

The Construction of an Invasive Breast Cancer Prediction Model Using Machine Learning Algorithms Based on Complete Blood Count Data

下载PDF

导出

摘要目的探讨利用实验室全血细胞计数(complete blood count, CBC)数据和机器学习算法构建侵袭性乳腺癌预测模型,并评价其临床应用价值。方法回顾性收集2014年1月至2022年6月来自北京市3家医院的15 979条患者数据,将其划分为训练集、验证集和测试集。应用递归特征消除法确定特征变量。使用支持向量机、随机森林、梯度提升树、逻辑回归和K最近邻5种机器学习算法构建模型。采用受试者工作特征曲线下面积(area under the receiver operating characteristic curve, AUC)、灵敏度、特异性和准确度4项指标及其95%置信区间(95%CI)评估模型性能。利用混淆矩阵图验证最佳模型的临床有效性。结果纳入AGE、EO%、RBC、NEUT#、MCH、MPV、PDW、EO#、RDW-CV和LYMPH#10个特征变量构建模型,随机森林模型性能表现最佳,在测试集中,AUC为0.923(95%CI 0.890~0.955),灵敏度为91.4%(95%CI 0.876~0.901),特异性为83.8%(95%CI 0.832~0.837),准确度为84.2%(95%CI 0.835~0.840)。经临床有效性验证的最佳模型准确度、灵敏度和特异性分别达到85.40%、72.97%和90.00%。结论利用CBC数据和机器学习算法构建的侵袭性乳腺癌预测模型具有高灵敏度和高特异性,作为一种便捷、高效的辅助工具,可以帮助医生早期识别具有侵袭性乳腺癌风险的患者。 Objective To develop a predictive model for invasive breast cancer using laboratory complete blood count(CBC)data and machine learning algorithms,and to assess its clinical application value.Methods A retrospective collection of 15979 patients’data from January,2014 to June,2022 from 3 hospitals in Beijing area was conducted and data was divided into training,validation,and test sets.Recursive feature elimination(RFE)technology was used to determine features.Five machine learning algorithms,including support vector machine(SVM),random forest(RF),gradient boosting tree(GBT),logistic regression(LR),and k-nearest neighbors(KNN),were employed to construct the model.Model performance was evaluated using four indicators:area under the receiver operating characteristic curve(AUC),sensitivity,specificity,and accuracy,as well as their 95%confidence intervals(95%CI).The clinical effectiveness of the optimal model was validated using a confusion matrix.Results Ten features,including AGE,EO%,RBC,NEUT#,MCH,MPV,PDW,EO#,RDW-CV,and LYMPH#,were included in the model.RF model showed the best performance.In the test set,the model exhibited an AUC of 0.923(95%CI 0.890-0.955),sensitivity of 91.4%(95%CI 0.876-0.901),specificity of 83.8%(95%CI 0.832-0.837),and accuracy of 84.2%(95%CI 0.835-0.840).With the clinical effectiveness validation,the optimal model showed accuracy,sensitivity,and specificity of 85.40%,72.97%,and 90.00%,respectively.Conclusion The invasive breast cancer prediction model based on CBC data and machine learning algorithms has a high sensitivity and specificity.As a convenient and efficient tool,it could facilitate clinicians to identify patients at risk for invasive breast cancer at an early stage.

作者安旭黄大伟焦明远周睿王清涛 AN Xu;HUANG Dawei;JIAO Mingyuan;ZHOU Rui;WANG Qingtao(Department of Clinical Laboratory,Beijing Chaoyang Hospital,Capital Medical University,Beijing 100020,China;Department of Clinical Laboratory,Beijing Longfu Hospital,Beijing 100009,China;Department of Clinical Laboratory,Tongzhou Maternal and Child Health Hospital of Beijing,Beijing 101100,China)

机构地区首都医科大学附属北京朝阳医院检验科北京市隆福医院检验科北京市通州区妇幼保健院检验科

出处《标记免疫分析与临床》 CAS 2023年第4期665-671,679,共8页 Labeled Immunoassays and Clinical Medicine

基金 2022年度北京市通州区科技计划项目(编号:2022-TZFY-015-01)。

关键词乳腺癌全血细胞计数机器学习预测模型 Breast cancer Complete blood count Machine learning Prediction model

分类号 R737.9 [医药卫生—肿瘤]

引文网络
相关文献

参考文献6

1赫捷,陈万青,李霓,沈洪兵,李江,王勇,李静,田金徽,周宝森,中国女性乳腺癌筛查与早诊早治指南制定顾问组,中国女性乳腺癌筛查与早诊早治指南制定专家组,中国女性乳腺癌筛查与早诊早治指南制定工作组,庞达,郑亚迪,刘运泳,宋冰冰,王乐,颜仕鹏,周宝森,胡志斌,吴峥,李贺,孙殿钦,曹毛毛,何思怡,杨卓煜.中国女性乳腺癌筛查与早诊早治指南(2021,北京)[J].中华肿瘤杂志,2021,43(4):357-382. 被引量：110
2张蒙,崔永春,王春平,徐凯,邢杰.1990-2019年中国女性乳腺癌疾病负担及其危险因素变化趋势分析[J].中华肿瘤防治杂志,2022,29(7):456-462. 被引量：28
3Rui Ding,Yi Xiao,Miao Mo,Ying Zheng,Yi-Zhou Jiang,Zhi-Ming Shao.Breast cancer screening and early diagnosis in Chinese women[J].Cancer Biology & Medicine,2022,19(4):450-467. 被引量：18
4程华丽,王丹,蔡珍,孙淑荣,曲芬.两种PBRTQC方案检出PSA项目小偏差能力的比较[J].标记免疫分析与临床,2022,29(10):1752-1756. 被引量：2
5俞愈,李继会,章斌,桑士标,邓胜明.^(18)F-FDG PET/CT影像组学预测晚期非小细胞肺癌预后的价值[J].标记免疫分析与临床,2023,30(1):51-56. 被引量：7
6王艳,郑华荣,罗祎斐,佴静,王清涛,周睿,梁玉芳,宋彪,黄大伟.基于机器学习技术利用常规检验数据建立肺结核鉴别诊断方法[J].中华检验医学杂志,2022,45(12):1201-1206. 被引量：4

二级参考文献83

1周世崇,范亦武,曾炜,丁建辉,陈敏,王伯华,邱月芳,高毅,张迅,常才.上海社区乳腺癌筛查初步小结:超声及乳腺X线的漏诊、误诊病例分析[J].上海医学影像,2012,21(4):291-293. 被引量：4
2马恒敏,王圣芳,冷玲,朱峰,李琰琰,史思达,左文述,王家林.山东省肥城市2008-2011年乳腺癌筛查结果分析[J].中华肿瘤防治杂志,2013,20(2):88-92. 被引量：11
3潘毓萱,赵雁林.菌阴肺结核的细菌学含义[J].中华结核和呼吸杂志,2005,28(10):671-674. 被引量：29
4裴广军,付莉,崔亚玲,王文雷,高利华,陆维权.中国女性乳腺癌危险因素的Meta分析[J].中国妇幼保健,2008,23(19):2650-2652. 被引量：19
5戴琼,杜玉开.女性乳腺癌危险因素的Meta分析[J].中华疾病控制杂志,2010,14(6):544-547. 被引量：18
6陶苹,胡耀月,黄源,李佳圆.亚裔女性乳腺癌危险因素的Meta分析[J].中华流行病学杂志,2011,32(2):164-169. 被引量：37
7杨振华,戴宏季,闫烨,汪培山,陈可欣.不同钼靶X线阳性标准对乳腺癌筛查成本效果的影响[J].中国肿瘤临床,2012,29(6):328-330. 被引量：12
8Li Li,Jia JI,Jian-bing Wang,Mayineur Niyazi,You-lin Qiao,Paolo Boffettas.Attributable Causes of Breast Cancer and Ovarian Cancer in China:Reproductive Factors,Oral Contraceptives and Hormone Replacement Therapy[J].Chinese Journal of Cancer Research,2012,24(1):9-17. 被引量：39
9李兴慧,许广照,王健,沈飚,施民新,陈赛华,陈铃丽,季秀珍,夏淦林,王汉杰,傅爱燕.彩超联合钼靶在乳腺筛查中的价值[J].中国肿瘤,2013,22(3):207-210. 被引量：9
10许娟,王颀,马宏民,夏建红.体检联合超声补充X射线钼靶检查乳腺癌筛查模式初步应用评价[J].中华肿瘤防治杂志,2013,20(17):1295-1299. 被引量：33

共引文献163

1何思怡,李贺,曹毛毛,张绍丽,夏昌发,宣立学,陈万青.全球及我国女性乳腺癌疾病负担年龄分布及变化趋势[J].中国肿瘤,2023,32(1):1-7. 被引量：68
2阿丽达克,苏力担卡扎·仇曼,王海燕.两种静脉置管方式对乳腺癌化疗患者生活质量和SAS、SDS评分影响分析[J].新疆医学,2022,52(11):1360-1363. 被引量：4
3李小波,谢艳,陈金霞,娄兴凤,苗春龙,范庆,郑衍芳.大黄酸抑制线粒体分裂和EMT减缓乳腺癌细胞迁移[J].世界科学技术-中医药现代化,2023,25(8):2692-2698. 被引量：1
4王盈,黄祥,孙勇,朱凤琴.人乳头状瘤病毒感染与乳腺癌c-jun和c-fos表达水平的相关性[J].热带医学杂志,2023,23(7):936-940.
5窦瑞芳,李小娟.乳腺癌患者MRI表现与肿瘤细胞生物学行为的相关性探究[J].内蒙古医科大学学报,2022,44(2):187-192. 被引量：1
6崔军威,刘荫华,刘晓岭,胡艺冰,胡慧.双靶联合化疗药物在HER2阳性乳腺癌新辅助治疗中的疗效及其影响因素[J].中华临床医师杂志（电子版）,2022,16(11):1062-1067. 被引量：1
7王兴东,范彬,张志勇.223例围手术期乳腺癌患者发生肌间静脉血栓的回顾性分析[J].甘肃医药,2021,40(8):743-745.
8秦朝,李江,郑亚迪,王飞,曹巍,许永杰,余一雯,赵亮,于欣阳,陈宏达,任建松,王勇,李静,李霓,陈万青.中国城市乳腺癌高危人群筛查依从性及其相关因素分析[J].实用肿瘤学杂志,2021,35(4):291-296. 被引量：18
9杨红梅.探讨针对性护理联合抗阻力训练对于乳腺癌术后患者上肢功能及淋巴水肿影响的研究[J].临床研究,2021,29(9):179-181. 被引量：7
10杨谦,张军,马玉泉,谭雪敏.京尼平苷对肺癌H1975细胞增殖和转移的抑制作用及SIRT1/NF-κB信号通路的影响[J].疑难病杂志,2021,20(10):977-981. 被引量：4

1任继欣.不同条件下EDTA抗凝静脉血标本对西门子2120i全血细胞计数结果的影响[J].中国科技期刊数据库医药,2021(7):235-235.
2丁建立,杨锟.航班到港延误时长预测及特征分析[J].河北科技大学学报,2023,44(3):246-255. 被引量：3
3惠亚楠,冯慧芳.基于改进狮群算法优化神经网络的糖尿病风险预测[J].软件工程与应用,2023,12(3):474-484.
4郝立辉.锥形束X射线计算机断层扫描系统在多生牙临床治疗中的应用[J].中文科技期刊数据库（全文版）医药卫生,2023(7):0030-0032.
5史苏琛.红细胞参数在贫血鉴别诊断的价值评价[J].中国科技期刊数据库医药,2023(5):57-60.
6孟阳,魏太庆,艾丹,王博,范志平.壳聚糖-稀土-生物炭对水体Cr(Ⅵ)的吸附性能分析[J].辽宁石油化工大学学报,2023,43(3):14-20. 被引量：4
7Kriti Chauhan.Peripheral smear reckons the nature of IgM cold agglutinins:A case-based study asserting the role of thermal amplitude and clonality[J].Rheumatology & Autoimmunity,2023,3(1):63-65.
8黄超,李航,周利,毕可鑫,戴一阳,李汶颖.基于PCA-ANN的碱性电解水系统气体纯度预测[J].华东理工大学学报（自然科学版）,2023,49(3):305-314.
9吕艳.基于随机森林算法的上市公司财务舞弊分析[J].西安文理学院学报（自然科学版）,2023,26(3):13-16. 被引量：1
10刘修业,周平,黄少文,高宏伟,李洋,孙兰香.液态炉渣的激光诱导击穿光谱特性分析[J].冶金分析,2023,43(6):12-18.

标记免疫分析与临床

2023年第4期

浏览历史

内容加载中请稍等...

基于全血细胞计数的机器学习算法构建侵袭性乳腺癌预测模型

参考文献6

二级参考文献83

共引文献163

相关作者

相关机构

相关主题

浏览历史