基于不完整乳腺癌数据的模型预测研究被引量：2

Model Prediction Research Based on Incomplete Breast Cancer Data

下载PDF

导出

摘要针对不完整乳腺癌数据问题,该研究提出kmeans-KNN方法处理缺失值。首先对训练集进行聚类并采用KNN进行缺失值填充,基于完整训练集训练线性回归模型填充测试集的缺失值,然后使用机器学习算法XGBoost、RF、KNN、SVM对完整训练集进行训练建模,利用建立好的模型对完整测试集进行测试。结果证明kmeans-KNN在缺失值预处理上优于EM、MICE等常用的缺失值填补方法,在准确度和AUC上,kmeans-KNN+SVM取得最优。 Aiming at the problem of incomplete breast cancer data,the study proposed the kmeans-KNN method to deal with missing values.First,cluster the training set and use KNN to fill in missing values,and train a linear regression model based on the complete training set to fill in missing values in the test set.Then,machine learning algorithms XGBoost,RF,KNN,and SVM are used to train and model the complete training set and complete test is used to test.The results show that kmeans-KNN is better than EM,MICE and other common missing value filling methods in missing value preprocessing,and kmeans-KNN+SVM is the best in accuracy and AUC.

作者邓钰芳 DENG Yufang(School of Computer,Electronics and Information,Guangxi University,Nanning 530004,China)

机构地区广西大学计算机与电子信息学院

出处《现代信息科技》 2021年第7期50-53,共4页 Modern Information Technology

关键词不完整数据乳腺癌诊断预测 incomplete data breast cancer diagnosis prediction

分类号 R737.9 [医药卫生—肿瘤]

引文网络
相关文献

参考文献5

1刘星毅,农国才.几种不同缺失值填充方法的比较[J].南宁师范高等专科学校学报,2007,24(3):148-150. 被引量：8
2李琳,杨红梅,杨日东,胡珊,张学良,周毅.基于临床数据集的缺失值处理方法比较[J].中国数字医学,2018,13(4):8-10. 被引量：11
3闫世艳,郭中宁,何丽云,刘保延.临床研究缺失数据多重填补敏感性分析方法[J].世界科学技术-中医药现代化,2020,22(3):823-828. 被引量：5
4彭佳丽,刘春容,李旭,易芳,李佳圆.采用XGBoost和随机森林探索中国西部女性乳腺癌危险因素[J].现代预防医学,2020,47(1):1-4. 被引量：13
5吴兴惠,周玉萍,邢海花,龙海侠.机器学习分类算法在糖尿病诊断中的应用研究[J].电脑知识与技术,2018,14(12Z):177-178. 被引量：7

二级参考文献17

1王琪,王丽萍,陈凯迪.一种简单的图案填充算法[J].微计算机信息,2005,21(09X):116-117. 被引量：18
2庞轶,李卉,雷放鸣,王远萍,李佳圆,郭洁.妇女生殖生育因素与乳腺癌病例对照研究[J].中国公共卫生,2009,25(10):1172-1174. 被引量：8
3余竞,钟涵宇,刘利,杨晋浩.统计调查表缺失数据插补效果的实证分析[J].成都大学学报（自然科学版）,2010,29(4):307-310. 被引量：4
4杨帆,林琛,周绮凤,符长虹,罗林开.基于随机森林的潜在k近邻算法及其在基因表达数据分类中的应用[J].系统工程理论与实践,2012,32(4):815-825. 被引量：43
5陈渊成,张菁.确证性临床试验中数据缺失的处理指南[J].中国新药杂志,2012,21(7):732-736. 被引量：10
6方匡南,吴见彬,朱建平,谢邦昌.随机森林方法研究综述[J].统计与信息论坛,2011,26(3):32-38. 被引量：679
7Chuan Chen,Yu-Bei Huang,Xue-Ou Liu,Ying Gao,Hong-Ji Dai,Feng-Ju Song,Wei-Qin Li,Jing Wang,Ye Yan,Pei-Shan Wang,Yao-Gang Wang,Ke-Xin Chen.Active and passive smoking with breast cancer risk for Chinese females: a systematic review and meta-analysis[J].Chinese Journal of Cancer,2014,33(6):306-316. 被引量：12
8梁丽军,刘子先,王化强.基于弹性网-SVM的疾病诊断关键特征识别[J].计算机应用研究,2015,32(5):1301-1304. 被引量：18
9张彪,韩伟,庞海玉,薛芳,厚磊,王子兴,王钰嫣,姜晶梅.完全随机缺失条件下连续型随机变量数据缺失插补方法的比较研究[J].中国卫生统计,2015,32(4):605-608. 被引量：5
10张彪,韩伟,庞海玉,薛芳,厚磊,王子兴,王钰嫣,姜晶梅.完全随机缺失条件下分类随机变量数据缺失插补方法的比较研究[J].中国卫生统计,2015,32(5):903-905. 被引量：6

共引文献39

1王震,张海清,彭莉,汪杰,游凤,李代伟,唐聃.基于奇异值分解的医疗数据信息提取及分类方法[J].成都信息工程大学学报,2020,35(5):537-541. 被引量：1
2刘星毅,曾春华,江南雨,陈振华,韦小玲.缺失数据的处理和挑战[J].钦州学院学报,2008,23(6):25-29. 被引量：4
3佟昕,高强.统计学中的数据缺失及解决方法[J].辽宁经济职业技术学院学报.辽宁经济管理干部学院,2011(2):15-16. 被引量：4
4孙中友,李培峰,朱巧明.事件信息抽取中的数据预处理方法研究[J].计算机应用与软件,2011,28(8):35-37. 被引量：3
5陈志奎,吕爱玲,张清辰.基于属性重要性的不完备数据填充算法[J].微电子学与计算机,2013,30(7):167-172. 被引量：10
6张赤,丰洪才,金凯,杨婷.基于聚类分析的缺失数据最近邻填补算法[J].计算机应用与软件,2014,31(5):282-284. 被引量：13
7陈宏.规模以下服务业数据缺失处理方法研究——以福州地区为例[J].调研世界,2015,0(3):52-55.
8李琳,张学良,王哲,杨日东,周毅.基于聚类分析的原发性肝癌患者预后预测[J].新疆医科大学学报,2018,41(12):1549-1554. 被引量：3
9汪仁,边迪,王树奇,李雪萌,赵东升.决策树算法在脑卒中危险分级预测中的应用[J].中国疗养医学,2019,28(3):233-236. 被引量：3
10李琳,杨日东,王哲,张学良,周毅.基于机器学习方法的原发性肝癌患者预后预测研究[J].中国数字医学,2019,14(3):34-37. 被引量：12

同被引文献18

1李磊,黄水平.支持向量机原理及其在医学分类中的应用[J].中国卫生统计,2009,26(1):22-25. 被引量：27
2贺艳祥,黄思静,胡作维,兰叶芳,黄培培.鄂尔多斯盆地姬塬地区上三叠统延长组长8油层组成岩作用研究[J].岩性油气藏,2010,22(2):42-47. 被引量：18
3韩学辉,卢时林,支乐菲,刘贵满,廖永斌.应用最小二乘支持向量机识别J13井区杜家台油层岩性[J].特种油气藏,2011,18(6):18-21. 被引量：9
4牟丹,王祝文,黄玉龙,许石,周大鹏.基于SVM测井数据的火山岩岩性识别——以辽河盆地东部坳陷为例[J].地球物理学报,2015,58(5):1785-1793. 被引量：69
5刘伟,赵庆展,汪传建,陈洪,李沛婷.基于最小二乘支持向量机的无人机遥感影像分类[J].江苏农业科学,2017,45(9):187-191. 被引量：11
6韩启迪,张小桐,申维.基于决策树特征提取的支持向量机在岩性分类中的应用[J].吉林大学学报（地球科学版）,2019,49(2):611-620. 被引量：13
7刘磊,陈爱军,彭伟康,胡佳成.ABS齿圈表面缺陷视觉检测方法[J].中国测试,2019,45(8):145-150. 被引量：5
8娄佩卿,陈晓雨,王疏桐,付波霖,黄永怡,唐廷元,凌铭.基于无人机影像的喀斯特农耕区地物识别——以桂林市为例[J].国土资源遥感,2020,32(1):216-223. 被引量：13
9吴鹏飞,凌震华.基于多普勒雷达的发音动作检测与命令词识别[J].小型微型计算机系统,2020,41(2):426-430. 被引量：5
10岳永东,渠洪杰,谭春亮,祝强,林广利.基于支持向量机的测井岩性识别在松散沉积物调查中的应用研究[J].钻探工程,2021,48(4):29-36. 被引量：5

引证文献2

1王超,梁旺东,王子龙.基于精细高斯支持向量机的岩相识别模型——以B区块为例[J].地下水,2024,46(3):145-148.
2王鹏,安继刚,刘鹏虎.基于可优化支持向量机的岩相识别模型-以X油田A区为例[J].内蒙古石油化工,2024,50(5):106-109.

1王新德,王文强,钟峰.基于图像分析的粘接质量评价系统设计[J].计算机测量与控制,2021,29(1):240-245. 被引量：3
2金春花.阴道超声联合孕酮、β-HCG诊断预测异位妊娠的价值[J].影像研究与医学应用,2021,5(15):155-156. 被引量：2
3范林歌,武欣嵘,童玮,曾维军.基于矩阵分解填充的无监督特征选择方法[J].通信技术,2021,54(8):1853-1861.
4郭毅博,牛猛,王海迪,陈艳华,薛均晓,袁玥,侯立硕,徐明亮,潘俊.基于生成对抗网络的飞机燃油数据缺失值填充方法[J].浙江大学学报（理学版）,2021,48(4):402-409. 被引量：11
5陈振中,赖泽平,王璐璐,赵鑫,张帅.基于Fluent的某型APU排气腔体内流场、温度与气动压力数值分析[J].沈阳航空航天大学学报,2021,38(1):28-34. 被引量：2
6刘其南,林权.镜筒注塑成型圆度工艺优化及偏置注塑模设计[J].塑料,2020,49(6):112-117. 被引量：2
7陈福德,孟凡召,吕俊燕.熔融沉积3D打印成型中零件产生的现象分析[J].装备制造技术,2021(7):255-257.

现代信息科技

2021年第7期

浏览历史

内容加载中请稍等...

基于不完整乳腺癌数据的模型预测研究被引量：2

参考文献5

二级参考文献17

共引文献39

同被引文献18

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于不完整乳腺癌数据的模型预测研究 被引量：2

参考文献5

二级参考文献17

共引文献39

同被引文献18

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于不完整乳腺癌数据的模型预测研究被引量：2