不平衡数据的关键因素筛选方法被引量：3

Research on Variable Selection Methods of Imbalanced Data

下载PDF

导出

摘要数据不平衡问题的存在,使得模型倾向于将测试样本判别为多数类,导致少数类的分类效果较差。可以从数据和算法两个角度解决数据不平衡带来的问题,本研究主要关注关键因素筛选时不平衡问题的处理,在数据层面使用基于SMOTE抽样的Group Lasso,算法层面使用了调节阈值的Group Lasso,包括分步调节参数和同时调节参数两种方法。最后在307例亚健康患者的问卷数据上使用三种方法建立"肝郁脾虚"诊断模型。从得到的结果来看,基于SMOTE的方法和同时调参的方法得到模型预测效果在灵敏度和特异度上较好。 The existence of data imbalance makes a model tends to predict samples as majority class, resulting in a poor classification effect. The problem of data imbalance can be solved from two aspects of data and algorithm. This research mainly focused on processing imbalance problem in variable selection. In the aspect of data, Group Lasso logistic based on SMOTE sampling was used. In the aspect of algorithm, the Group Lasso with threshold adjusting which include adjusting the parameters step by step and adjusting the parameters simultaneously were used. Finally, the diagnosis model of"liver depression and spleen deficiency"in 307 sub-health patients. questionnaire data was established by three methods. The results showed that the method based on SMOTE and method of simultaneous parameter adjustment have a better prediction in accuracy and sensitivity.

作者贾萍萍李扬 Jia Pingping;Li Yang(Center for Applied Statistics of Renmin University of China,Beijing 100872,China;School of Statistics,Rerunin University of China,Beijing 100872,China)

机构地区中国人民大学应用统计科学研究中心中国人民大学统计学院

出处《世界科学技术-中医药现代化》 CSCD 北大核心 2019年第3期389-394,共6页 Modernization of Traditional Chinese Medicine and Materia Medica-World Science and Technology

基金国家教育部人文社会科学重点研究基地重大项目(16JJD910002):基于大数据的精准医学生物统计分析方法及其应用研究,负责人:许王莉国家自然科学基金委青年基金项目(11401013):基于函数型数据分析的联合统计建模:理论与应用,负责人:黄辉中国人民大学2017年度中央高校建设世界一流大学(学科)和特色发展引导专项资金,负责人:赵彦云

关键词不平衡数据 SMOTE抽样预测阈值成组 Lasso Imbalanced data SMOTE prediction threshold group Lasso

分类号 R33 [医药卫生—人体生理学]

引文网络
相关文献

参考文献4

1古平,杨炀.面向不均衡数据集中少数类细分的过采样算法[J].计算机工程,2017,34(2):241-247. 被引量：20
2秦姣龙,王蔚.Bagging组合的不平衡数据分类方法[J].计算机工程,2011,37(14):178-179. 被引量：12
3薛薇.非平衡数据集的改进SMOTE再抽样算法[J].统计研究,2012,29(6):95-98. 被引量：22
4马玉平,王天芳,薛晓琳,刘燕玲,何跃华,杜彩凤,李雪.肝郁脾虚证的症状特点及辨证标准的现代文献研究[J].中华中医药杂志,2006,21(2):89-92. 被引量：21

二级参考文献27

1方敏.集成学习的多分类器动态融合方法研究[J].系统工程与电子技术,2006,28(11):1759-1761. 被引量：12
2韩慧,王文渊,毛炳寰.不均衡数据集中基于Adaboost的过抽样算法[J].计算机工程,2007,33(10):207-209. 被引量：13
3Cen Li. Classifying Imbalanced Data Using a Bagging EnsembleVariation(BEV)[C]//Proc. of the 45th ACM Annual Southeast Regional Conference. Winston-Salem, USA: ACM Press, 2007.
4Zhu Xingquan. Lazy Bagging for Classifying Imbalanced Data[C]// Proc. of ICDM'07. Omaha, Nebraska, USA: IEEE ComputerSociety, 2007: 763-768.
5Chawla N, Bowyer K, Hall L, et al. SMOTE: Synthetic Minority Over-sampling Technique[J]. Journal of Artificial IntelligenceResearch, 2002, 16(2): 321-357.
6Breiman L. Bagging Predictors[J]. Machine Learning, 1996, 24(2): 123-140.
7Estabrooks.A. A Combination Scheme for Inductive Learning from Imbalanced Data Sets[M].Dalhousie University,2000.
8Chawla.N,Bowyer,K.W,Hall,L.O. Smote:Synthetic Minority Over-Sampling Technique[J].Journal of Artificial Intelligence Research,2002,(03):321-357.
9Hui,HAN,Wen-yuan,WANG,Bing-huan,MAO. Borderline-Smote:A New Over-Sampling Method in Imbalanced Data Sets Learning[A].Beilin:Springer-Verlag,2005.878-887.
10TAEHO J,NATHALIE J. Class imbalances versus small disjuncts[J].ACM SIGKDD Explorations,2004,(01):40-49.

共引文献71

1杨鸿雁,田英杰.机器学习在食品安全风险预警及抽检方案制订中的应用研究[J].管理评论,2022,34(11):315-323. 被引量：3
2贾志姣,丁雷.逍遥散加减方用于肝郁脾虚证的临床应用概况[J].中医耳鼻喉科学研究,2020,0(1):7-12. 被引量：4
3熊丽辉.充血性心力衰竭中医证候文献分析[J].陕西中医,2008,29(2):137-138. 被引量：11
4王辉.逍遥散加减治疗主观性耳鸣的临床观察[J].世界中西医结合杂志,2008,3(6):337-337. 被引量：4
5寇俊萍,柴程芝,高珍,余伯阳,朱丹妮,严永清.从1型组胺受体途径探索当归芍药散异病同治原理的研究构想[J].世界科学技术-中医药现代化,2010,12(3):325-330. 被引量：3
6刘佳,彭颖,张硕颖,吴春福,杨静玉,李晓波.老年脾虚患者肠道菌群16S rDNA变性梯度凝胶电泳分析[J].中华中医药杂志,2010,25(10):1566-1569. 被引量：45
7王利敏,曲彬彬,赵歆,陈家旭,李扬,易丹辉,崔华廷.基于结构方程模型的亚健康状态中医证候量化分析研究[J].中华中医药杂志,2011,26(5):1033-1036. 被引量：17
8赵歆,陈家旭,王利敏,崔华廷,崔海珍.亚健康状态肝郁脾虚证常见症状调查研究[J].山东中医药大学学报,2011,35(3):278-280. 被引量：3
9张鹏,赵慧辉,陈婵,王娟,常丽萍,刘敬标,毕力夫,王伟.慢性心力衰竭常见证候和证候要素的现代文献研究[J].中华中医药杂志,2011,26(10):2378-2381. 被引量：30
10李灿东,陈妍,俞洁,吴同玉,闵莉,李旻.不同疾病的中医病理特点和易患因素研究[J].中华中医药杂志,2011,26(11):2621-2626. 被引量：4

同被引文献49

1唐健,徐中菊.地西泮注射液的稳定性研究[J].世界最新医学信息文摘,2019,0(95):134-134. 被引量：1
2高飞宇.山西省大学生体质测试分析与研究[J].拳击与格斗,2018,0(12X):75-75. 被引量：2
3亢珺,刘杰.静脉输注5%碳酸氢钠致过敏反应1例报告[J].中国实用医药,2007,2(33). 被引量：2
4张朝贵,屈晓玲,张韫新.利多卡因致肾功能衰竭1例[J].西部医学,2006,18(1):42-42. 被引量：5
5支少敏,郝璐.醒脑静注射液临床应用概况[J].第四军医大学学报,2005,26(B12):32-34. 被引量：14
6罗南辉,黄献章,侯晓平,蒿凤英,刘清珍.急性呼吸道感染血清甘胆酸、β_2-微球蛋白含量变化与肝肾功能损伤[J].中国急救医学,1997,17(1):10-12. 被引量：7
7雷镜,杜勤.糖尿病肾病发病机制中若干相关生长因子[J].国外医学（老年医学分册）,2009,30(2):74-78. 被引量：11
8戴逢伟,李敏,雷光远,雷招宝.16例醒脑静注射液不良反应病例分析[J].海峡药学,2009,21(8):191-193. 被引量：17
9张宗逸,王威,全赞荣,朱毓英.重症脑出血患者的肾功能障碍原因分析[J].中国急救医学,1998,18(5):38-38. 被引量：10
10郑茜子,苏涛,王玉,李晓玫.氟喹诺酮类药物肾损害[J].中国实用内科杂志,2011,31(3):229-231. 被引量：14

引证文献3

1张国鹏.运动状态下肌肉耐力测试指标筛选方法研究[J].安徽科技学院学报,2020,34(5):119-124. 被引量：1
2段江南,高阳,谢雁鸣,孙粼希,接传红,张敏.真实世界中使用醒脑静注射液致肾功能异常患者的临床特征分析[J].现代中医临床,2021,28(2):9-15. 被引量：3
3姚晶晶.运动状态下肌肉耐力测试指标筛选方法研究[J].河北北方学院学报（自然科学版）,2021,37(5):25-30.

二级引证文献4

1张雪琴,江帆,席本玉.基于数据挖掘的学生体质健康测试平台设计及应用研究[J].电子设计工程,2022,30(13):87-90. 被引量：3
2宋清雅,魏瑞丽,谢雁鸣,黎元元,杨晓晨.注射用灯盏花素治疗6795例脑梗死患者真实世界特征分析[J].现代中医临床,2022,29(4):8-16. 被引量：2
3熊敏,周静威,刘雪寒,薛雪,刘建平.基于CiteSpace的循证中医药研究知识图谱分析[J].现代中医临床,2023,30(1):103-108. 被引量：2
4庄翠侠,杨俊平,王妍,刘思园,姜莉晴,季学磊,祝腊香.基于少数类样本合成过抽样技术算法2型糖尿病合并周围神经病变风险预警模型构建[J].临床军医杂志,2023,51(9):952-955. 被引量：1

1是沁,李阳.数据驱动的人文社科研究困境与对策:基于微观数据层面的考量[J].图书与情报,2019(1):17-23. 被引量：6
2梁翠珊,崔运能,杨伟超,贺红艳,何永财,张大伟.基于T2WI影像组学标签预测乳腺癌人表皮生长因子受体2表达状态[J].中国医学影像技术,2019,35(4):555-559. 被引量：16
3王希罕,张川林,牟绍玉.下肢动脉硬化闭塞伴足部溃疡病人溃疡愈合的最佳氧分压预测阈值探讨[J].护理研究,2019,33(8):1338-1341. 被引量：2
4赵衍斌,张一龙,孙宇,王少波,张立,张凤山,潘胜发,刁垠泽,陈欣,周非非.密歇根手功能简表评估平山病患者手功能障碍状况的研究[J].中华骨科杂志,2019,39(8):491-495. 被引量：7
5王璐.互联网下企业财务会计和管理会计的融合分析[J].今日财富,2019,0(7):107-108.
6聂蓉,黄杰.基于仿生嗅觉的气味指纹检测与识别方法研究[J].河南科学,2019,37(2):183-187. 被引量：4
7罗昊,赵袁军,余红心,刘正凯.农民参与农产品电商营销的行为分析——基于广东省农业乡镇的实证调查[J].农林经济管理学报,2019,18(2):161-170. 被引量：18
8陈淑真,朱建平,尤添革,刘金福,林燕红.基于SMOTERF算法处理客户流失不平衡问题的研究[J].数学的实践与认识,2019,49(9):204-210. 被引量：6
9肖连杰,郜梦蕊,苏新宁.一种基于模糊C-均值聚类的欠采样集成不平衡数据分类算法[J].数据分析与知识发现,2019,3(4):90-96. 被引量：13
10张爱兰,许志元,杨琦欣,刘春明,朱彦玮,李晓磊.基于信息融合的变压器故障多级诊断方法[J].电工电气,2019,0(6):15-20. 被引量：6

世界科学技术-中医药现代化

2019年第3期

浏览历史

内容加载中请稍等...

不平衡数据的关键因素筛选方法被引量：3

参考文献4

二级参考文献27

共引文献71

同被引文献49

引证文献3

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

不平衡数据的关键因素筛选方法 被引量：3

参考文献4

二级参考文献27

共引文献71

同被引文献49

引证文献3

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

不平衡数据的关键因素筛选方法被引量：3