面向类不平衡数据集的重采样方法影响研究

An investigation into the impact of resampling methods for class-imbalanced datasets

下载PDF

导出

摘要为了评估重采样方法对类不平衡数据集的影响,对被广泛使用的美国威斯康星州的乳腺癌诊断数据集进行研究,基于逻辑斯特回归、支持向量机、随机森林等三种机器学习算法进行实验,对随机上采样抽样、随机下采样抽样、SMOTE以及ADASYN四种重采样方法使用F1值和AUC值进行了分析。实验结果表明,四种重采样方法均可以提升模型性能,其中随机下采样抽样在处理类不平衡数据集时被证明更加有效。 In order to evaluate the impact of resampling methods on class‑imbalanced datasets,an investigation was conducted using the widely recognized Wisconsin breast cancer diagnosis dataset from the United States.Experiments were carried out based on three machine learning algorithms:Logistic Regression,Support Vector Machine,and Random Forest.Four resampling meth‑ods—Random Over‑sampling,Random Under‑sampling,SMOTE,and ADASYN—were analyzed using F1 scores and AUC values.The experimental results indicate that all four resampling methods can improve model performance,with Random Under‑sampling proving to be more effective in handling class‑imbalanced datasets.

作者丁浩杰 Ding Haojie(School of Big Data and Computer Science,Shanxi Institute of Science and Technology,Jincheng 048000,China)

机构地区山西科技学院大数据与计算机科学学院

出处《现代计算机》 2024年第14期36-40,共5页 Modern Computer

基金 2022年度山西省教育厅高等学校科技创新项目(2022L621)。

关键词重采样方法随机下采样抽样支持向量机逻辑斯特回归随机森林 resampling methods random under‑sampling support vector machine logistic regression random forest

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论] TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

1曹瑕尹,李蕊,王婉琼,薛颖,江建芹,崔磊.多模态MRI影像组学对非小细胞肺癌纵隔淋巴结转移的预测价值[J].磁共振成像,2024,15(4):72-77.
2鲍威,陈得春,佟琳楠.美德是否可教?高等教育对学生道德认知发展的影响研究[J].复印报刊资料（高等教育）,2023(8):85-99.
3党小超,刘涧,董晓辉,祝忠彦,李芬芳.面向不平衡数据的机械设备故障命名实体识别[J].计算机工程,2024,50(9):104-112.
4徐璐,唐大卫.面向不平衡数据的信用卡异常交易模型研究[J].信息产业报道,2024(8):0160-0163.

现代计算机

2024年第14期

浏览历史

内容加载中请稍等...

面向类不平衡数据集的重采样方法影响研究

相关作者

相关机构

相关主题

浏览历史