目前处于大数据的时代,磁盘作为常见存储数据的途径之一,一旦出现磁盘故障问题,可能会导致大规模的数据丢失,造成严重后果,对此,本文以大型云储存Backblaze公司真实的记录数据为研究对象,首先,对原始数据进行数据处理,对缺失数据进行填...目前处于大数据的时代,磁盘作为常见存储数据的途径之一,一旦出现磁盘故障问题,可能会导致大规模的数据丢失,造成严重后果,对此,本文以大型云储存Backblaze公司真实的记录数据为研究对象,首先,对原始数据进行数据处理,对缺失数据进行填补,其次,使用阈值法、Lasso特征选择对数据降维,然后,将筛选后的数据使用XGBoost模型训练,并与典型的机器学习算法中的LightGBM、Random Forest、SVR、Extra Tree Regression、Adaboost、GBR等11种主流机器学习模型进行实验对比,结果表明本文在RMSE、MAE、三种性能指标上均优于对比模型,最后,利用SHAP模型增强对模型的可解释性,对比三种算法XGBoost、Random Forest和SHAP对磁盘故障的影响程度,为云存储企业减少损失并提高效率提供了参考。展开更多
文摘目前处于大数据的时代,磁盘作为常见存储数据的途径之一,一旦出现磁盘故障问题,可能会导致大规模的数据丢失,造成严重后果,对此,本文以大型云储存Backblaze公司真实的记录数据为研究对象,首先,对原始数据进行数据处理,对缺失数据进行填补,其次,使用阈值法、Lasso特征选择对数据降维,然后,将筛选后的数据使用XGBoost模型训练,并与典型的机器学习算法中的LightGBM、Random Forest、SVR、Extra Tree Regression、Adaboost、GBR等11种主流机器学习模型进行实验对比,结果表明本文在RMSE、MAE、三种性能指标上均优于对比模型,最后,利用SHAP模型增强对模型的可解释性,对比三种算法XGBoost、Random Forest和SHAP对磁盘故障的影响程度,为云存储企业减少损失并提高效率提供了参考。