目的探索可解释机器学习方法在疾病预测中的应用。方法本研究以脓毒血症死亡风险预测为例,从重症监护医学数据库(Medical Information Mart for Intensive Care,MIMIC)-Ⅳ中采集符合纳排标准的19903例脓毒血症(sepsis-3)患者的临床数据...目的探索可解释机器学习方法在疾病预测中的应用。方法本研究以脓毒血症死亡风险预测为例,从重症监护医学数据库(Medical Information Mart for Intensive Care,MIMIC)-Ⅳ中采集符合纳排标准的19903例脓毒血症(sepsis-3)患者的临床数据,利用决策树、逻辑回归、随机森林、XGBoost、轻量梯度提升机(light gradient boosting machine,LightGBM)模型分别构建脓毒血症死亡预测模型。在此基础上,利用全局可解释方法(特征重要性、部分依赖图、个体条件期望、全局代理模型)和局部可解释方法(局部代理模型和Shapely值)对复杂机器学习模型进行解释,探索影响脓毒血症患者预后的危险因素。结果解释性差的机器学习模型的预测性能[模型LightGBM、随机森林、XGBoost的曲线下面积(area under curve,AUC)值分别为0.913、0.892、0.872]高于具有内在解释性的模型(逻辑回归模型AUC=0.779,决策树模型AUC=0.791),并利用全局解释性方法、局部可解释性方法两种类型的解释方法对机器学习模型决策过程进行解释。结论利用全局解释性方法可以解释在整个特征空间内机器学习模型的响应趋势,利用局部可解释性方法可以解释机器学习模型对特定病例的决策过程。展开更多
【目的】对可解释机器学习方法及其在信息资源管理领域的应用研究进行梳理和总结,发现不足并做出展望。【文献范围】使用可解释机器学习的相关关键词构建检索式,在中国知网和Web of Science等平台中检索,根据纳入排除标准,共获取44篇相...【目的】对可解释机器学习方法及其在信息资源管理领域的应用研究进行梳理和总结,发现不足并做出展望。【文献范围】使用可解释机器学习的相关关键词构建检索式,在中国知网和Web of Science等平台中检索,根据纳入排除标准,共获取44篇相关文献进行评述。【方法】从机器学习流程出发,构建一般性的可解释机器学习框架,重点梳理可解释机器学习方法分类,然后对可解释机器学习在信息资源管理领域的应用现状进行归纳总结。【结果】一般性的可解释机器学习框架包含事前解释、可解释模型以及事后解释三个不同的模块;事后可解释方法在健康信息学、网络舆情、科学计量学以及社交网络用户行为等领域具有广泛的应用,其中常用的方法为SHAP和特征重要性分析;现有研究存在应用方法单一和融合不足、因果关系探究不够、针对多源异构数据的解释不足以及领域应用有待拓宽等问题。【局限】本文重点关注可解释机器学习的应用及存在的不足,未对算法原理进行深入阐述。【结论】未来研究应加强可解释机器学习方法的融合使用,探究基于因果机器学习的可解释机器学习,引入面向多源异构数据的可解释机器学习方法,拓宽在信息推荐、信息检索和信息计量等多个领域的应用。展开更多
文摘目的探索可解释机器学习方法在疾病预测中的应用。方法本研究以脓毒血症死亡风险预测为例,从重症监护医学数据库(Medical Information Mart for Intensive Care,MIMIC)-Ⅳ中采集符合纳排标准的19903例脓毒血症(sepsis-3)患者的临床数据,利用决策树、逻辑回归、随机森林、XGBoost、轻量梯度提升机(light gradient boosting machine,LightGBM)模型分别构建脓毒血症死亡预测模型。在此基础上,利用全局可解释方法(特征重要性、部分依赖图、个体条件期望、全局代理模型)和局部可解释方法(局部代理模型和Shapely值)对复杂机器学习模型进行解释,探索影响脓毒血症患者预后的危险因素。结果解释性差的机器学习模型的预测性能[模型LightGBM、随机森林、XGBoost的曲线下面积(area under curve,AUC)值分别为0.913、0.892、0.872]高于具有内在解释性的模型(逻辑回归模型AUC=0.779,决策树模型AUC=0.791),并利用全局解释性方法、局部可解释性方法两种类型的解释方法对机器学习模型决策过程进行解释。结论利用全局解释性方法可以解释在整个特征空间内机器学习模型的响应趋势,利用局部可解释性方法可以解释机器学习模型对特定病例的决策过程。
文摘【目的】对可解释机器学习方法及其在信息资源管理领域的应用研究进行梳理和总结,发现不足并做出展望。【文献范围】使用可解释机器学习的相关关键词构建检索式,在中国知网和Web of Science等平台中检索,根据纳入排除标准,共获取44篇相关文献进行评述。【方法】从机器学习流程出发,构建一般性的可解释机器学习框架,重点梳理可解释机器学习方法分类,然后对可解释机器学习在信息资源管理领域的应用现状进行归纳总结。【结果】一般性的可解释机器学习框架包含事前解释、可解释模型以及事后解释三个不同的模块;事后可解释方法在健康信息学、网络舆情、科学计量学以及社交网络用户行为等领域具有广泛的应用,其中常用的方法为SHAP和特征重要性分析;现有研究存在应用方法单一和融合不足、因果关系探究不够、针对多源异构数据的解释不足以及领域应用有待拓宽等问题。【局限】本文重点关注可解释机器学习的应用及存在的不足,未对算法原理进行深入阐述。【结论】未来研究应加强可解释机器学习方法的融合使用,探究基于因果机器学习的可解释机器学习,引入面向多源异构数据的可解释机器学习方法,拓宽在信息推荐、信息检索和信息计量等多个领域的应用。