面向可解释性的软件缺陷预测主动学习方法

Interpretability-oriented active learning approach for software defect prediction

下载PDF

导出

摘要针对软件缺陷预测中数据标注代价较高及深度学习模型缺乏可解释性的问题,提出一种面向可解释性的软件缺陷预测主动学习方法。首先,基于主动学习技术,通过样本选择策略从目标项目中筛选出不确定性高的样本进行专家标注,并将这些标注样本放入源项目中以训练预测器。其次,利用领域知识对选定样本进行扰动,构建局部数据集,并通过线性模型在该数据集上模拟数据选择策略的行为,以实现模型的可解释性。实验结果显示:该方法在数据标注方面的指标性能要优于传统的主动学习基准方法;同时,在可解释性方面,该方法的RMSE指标也均低于LIME、全局代理模型以及RuleFit,能较好地解释“黑盒”模型。该方法不仅可以有效提高软件缺陷数据的标注效率,还可以实现模型的可解释性。 In allusion to the problems of high cost of data annotation and lack of interpretability of deep learning model in software defect prediction,an interpretability-oriented active learning approach for software defect prediction is proposed.Based on the active learning technology,samples with high uncertainty are filtered from the target project by means of sample selection strategy for expert annotation,and these annotated samples are put into the source project to train the predictor.The selected samples are perturbed by means of domain knowledge to construct a local dataset,and the behavior of the data selection strategy is simulated on this dataset by means of the linear model to achieve the interpretability of the model.The experimental results show that this approach has better performance than the traditional active learning benchmark approach in data annotation.Meanwhile,the RMSE metrics of the method are also lower than those of LIME,Global Agent Model,and RuleFit in terms of interpretability,which can better explain the black-box model.This approach can not only effectively improve the annotation efficiency of software defect data,but also achieve the interpretability of the model.

作者王越李勇张文静 WANG Yue;LI Yong;ZHANG Wenjing(College of Computer Science and Technology,Xinjiang Normal University,Urumqi 830054,China;Key Laboratory of Safety-Critical Software of Ministry and Information Technology,Nanjing University of Aeronautics and Astronautics,Nanjing 211106,China)

机构地区新疆师范大学计算机科学技术学院南京航空航天大学高安全系统的软件开发与验证技术工信部重点实验室

出处《现代电子技术》北大核心 2024年第20期101-108,共8页 Modern Electronics Technique

基金新疆维吾尔自治区自然科学基金项目(2022D01A225) 新疆维吾尔自治区重点研发计划项目(2022B01007-1)。

关键词软件缺陷预测主动学习可解释性数据标注数据选择策略深度学习 software defect prediction active learning interpretability data annotation data selection strategy deep learning

分类号 TN919-34 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献3

1田笑,常继友,张弛,荣景峰,王子昱,张光华,王鹤,伍高飞,胡敬炉,张玉清.开源软件缺陷预测方法综述[J].计算机研究与发展,2023,60(7):1467-1488. 被引量：3
2陈珂锐,孟小峰.机器学习的可解释性[J].计算机研究与发展,2020,57(9):1971-1986. 被引量：45
3纪守领,李进锋,杜天宇,李博.机器学习模型可解释性方法、应用与安全研究综述[J].计算机研究与发展,2019,56(10):2071-2096. 被引量：148

二级参考文献8

1高志伟,姚尧,饶飞,刘延钊,罗平.基于漏洞严重程度分类的漏洞预测模型[J].电子学报,2013,41(9):1784-1787. 被引量：10
2陈翔,顾庆,刘望舒,刘树龙,倪超.静态软件缺陷预测方法研究[J].软件学报,2016,27(1):1-25. 被引量：123
3王丹丹,王青.基于演化数据的软件缺陷预测性能改进[J].软件学报,2016,27(12):3014-3029. 被引量：3
4Chao Ni,Wang-Shu Liu,Xiang Chen,Qing Gu,Dao-Xu Chen,Qi-Guo Huang.A Cluster Based Feature Selection Method for Cross-Project Software Defect Prediction[J].Journal of Computer Science & Technology,2017,32(6):1090-1107. 被引量：7
5孟小峰,马超红,杨晨.机器学习化数据库系统研究综述[J].计算机研究与发展,2019,56(9):1803-1820. 被引量：31
6宫丽娜,姜淑娟,姜丽.软件缺陷预测技术研究进展[J].软件学报,2019,30(10):3090-3114. 被引量：47
7纪守领,李进锋,杜天宇,李博.机器学习模型可解释性方法、应用与安全研究综述[J].计算机研究与发展,2019,56(10):2071-2096. 被引量：148
8顾绵雪,孙鸿宇,韩丹,杨粟,曹婉莹,郭祯,曹春杰,王文杰,张玉清.基于深度学习的软件安全漏洞挖掘[J].计算机研究与发展,2021,58(10):2140-2162. 被引量：26

共引文献183

1龚善要.人工智能司法应用的实践审思与完善[J].国家检察官学院学报,2023,31(5):95-108. 被引量：6
2姜婷婷,傅诗婷.人本视角下的数字记忆:“人—记忆—技术”三位一体理论框架构建与启示[J].中国图书馆学报,2022,48(5):103-115. 被引量：12
3付佳俊,卢梅丽,曹一凡,郭兆桦,高资成.基于深度学习的t-fMRI脑状态解码[J].天津职业技术师范大学学报,2022,32(4):45-50.
4马舒岑,史建琦,黄滟鸿,秦胜潮,侯哲.基于最小不满足核的随机森林局部解释性分析[J].软件学报,2022,33(7):2447-2463. 被引量：2
5赵岩,罗岱,樊娟娟,封少东.船舶与海上设施数字孪生系统评价体系[J].船舶工程,2022,44(S01):548-553.
6李艳红,姚元庆,姚兵,黄威权,杨梦庚.原癌基因c-myc产物在小鼠早期胚胎中的表达[J].第四军医大学学报,2000,21(2):253-254. 被引量：1
7肖丽利.基于探索性和聚类的《高等数学》成绩分析[J].四川文理学院学报,2020,30(2):42-46. 被引量：1
8郭炜炜,张增辉,郁文贤,孙效华.SAR图像目标识别的可解释性问题探讨[J].雷达学报（中英文）,2020,9(3):462-476. 被引量：23
9周俊,方国英,吴楠.联邦学习安全与隐私保护研究综述[J].西华大学学报（自然科学版）,2020,39(4):9-17. 被引量：22
10陈珂锐,孟小峰.机器学习的可解释性[J].计算机研究与发展,2020,57(9):1971-1986. 被引量：45

1石海鹤,周世文,钟林辉,肖正兴.改进的采样算法与无监督聚类相结合的软件缺陷预测模型[J].江西师范大学学报（自然科学版）,2024,48(3):301-310.
2徐立华,田中旭,范迪夏,王嘉松.基于改进的多可信度高斯过程回归方法预测涡激振动问题[J].水动力学研究与进展（A辑）,2024,39(3):382-391.
3朱传军,梁泽启,付强,张超勇.基于距离感知的金属缺陷样本标签分配算法[J].中国机械工程,2024,35(9):1634-1641.
4付艳艳,黄瑞章,薛菁菁,任丽娜,陈艳平,林川.基于主动学习的深度半监督聚类模型[J].计算机应用研究,2024,41(10):2955-2961.
5李扬,廖梦洁,张健.利用集成剪枝和多目标优化算法的随机森林可解释增强模型[J].计算机应用研究,2024,41(10):2947-2954.
6程杭林,李路野,王鹏.面向嵌入式系统的高可靠资源管理平台设计[J].现代信息科技,2024,8(17):115-119.
7田君杨,沈梓正,李海勇,蒋连钿,王小帅,薛永端.灵活接地系统电弧接地故障建模与特征分析[J].供用电,2024,41(9):90-97.

现代电子技术

2024年第20期

浏览历史

内容加载中请稍等...

面向可解释性的软件缺陷预测主动学习方法

参考文献3

二级参考文献8

共引文献183

相关作者

相关机构

相关主题

浏览历史