面向隐私安全的联邦决策树算法被引量：8

Federated Decision Tree Algorithm for Privacy Security

下载PDF

导出

摘要根据用户信息进行资质审查是金融领域的一项重要业务,银行等机构由于用户数据不足和隐私安全等原因,无法训练高性能的违约风险评估模型,从而无法对用户进行精准预测.因此,为了解决数据不共享情况下的联合建模问题,本文提出一种基于联邦学习的决策树算法FL-DT(Federated Learning-Decision Tree).首先,构造基于直方图的数据存储结构用于通信传输,通过减少通信次数,有效提升训练效率;其次,提出基于不经意传输的混淆布隆过滤器进行隐私集合求交,得到包含各参与方数据信息的联邦直方图,并建立联邦决策树模型.最后,提出多方协作预测算法,提升了FL-DT的预测效率.在四个常用的金融数据集上,评估了FL-DT算法的精确性和有效性.实验结果表明,FL-DT算法的准确率比仅利用本地数据建立模型的准确率高,逼近于数据集中情况下模型的准确率,而且优于其他联邦学习方法.另外,FL-DT的训练效率也优于已有算法. In recent years,with the vigorous development of technology and its related industries,Internet finance has increasingly highlighted its advantages.For a long time,qualification review based on the user information has been a fairly important business in the financial field.In most cases,when an individual applies for a loan from a bank,the bank will evaluate him or her through the actual situation based on the established predictive model to determine whether to grant the loan.In this process,a high-quality default risk assessment can avoid unnecessary losses for the banks.However,there are still many deficiencies in the current research on the assessment of default risks of borrowers by banks and other lending institutions.On the one hand,it is difficult to build a high-quality prediction model due to the lack of user data;on the other hand,people are paying more and more attention to the privacy protection of personal data,it is also tough work for banks to obtain a large amount of relative data,and because of that,they cannot carry out the prediction models to accurately predict users’situation.In order to solve the problem of joint modeling in the case of data is not shared,this paper introduces the idea of thefederated learning to effectively utilize the value of other participants’data without the leaving of local data to establish a shared predictive model.Because decision tree algorithms are widely used in financial risk controlling and fraud identification,this paper proposes a decision tree algorithm FL-DT(Federated Learning-Decision Tree)based on federated learning.Federated learning is the concept put forward by Google in 2016,which can complete joint modeling without data sharing.Specifically,the data of each owner will not leave the local place,and the global sharing model will be jointly established through the parameter exchange method under the encryption mechanism in the federal system(in the case of not violating data privacy protection regulations).Moreover,each participant only serves for the local targets.Firstly,a data storage structure based on a histogram is presented for communication transmission,which can effectively improve training efficiency by reducing the number of communications.Secondly,the garbled Bloom filter based on an oblivious transfer is proposed to perform the privacy set intersection,and then we can obtain the federated histogram containing the data information of each participant,and establishes the federated decision tree model.Finally,amulti-party collaboration prediction algorithm is put forward to improve the prediction efficiency of FL-DT.Based on four commonly used data sets in the financial field,this article assesses the accuracy and effectiveness of the FL-DT algorithm.The experimental results show that the prediction accuracy of the FL-DT model is higher than that of the model established using only local data,which is close to the model built in the case of data concentration.In addition,the prediction accuracy of the FL-DT methods is better than other federated learning methods,and the training efficiency and prediction efficiency are also better than other algorithms.

作者郭艳卿王鑫磊付海燕刘航姚明 GUO Yan-Qing;WANG Xin-Lei;FU Hai-Yan;LIU Hang;YAO Ming(School of Information and Communication Engineering,Dalian University of Technology,Dalian,Liaoning 116024;Data Intelligence Department of InsightOne Tech Co,Ltd,Beijing 100007)

机构地区大连理工大学信息与通信工程学院深圳市洞见智慧科技有限公司数据智能部

出处《计算机学报》 EI CAS CSCD 北大核心 2021年第10期2090-2103,共14页 Chinese Journal of Computers

基金国家自然科学基金(No.62076052,No.U1736119) 中央高校基本科研业务费(No.DUT20TD110,No.DUT20RC(3)088)资助.

关键词联邦学习决策树混淆布隆过滤器隐私安全数据不共享 federated learning decision tree garbled bloom filter privacy security data not sharing

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献6

1程大伟,牛志彬,张丽清.大规模不均衡担保网络贷款的风险研究[J].计算机学报,2020,43(4):668-682. 被引量：3
2谢陈昕.P2P网贷平台借款人信用风险评估模型适应性研究[J].武汉金融,2019,0(3):23-29. 被引量：5
3周水庚,李丰,陶宇飞,肖小奎.面向数据库应用的隐私保护研究综述[J].计算机学报,2009,32(5):847-861. 被引量：219
4巩林明,王道顺,刘沫萌,高全力,邵连合,王明明.基于无匹配差错的PSI计算[J].计算机学报,2020,43(9):1769-1790. 被引量：4
5周素芳,李顺东,郭奕旻,窦家维,陈振华.保密集合相交问题的高效计算[J].计算机学报,2018,41(2):464-480. 被引量：13
6王健宗,孔令炜,黄章成,陈霖捷,刘懿,何安珣,肖京.联邦学习算法综述[J].大数据,2020,6(6):64-82. 被引量：43

二级参考文献88

1冯根福,马亚军,姚树洁.中国上市公司担保行为的实证分析[J].中国工业经济,2005(3):13-21. 被引量：73
2罗永龙,黄刘生,荆巍巍,姚亦飞,陈国良.一个保护私有信息的布尔关联规则挖掘算法[J].电子学报,2005,33(5):900-903. 被引量：33
3葛伟平,汪卫,周皓峰,施伯乐.基于隐私保护的分类挖掘[J].计算机研究与发展,2006,43(1):39-45. 被引量：20
4杨晓春,刘向宇,王斌,于戈.支持多约束的K-匿名化方法[J].软件学报,2006,17(5):1222-1231. 被引量：60
5张鹏,童云海,唐世渭,杨冬青,马秀莉.一种有效的隐私保护关联规则挖掘方法[J].软件学报,2006,17(8):1764-1774. 被引量：53
6张锋,常会友.基于分布式数据的隐私保持协同过滤推荐研究[J].计算机学报,2006,29(8):1487-1495. 被引量：17
7李顺东,窦家维,贾晓林.集合相交问题的双方保密计算[J].西安交通大学学报,2006,40(10):1091-1093. 被引量：4
8羌卫中,邹德清,金海.网格环境中证书和策略的隐私保护机制研究[J].计算机研究与发展,2007,44(1):11-19. 被引量：11
9Han J, Kamber M. Data Mining: Concepts and Techniques. 2nd Edition, San Francisco: Morgan Kaufmann Publishers, 2006
10Agrawal D, Aggarwal C C. On the design and auantification of privacy preserving data mining atgorithms//Proceedings of the Symposium on Principles of Database Systems (PODS). Santa Barbara, California, USA, 2001:247-255

共引文献281

1陈财森,纪伯公,黄辰,向阳霞.基于联邦学习的作战数据共享与隐私保护[J].装甲兵学报,2022(1):98-103. 被引量：4
2朱文鹏,郭峰,平作为,梁英杰,兰儒恺,张永.基于隐私保护的无监督电机磁瓦表面缺陷检测研究[J].控制工程,2023,30(7):1219-1225.
3王一蕾,吴英杰,唐庆明.基于混合划分技术的隐私保护关系型数据发布算法[J].南京理工大学学报,2013,37(4):493-499. 被引量：2
4张勇,倪巍伟,崇志宏,胡新平.基于邻域相关性的面向聚类数据扰动方法[J].计算机研究与发展,2011,48(S3):79-85. 被引量：1
5武毅,王丹,蒋宗礼.基于事务型K-Anonymity的动态集值属性数据重发布隐私保护方法[J].计算机研究与发展,2013,50(S1):248-256. 被引量：7
6万绪江,刘晓东,李洋.基于数据库管理安全的研究[J].气象与环境学报,2009,25(5):57-61. 被引量：6
7王平水,王建东.匿名化隐私保护技术研究进展[J].计算机应用研究,2010,27(6):2016-2019. 被引量：10
8兰丽辉,鞠时光,金华,刘善成.数据发布中的隐私保护研究综述[J].计算机应用研究,2010,27(8):2822-2827. 被引量：14
9申艳光,邵慧,张永强.隐私保护的分布式决策树分类算法的研究[J].计算机应用研究,2010,27(8):3070-3072. 被引量：4
10朱青,赵桐,王珊.面向查询服务的数据隐私保护算法[J].计算机学报,2010,33(8):1315-1323. 被引量：33

同被引文献84

1陈荣荣,詹国华,李志华.基于XGBoost算法模型的信用卡交易欺诈预测研究[J].计算机应用研究,2020,37(S01):111-112. 被引量：14
2无.2020年支付体系运行总体情况[J].金融会计,2021(4):77-80. 被引量：4
3董师师,黄哲学.随机森林理论浅析[J].集成技术,2013,2(1):1-7. 被引量：145
4郝松,都志辉,王曼,刘志强.多核处理器降低功耗技术综述[J].计算机科学,2007,34(11):259-263. 被引量：6
5何允灵,秦娟,王佳,倪明,柴小丽.SoC处理器的电源管理系统设计[J].计算机工程,2008,34(16):262-264. 被引量：6
6黄国睿,张平,魏广博.多核处理器的关键技术及其发展趋势[J].计算机工程与设计,2009,30(10):2414-2418. 被引量：47
7方匡南,吴见彬,朱建平,谢邦昌.随机森林方法研究综述[J].统计与信息论坛,2011,26(3):32-38. 被引量：651
8陈运文,吴飞,刘博.智能终端的节能控制策略研究[J].上海工程技术大学学报,2014,28(4):351-354. 被引量：1
9陈华南,黄勇军,朱永庆.IP路由器技术发展趋势[J].电信科学,2015,31(4):139-141. 被引量：4
10原继东,王志海,韩萌.基于Shapelet剪枝和覆盖的时间序列分类算法[J].软件学报,2015,26(9):2311-2325. 被引量：16

引证文献8

1张海涛.联邦学习在金融数据安全领域的研究与应用[J].信息技术与网络安全,2022,41(1):3-9. 被引量：4
2华振兴.决策树算法在无人船异构通信网络切换中的应用[J].舰船科学技术,2022,44(24):67-70.
3刘华玲,曹世杰,许珺怡,陈尚辉.数字信用交易反欺诈研究进展[J].计算机科学与探索,2023,17(10):2300-2324.
4牛庆丽,朱耀琴.基于Spark计算的大数据终端潜在异常识别仿真[J].计算机仿真,2024,41(1):518-521. 被引量：1
5梁志宇,王宏志.智能物联网时序数据分析关键技术研究综述[J].智能计算机与应用,2023,13(12):1-8. 被引量：1
6吴洪蕊,王伟娟,刘明素.基于改进决策树算法的山区遥感影像变化检测方法[J].北京测绘,2023,37(12):1655-1661.
7晁松杰,娄艺.基于机器学习的处理器电源管理方法研究[J].通信电源技术,2024,41(4):131-133.
8黄丽芳.基于贝叶斯推理的数据云存储安全风险感知研究[J].宁夏师范学院学报,2024,45(4):90-99.

二级引证文献6

1陈镇光.联邦学习技术在证券行业的应用研究[J].金融纵横,2022(3):95-100.
2康孟珍,王秀娟,李冬,王旭伟,王浩宇,樊梦涵,许钰林,王飞跃.基于联邦学习的分布式农业组织[J].智能科学与技术学报,2022,4(2):288-297. 被引量：6
3刘紫微,郑山红.基于一种新的联邦优化算法的信用风险预测方法[J].长春工业大学学报,2023,44(1):58-64. 被引量：1
4秦宝东,杨国栋,马宇涵.一种基于异步联邦学习的安全聚合机制[J].西安邮电大学学报,2023,28(1):50-61.
5韩青,张志华,袁钏,金岩,杨瀚霆,胡玲茜.基于CIM的AIoT多模态数据融合与智能分析技术展望[J].中国建设信息化,2024(9):76-81.
6魏仕俊,李云,吴开平.基于无监督学习的计算机通信网络异常数据流辨识方法[J].计算机应用文摘,2024,40(12):102-104.

1尚珊,王祎.基于TAM模型的微博用户持续使用信息行为[J].晋图学刊,2021(4):23-31. 被引量：3
2李静,李贤,王越,徐文哲,石佳佳,陈会娜.决策树法和Logistic回归模型在ICU老年患者压疮影响因素中的应用[J].西北国防医学杂志,2021,42(7):685-690. 被引量：1
3吴联雯.农村小学高年级语文学困生现状与转化策略探寻[J].女人坊,2021(20):36-36.
4刘庆祥,许小龙,张旭云,窦万春.基于联邦学习的边缘智能协同计算与隐私保护方法[J].计算机集成制造系统,2021,27(9):2604-2610. 被引量：5
5沈杰,高赟.我国社会治理创新发展的经验及启示[J].山西社会主义学院学报,2021(2):59-66.
6梁昌权,谭文艳,陈潮立,潘兴华,凌秾喜,唐京雄.江门市严重精神障碍患者服药依从性及影响因素研究[J].临床心身疾病杂志,2021,27(5):88-91. 被引量：4
7谢春雨,王静,乔建红,李云峰,孟令霞,赵春燕,张灿玲.WORLD联合PBL教学模式对外科实习护生评判性思维能力和自主学习能力影响的研究[J].当代护士（中旬刊）,2021,28(9):163-166. 被引量：4
8Weikang Li,Sirui Lu,Dong-Ling Deng.Quantum federated learning through blind quantum computing[J].Science China(Physics,Mechanics & Astronomy),2021,64(10):64-71. 被引量：1
9刁杨华,徐溯.电力通信网中通信电源故障分析与维护[J].安防科技,2021(16):63-63.
10张西宁,余迪,刘书语.基于迁移学习的小样本轴承故障诊断方法研究[J].西安交通大学学报,2021,55(10):30-37. 被引量：34

计算机学报

2021年第10期

浏览历史

内容加载中请稍等...

面向隐私安全的联邦决策树算法被引量：8

参考文献6

二级参考文献88

共引文献281

同被引文献84

引证文献8

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

面向隐私安全的联邦决策树算法 被引量：8

参考文献6

二级参考文献88

共引文献281

同被引文献84

引证文献8

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

面向隐私安全的联邦决策树算法被引量：8