非独立同分布下联邦半监督学习的数据分享研究

Research on Data Sharing of Federated Semi-Supervised Learning with Non-IID

下载PDF

导出

摘要联邦学习作为一种保护本地数据隐私安全的分布式机器学习方法,联合分散的设备共同训练共享模型。通常联邦学习在数据均有标签情况下进行训练,然而现实中无法保证标签数据完全存在,提出联邦半监督学习。在联邦半监督学习中,如何利用无标签数据提升系统性能和如何缓解数据异质性带来的负面影响是两大挑战。针对标签数据仅在服务器场景,基于分享的思想,设计一种可应用在联邦半监督学习系统上的方法Share&Mark,该方法将客户端的分享数据由专家标记后参与联邦训练。同时,为充分利用分享的数据,根据各客户端模型在服务器数据集上的损失值动态调整各客户端模型在联邦聚合时的占比,即ServerLoss聚合算法。综合考虑隐私牺牲、通信开销以及人工标注成本3个方面的因素,对不同分享率下的实验结果进行分析,结果表明,约3%的数据分享比例能平衡各方面因素。此时,采用Share&Mark方法的联邦半监督学习系统FedMatch在CIFAR-10和Fashion-MNIST数据集上训练的模型准确率均可提升8%以上,并具有较优的鲁棒性。 Federated Learning(FL)is a distributed machine-learning method that protects the privacy and security of local data by training a shared model on decentralized devices.Typically,FL is performed when all data are labeled.However,in reality,the availability of labeled data is not always guaranteed.Therefore,Federated Semi-Supervised Learning(FSSL)has been proposed.In FSSL,there are two major challenges:utilizing unlabeled data to improve system performance and mitigating the negative effects of data heterogeneity.To address the scenario in which labeled data exist only on the server,a method called Share&Mark is designed based on the concept of sharing.This method can be applied to FSSL systems.Share&Mark involves having experts annotate the shared data from client devices,which then participate in federated training.In addition,to leverage the shared data fully,the ServerLoss aggregation algorithm dynamically adjusts the proportions of the client models during federated aggregation based on their respective loss values on the server dataset.Considering privacy sacrifices,communication costs,and manual annotation costs,the experimental results for different sharing ratios are analyzed.It is found that a sharing ratio of approximately 3%is a balanced choice considering all factors.With Share&Mark method,the FSSL system called FedMatch achieves an accuracy improvement of more than 8%on the CIFAR-10 and Fashion-MNIST datasets.It also demonstrates high robustness.

作者顾永跟高凌轩吴小红陶杰 GU Yonggen;GAO Lingxuan;WU Xiaohong;TAO Jie(School of Information Engineering,Huzhou University,Huzhou 313000,Zhejiang,China)

机构地区湖州师范学院信息工程学院

出处《计算机工程》 CAS CSCD 北大核心 2024年第6期188-196,共9页 Computer Engineering

基金浙江省现代农业资源智慧管理与应用研究重点实验室项目(2020E10017)。

关键词联邦半监督学习联邦学习数据非独立同分布鲁棒性聚合算法数据分享 Federated Semi-Supervised Learning(FSSL) Federated Learning(FL) data non-Independent and Identical Distribution(non-IID) robustness aggregation algorithm data sharing

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1王树芬,张哲,马士尧,陈俞强,伍一.一种鲁棒的半监督联邦学习系统[J].计算机工程,2022,48(6):107-114. 被引量：3

二级参考文献6

1赵健,张鑫褆,李佳明,贺晨.群体智能2.0研究综述[J].计算机工程,2019,45(12):1-7. 被引量：25
2Yi Liu,Xingliang Yuan,Zehui Xiong,Jiawen Kang,Xiaofei Wang,Dusit Niyato.Federated Learning for 6G Communications:Challenges,Methods,and Future Directions[J].China Communications,2020,17(9):105-118. 被引量：23
3张曼,闫飞,阎高伟,李浦.基于狄利克雷问题的路网控制子区动态划分[J].计算机工程,2020,46(12):21-26. 被引量：2
4彭红艳,凌娇,覃少华,邓剑锋.面向边缘计算的属性加密方案[J].计算机工程,2021,47(1):37-43. 被引量：2
5杨文琦,章阳,聂江天,杨和林,康嘉文,熊泽辉.基于联邦学习的无线网络节点能量与信息管理策略[J].计算机工程,2022,48(1):188-196. 被引量：4
6温亚兰,陈美娟.融合联邦学习与区块链的医疗数据共享方案[J].计算机工程,2022,48(5):145-153. 被引量：15

共引文献2

1郑美光,杨泳.基于互信息软聚类的个性化联邦学习算法[J].计算机工程,2023,49(8):20-28. 被引量：1
2叶进,韦涛,胡亮青,罗森,李晓欢.一种面向智联网的高效联邦学习算法[J].计算机工程,2023,49(12):243-251. 被引量：1

1朱晨,马静,李犟.双重补贴下考虑低碳商誉的供应链决策和协调[J].控制与决策,2023,38(11):3261-3270.
2邢基祥,齐璐瑶,孙旭,张朝晖.基于两样本孟德尔随机化探讨BMI增高与慢性皮肤溃疡的关系[J].浙江医学,2024,46(11):1173-1176.
3董成荣,姚俊萍,李晓军,苏逸,周志杰.面向分布式复杂数据样本的联邦语义分割方法综述[J].计算机应用研究,2024,41(6):1610-1617.
4陈涛,谢在鹏,屈志昊.基于动态阈值增强原型网络的联邦半监督学习模型[J].智能系统学报,2024,19(3):534-545.
5李妙然,孟妍,张煊,华克勤,沈艳.新媒体时代下女性生殖健康教育的实践探索[J].中国妇幼保健,2023,38(21):4259-4264.
6瞿峰.短视频创作技巧研究[J].东西南北,2023(18):33-35.
7陈朝宏.利用雷达测试数据对无控火箭弹进行气动辨识及偏差分析[J].中文科技期刊数据库（文摘版）工程技术,2016(10):256-256.
8孔佳琳,张琪,王财勇.异质虹膜识别研究综述[J].计算机科学,2024,51(6):186-197.
9赵美风,王悦,汪茉茉,薛洁欣.自媒体传播下商业街区的业态格局与活力演变及其机理——以天津西青区姚村商业街为例[J].地理科学进展,2023,42(7):1256-1271. 被引量：3
10苏秦,王苞,刘海龙.代工模式下新产品性能和可靠性的决策研究[J].工业工程与管理,2023,28(6):47-56.

计算机工程

2024年第6期

浏览历史

内容加载中请稍等...

非独立同分布下联邦半监督学习的数据分享研究

参考文献1

二级参考文献6

共引文献2

相关作者

相关机构

相关主题

浏览历史