随着云存储、人工智能等技术的发展,数据的价值已获得显著增长。但由于昂贵的通信代价和难以承受的数据泄露风险迫使各机构间产生了“数据孤岛”问题,大量数据无法发挥它的经济价值。虽然将区块链作为承载联邦学习的平台能够在一定程度...随着云存储、人工智能等技术的发展,数据的价值已获得显著增长。但由于昂贵的通信代价和难以承受的数据泄露风险迫使各机构间产生了“数据孤岛”问题,大量数据无法发挥它的经济价值。虽然将区块链作为承载联邦学习的平台能够在一定程度上解决该问题,但也带来了三个重要的缺陷:1)工作量证明(Proof of Work,POW)、权益证明(Proof of Stake,POS)等共识过程与联邦学习训练过程并无关联,共识将浪费大量算力和带宽;2)节点会因为利益的考量而拒绝或消极参与训练过程,甚至因竞争关系干扰训练过程;3)在公开的环境下,模型训练过程的数据难以溯源,也降低了攻击者的投毒成本。研究发现,不依靠工作量证明、权益证明等传统共识机制而将联邦学习与模型水印技术予以结合来构造全新的共识激励机制,能够很好地避免联邦学习在区块链平台上运用时所产生的算力浪费及奖励不均衡等情况。基于这种共识所设计的区块链系统不仅仍然满足不可篡改、去中心化、49%拜占庭容错等属性,还天然地拥有49%投毒攻击防御、数据非独立同分布(Not Identically and Independently Distributed,Non-IID)适应以及模型产权保护的能力。实验与论证结果都表明,本文所提出的方案非常适用于非信任的机构间利用大量本地数据进行商业联邦学习的场景,具有较高的实际价值。展开更多
文摘随着云存储、人工智能等技术的发展,数据的价值已获得显著增长。但由于昂贵的通信代价和难以承受的数据泄露风险迫使各机构间产生了“数据孤岛”问题,大量数据无法发挥它的经济价值。虽然将区块链作为承载联邦学习的平台能够在一定程度上解决该问题,但也带来了三个重要的缺陷:1)工作量证明(Proof of Work,POW)、权益证明(Proof of Stake,POS)等共识过程与联邦学习训练过程并无关联,共识将浪费大量算力和带宽;2)节点会因为利益的考量而拒绝或消极参与训练过程,甚至因竞争关系干扰训练过程;3)在公开的环境下,模型训练过程的数据难以溯源,也降低了攻击者的投毒成本。研究发现,不依靠工作量证明、权益证明等传统共识机制而将联邦学习与模型水印技术予以结合来构造全新的共识激励机制,能够很好地避免联邦学习在区块链平台上运用时所产生的算力浪费及奖励不均衡等情况。基于这种共识所设计的区块链系统不仅仍然满足不可篡改、去中心化、49%拜占庭容错等属性,还天然地拥有49%投毒攻击防御、数据非独立同分布(Not Identically and Independently Distributed,Non-IID)适应以及模型产权保护的能力。实验与论证结果都表明,本文所提出的方案非常适用于非信任的机构间利用大量本地数据进行商业联邦学习的场景,具有较高的实际价值。