基于距离与误差平方和的差分隐私K-means聚类算法被引量：8

K-means Clustering Algorithm Based on Differential Privacy with Distance and Sum of Square Error

下载PDF

导出

摘要 K-means算法具有简单、快速、易于实现等优点,被广泛应用于数据挖掘领域,但在聚类过程中容易造成隐私泄露。差分隐私对隐私保护做了严格定义,且能够对隐私保护量化分析。为解决差分隐私保护中K-means聚类算法在初始中心点选择上具有盲目性而造成聚类可用性低的问题,文章提出一种BDPK-means聚类算法,该算法利用距离与簇内误差平方和的方法选取合理的初始中心点进行聚类。理论分析证明,该算法满足ε-差分隐私。实验证明,相同条件下与现有DPK-means算法相比,BDPK-means算法可提高聚类的可用性。 K-means algorithm is simple,fast and easy to implement.It is widely used in the field of data mining,but it is easy to cause privacy leakage in the process of clustering.Differential privacy has a strict definition of privacy protection,and it can be used for quantitative analysis of privacy protection.In order to solve the problem that the K-means clustering algorithm based on differential privacy has blindness in the selection of the initial center points,which results in low clustering availability,a BDPK-means clustering algorithm is proposed.The algorithm uses the distance and the sum of squared errors within the cluster to select the reasonable initial center points for clustering.The theory proves that the algorithm satisfies theε-differential privacy.Through simulation experiments,BDPK-means algorithm is compared with DPK-means algorithm under the same conditions,and the results show that BDPK-means algorithm can improve the availability of clustering.

作者黄保华程琪袁鸿黄丕荣 HUANG Baohua;CHENG Qi;YUAN Hong;HUANG Pirong(School of Computer,Electronics and Information,Guangxi University,Nanning 530004,China)

机构地区广西大学计算机与电子信息学院

出处《信息网络安全》 CSCD 北大核心 2020年第10期34-40,共7页 Netinfo Security

基金国家自然科学基金[61962005]。

关键词隐私保护数据挖掘差分隐私 K-MEANS聚类误差平方和 privacy protection data mining differential privacy K-means clustering SSE

分类号 TP309 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献3

1熊平,朱天清,王晓峰.差分隐私保护及其应用[J].计算机学报,2014,37(1):101-122. 被引量：176
2李杨,郝志峰,温雯,谢光强.差分隐私保护k-means聚类方法研究[J].计算机科学,2013,40(3):287-290. 被引量：48
3胡闯,杨庚,白云璐.面向差分隐私保护的聚类算法[J].计算机科学,2019,46(2):120-126. 被引量：12

二级参考文献24

1Blum A,Dwork C,McSherry F,et al.Practical Privacy:The SuLQ Framework[C] //24th ACM SIGMOD International Conference on Management of Data / Principles of Database Systems,Baltimore (PODS 2005).Baltimore,Maryland,USA,June 2005.
2Dwork C.Differential Privacy[C] //33rd International Colloquium on Automata,Languages and Programming,part Ⅱ (ICALP 2006).Venice,Italy,Springer Verlag,July 2006.
3Dwork C.Differential Privacy:A Survey of Results[C] //Theory and Applications of Models of Computation(TAMC2008).Xi'an,China,Springer Verlag,April 2008.
4Dwork C.The Differential Privacy Frontier[C] //6th Theory of Cryptography Conference (TCC 2009).San Francisco,CA,Springer Verlag,March 2009.
5Dwork C.Differential Privacy in New Settings[C] //Symposium on Discrete Algorithms (SODA),Society for Industrial and Applied Mathematics.Austin,TX,January 2010.
6Dwork C.A Firm Foundation for Private Data Analysis[J].Communications of the ACM,2011,54 (1):86-95.
7Dwork C.The Promise of Differential Privacy.A Tutorial on Algorithmic Techniques[C] // 52nd Annual IEEE Symposium on Foundations of Computer Science.Palm Springs,CA,October 2011.
8Agrawal R,Strikant R.Privacy-preserving data mining[C] //Proceedings of the 2000 ACM SIGMOD International Conference on Managementof Data.Dallas,Texas,May 2000:439-450.
9Sweeney L.K-anonymity:A Model for Protecting Privacy[J].International Journal on Uncertainty[J].Fuzziness and Knowledge-based Systems,2002,10 (5):557-570.
10Lindell Y,Pinkas B.Privacy preserving data mining[C] // Proceedings of the 20th Annual International Cryptology Conference on Advances in Cryptology.Santa Barbara,California,August 2000:36-54.

共引文献213

1李坪.大数据赋权正当性证成[J].中山大学法律评论,2020(1):3-21. 被引量：1
2张小玉,沈国华,杨阳.基于属性分割的差分隐私异构多属性数据发布[J].计算机系统应用,2022,31(10):225-235.
3李昱.“去识别化的个人信息”不受刑法保护吗?[J].刑事法评论,2019(1):656-692. 被引量：2
4刘丹青,高瑜,吴振强.基于距离贡献率的隐私保护框架下k-medoids算法研究[J].青海师范大学学报（自然科学版）,2022,38(1):4-13.
5程林,丰江帆.多维敏感属性流数据发布的隐私保护方法[J].中国科技论文在线精品论文,2021(2):212-219.
6李杨,郝志峰,肖燕珊,袁淦钊,谢光强.差分隐私DPE k-means数据聚合下的多维数据可视化[J].小型微型计算机系统,2013,34(7):1637-1640. 被引量：3
7侯令忠.基于差分隐私的体育个人信息安全保护及法律遵从研究[J].北京体育大学学报,2018,41(11):49-54. 被引量：9
8丁丽萍,卢国庆.面向频繁模式挖掘的差分隐私保护研究综述[J].通信学报,2014,35(10):200-209. 被引量：19
9陈旋,刘健,冯新淇,赵雪美.基于朴素贝叶斯的差分隐私合成数据集发布算法[J].计算机科学,2015,42(1):236-238. 被引量：11
10王超,杨静,张健沛.基于轨迹特征及动态邻近性的轨迹匿名方法研究[J].自动化学报,2015,41(2):330-341. 被引量：8

同被引文献81

1邹铁铮,李渊,张博锋,苏金树.基于支持向量机的操作系统识别方法[J].清华大学学报（自然科学版）,2009(S2):2164-2168. 被引量：7
2杨善林,李永森,胡笑旋,潘若愚.K-MEANS算法中的K值优化问题研究[J].系统工程理论与实践,2006,26(2):97-101. 被引量：192
3唐彰国,李焕洲,钟明全,张健.远程主机网络指纹模型研究[J].计算机工程与设计,2011,32(8):2592-2595. 被引量：3
4胡伟.改进的层次K均值聚类算法[J].计算机工程与应用,2013,49(2):157-159. 被引量：63
5隋新.主机特征信息被动识别的研究与实现[J].科学技术与工程,2013,21(3):652-658. 被引量：13
6成卫青,卢艳红.一种基于最大最小距离和SSE的自适应聚类算法[J].南京邮电大学学报（自然科学版）,2015,35(2):102-107. 被引量：46
7贾洪杰,丁世飞,史忠植.求解大规模谱聚类的近似加权核k-means算法[J].软件学报,2015,26(11):2836-2846. 被引量：31
8贾瑞玉,李振.基于最小生成树的层次K-means聚类算法[J].微电子学与计算机,2016,33(3):86-88. 被引量：18
9张素洁,赵怀慈.最优聚类个数和初始聚类中心点选取算法研究[J].计算机应用研究,2017,34(6):1617-1620. 被引量：82
10李俊,李玲娟.基于最小生成树的K-均值算法设计与并行化实现[J].南京邮电大学学报（自然科学版）,2017,37(5):81-86. 被引量：5

引证文献8

1赵书鹏.一种基于聚类的交通轨迹差分隐私保护数据发布方法[J].现代计算机,2021,27(23):29-35. 被引量：1
2孙林,刘梦含,徐久成.基于优化初始聚类中心和轮廓系数的K-means聚类算法[J].模糊系统与数学,2022,36(1):47-65. 被引量：46
3才让昂秀.一个用于网络主机智能识别的半监督学习模型[J].信息网络安全,2021(S01):203-207.
4尹寿芳,张善智.K-Means算法与数据挖掘在旅游电商平台设计中的应用[J].西昌学院学报（自然科学版）,2022,36(1):92-96. 被引量：3
5刘哲,周波,余澜婷,牛成钢,许幸满,赵良强,王文丰.融合Pearson相似度与最小生成树的K-means算法[J].南昌工程学院学报,2022,41(6):91-96. 被引量：1
6夏雪薇,张磊,李晶,邓雨康.基于乌鸦搜索的隐私保护聚类算法[J].计算机应用研究,2023,40(12):3778-3783.
7李界雯,陈佳佳,李师毅.自适应隐私预算分配的差分隐私梯度下降算法[J].数学的实践与认识,2024,54(7):129-140.
8郭如敏,陈学斌,单丽洋.差分隐私K-means聚类算法改进[J].哈尔滨理工大学学报,2024,29(4):21-28.

二级引证文献51

1Meiying You,Tianqi Wang,Miaomiao Wang,Wei Jiang,Jing Jiang,Xudong Li,Yuehua Hu,Dapeng Yin.Identifying the Optimal Age for Herpes Zoster Vaccination—Yichang City,Hubei Province,China,2017–2019[J].China CDC weekly,2022,4(29):631-634. 被引量：4
2郑舒,赵景涛,刘明祥.基于K-means聚类算法的风电光伏光热互补发电机组调度方法[J].电机与控制应用,2023,50(2):61-66. 被引量：4
3徐燕,樊娜,段宗涛,郝家欢,梁星.融合隐私保护的车辆轨迹数据停留点挖掘方法[J].计算机系统应用,2023,32(2):329-338.
4王添男,李新庆,王艳萍,谢雨婷.基于K-means聚类算法在告警平台的功能优化[J].信息技术与信息化,2023(2):187-190.
5江维国,李晨晨,申澳.被征地青年的发展分化及应对[J].甘肃理论学刊,2022(6):119-128.
6莫康信,苏佳佳,林嘉良,梁晓鑫.基于红外热图像的光伏组件缺陷检测系统研究[J].造纸装备及材料,2022,51(12):99-101. 被引量：2
7吕波,漆萌,葛鑫月.独角兽企业创新能力与区域创新生态系统耦合机制研究[J].科技管理研究,2023,43(3):1-9. 被引量：1
8郭允涛,白钊.基于改进K-means算法的航空客户细分研究[J].电子技术（上海）,2023,52(1):49-51. 被引量：2
9阮永芬,李鹏辉,张虔,朱强,王勇,闫明.基于最优k值k-means聚类分析的湖相沉积土层岩土参数分布研究[J].贵州大学学报（自然科学版）,2023,40(2):89-96. 被引量：1
10王毅,刘书铭,唐钰政,夏中原,郑晨.雷电引起的电压暂降严重程度自学习评估方法[J].电力工程技术,2023,42(2):188-196. 被引量：2

1梁烨.云计算下权重社会网络差分隐私保护数据聚类方法[J].自动化与仪器仪表,2020(10):55-58.
2孙志冉,苏航,梁毅.一种改进的K-Prototypes聚类算法[J].计算机工程与应用,2020,56(21):54-59. 被引量：4
3林丛辰,方炜.疫情防控背景下的大数据隐私保护[J].企业科技与发展,2020(10):107-110. 被引量：1
4崔慧丽,朱宁波.高校教师教书育人楷模的角色类型和胜任特征分析[J].教育探究,2020(3):64-64. 被引量：1
5史永胜,王文琪.基于改进三次指数平滑法的航材需求预测[J].计算机工程与设计,2020,41(11):3118-3122. 被引量：11
6王晓明,宋燕薇,李娜娜.侧胸壁肿瘤等中心点选择对放射治疗剂量的影响[J].全科医学临床与教育,2020,18(10):881-884. 被引量：1
7唐雅丽.艺术视角下人脸识别技术的法律规制[J].艺术科技,2020,33(22):58-59.
8孙博华,邓伟文,吴坚,李雅欣.虚拟随机车路场下驾驶人驾驶能力机理分析[J].机械工程学报,2020,56(16):166-180. 被引量：1
9郭仁春,赵立杰,白海军,王国刚,王倚天,汪滢.信号与系统中用旋转矢量描述负频率和相位角[J].电路与系统,2020,9(3):48-54.
10邹玉琪,程国柱,徐健航,王煊,王泽,吴思瑶.常规公交车站点停靠时间影响因素分析与建模[J].森林工程,2020,36(6):117-124. 被引量：2

信息网络安全

2020年第10期

浏览历史

内容加载中请稍等...

基于距离与误差平方和的差分隐私K-means聚类算法被引量：8

参考文献3

二级参考文献24

共引文献213

同被引文献81

引证文献8

二级引证文献51

相关作者

相关机构

相关主题

浏览历史

基于距离与误差平方和的差分隐私K-means聚类算法 被引量：8

参考文献3

二级参考文献24

共引文献213

同被引文献81

引证文献8

二级引证文献51

相关作者

相关机构

相关主题

浏览历史

基于距离与误差平方和的差分隐私K-means聚类算法被引量：8