面向本地差分隐私的K-Prototypes聚类方法被引量：3

K-Prototypes clustering method for local differential privacy

下载PDF

导出

摘要为了在聚类分析中保护数据隐私的同时确保数据的可用性,提出一种基于本地化差分隐私(LDP)技术的隐私保护聚类方案——LDPK-Prototypes。首先,用户对混合型数据集进行编码;其次,采用随机响应机制对敏感数据进行扰动,而第三方在收集到用户的扰动数据后以最大限度恢复原始数据集;然后,执行K-Prototypes聚类算法,在聚类过程中,使用相异性度量方法确定初始聚类中心,并利用熵权法重新定义新的距离计算公式。理论分析和实验结果表明,所提方案与基于中心化差分隐私(CDP)技术的ODPC算法相比,在Adult和Heart数据集上的平均准确率分别提高了2.95%和12.41%,有效提高了聚类的可用性。同时,LDPK-Prototypes扩大了数据之间的差异性,有效避免了局部最优,提高了聚类算法的稳定性。 In order to protect data privacy while ensuring data availability in clustering analysis,a privacy protection clustering scheme based on Local Differential Privacy(LDP)technique called LDPK-Prototypes(LDP K-Prototypes)was proposed.Firstly,the hybrid dataset was encoded by users.Then,a random response mechanism was used to disturb the sensitive data,and after collecting the users’disturbed data,the original dataset was recovered by the third party to the maximum extent.After that,the K-Prototypes clustering algorithm was performed.In the clustering process,the initial clustering center was determined by the dissimilarity measure method,and the new distance calculation formula was redefined by the entropy weight method.Theoretical analysis and experimental results show that compared with the ODPC(Optimizing and Differentially Private Clustering)algorithm based on the Centralized Differential Privacy(CDP)technique,the proposed scheme has the average accuracy on Adult and Heart datasets improved by 2.95%and 12.41%respectively,effectively improving the clustering usability.Meanwhile,LDPK-Prototypes expands the difference between data,effectively avoids local optimum,and improves the stability of the clustering algorithm.

作者张国鹏陈学斌王豪石翟冉马征 ZHANG Guopeng;CHEN Xuebin;WANG Haoshi;ZHAI Ran;MA Zheng(College of Science,North China University of Science and Technology,Tangshan Hebei 063210,China;Hebei Key Laboratory of Data Science and Application(North China University of Science and Technology),Tangshan Hebei 063010,China;Tangshan Key Laboratory of Data Science(North China University of Science and Technology),Tangshan Hebei 063010,China)

机构地区华北理工大学理学院河北省数据科学与应用重点实验室(华北理工大学) 唐山市数据科学重点实验室(华北理工大学)

出处《计算机应用》 CSCD 北大核心 2022年第12期3813-3821,共9页 journal of Computer Applications

基金国家自然科学基金资助项目(U20A20179)。

关键词本地化差分隐私 K-Prototypes 随机响应机制熵权法隐私保护 Local Differential Privacy(LDC) K-Prototypes random response mechanism entropy weight method privacy protection

分类号 TP309 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献8

1王巧玲,乔非,蒋友好.基于聚合距离参数的改进K-means算法[J].计算机应用,2019,39(9):2586-2590. 被引量：27
2叶青青,孟小峰,朱敏杰,霍峥.本地化差分隐私研究综述[J].软件学报,2018,29(7):1981-2005. 被引量：74
3李仁侃,叶东毅.粗糙K-Modes聚类算法[J].计算机应用,2011,31(1):97-100. 被引量：5
4李顺勇,顾嘉成.一种增强的K-prototypes混合数据聚类算法[J].陕西科技大学学报,2021,39(2):183-188. 被引量：4
5廖纪勇,吴晟,刘爱莲.基于相异性度量选取初始聚类中心改进的K-means聚类算法[J].控制与决策,2021,36(12):3083-3090. 被引量：26
6贾子琪,宋玲.一种面向混合型数据聚类的k-prototypes聚类算法[J].小型微型计算机系统,2020,41(9):1845-1852. 被引量：7
7彭春春,陈燕俐,荀艳梅.支持本地化差分隐私保护的k-modes聚类方法[J].计算机科学,2021,48(2):105-113. 被引量：14
8陈恒恒,倪志伟,朱旭辉,金媛媛,陈千.基于聚类分析的差分隐私高维数据发布方法[J].计算机应用,2021,41(9):2578-2585. 被引量：7

二级参考文献50

1周水庚,周傲英,金文,范晔,钱卫宁.FDBSCAN:一种快速 DBSCAN算法(英文)[J].软件学报,2000,11(6):735-744. 被引量：42
2HAN JIAWEI, KAMBER M. Data mining concepts and techniques [ M]. San Francisco, USA: Morgan Kaufmann, 2001.
3HUANG ZHEXUE. Extensions to the k-means algorithm for clustering large data sets with categorical vaiues[ C]// Data Mining and Knowledge Discovery. Netherlands: Kluwer Academic Publishers, 1998:283-304.
4HUANG ZHEXUE, MICHAEL K NG. A fuzzy k-modes algorithm for clustering categorical data[J]. IEEE Transactions on Fuzzy Systems, 1999, 7(4) : 446 -452.
5PALMER C R, FALOUTSOS C. Electricity based external similarity of categorical attributes[ C]// PAKDD '03: Proceedings of the 7th Pacific-Asia Conference on Advances in Knowledge Discovery and Data Mining, LNAI 2637. Berlin: Springer-Verlag, 2003: 486- 500.
6LE SI QUANG, HO TU BAO. A conditional probability distribution- based dissimilarity measure for categorical data[ C]// PAKDD '04: Proceedings of the 8th Pacific- Asia Conference on Advances in Knowledge Discovery and Data Mining, LNAI 3056. Berlin: Springer-Verlag, 2004:580-589.
7CHENG V, LI C-H, KWOK J T, et al. Dissimilarity learning for nominal data[J]. Pattern Recognition, 2004, 37(7) : 1471 - 1477.
8LEE S-G, YUN D-K. Clustering categorical and numerical data: a new procedure using multidimensional scaling [ J]. International Journal of Information Technology and Decision Making, 2003, 2 (1): 135-160.
9LI CEN, BISWAS GAUTAM. Unsupervised learning with mixed numeric and nominal data[ J]. IEEE Transactions on Knowledge and Data Engineering, 2002, 14(4) :673 -690.
10AHMAD A, DEY L. A method to compute distance between two categorical values of same attribute in unsupervised learning for categorical data set[ J]. Pattem Recognition Letters, 2007, 28(1) : 110 -118.

共引文献155

1张小玉,沈国华,杨阳.基于属性分割的差分隐私异构多属性数据发布[J].计算机系统应用,2022,31(10):225-235.
2刘丹青,高瑜,吴振强.基于距离贡献率的隐私保护框架下k-medoids算法研究[J].青海师范大学学报（自然科学版）,2022,38(1):4-13.
3陈敏琼.一种混合型数据的分布差异检验方法[J].哈尔滨师范大学自然科学学报,2024,40(3):14-23.
4孟小峰,王雷霞,刘俊旭.人工智能时代的数据隐私、垄断与公平[J].大数据,2020,6(1):35-46. 被引量：17
5孙慧中,杨健宇,程祥,苏森.一种基于随机投影的本地差分隐私高维数值型数据收集算法[J].大数据,2020,6(1):3-11. 被引量：4
6滑江,孙钰,周彦斌,蔡曙日,龚尚文.基于K-means方法的气象数据分区在公路养护的应用[J].公路交通科技,2022,39(S01):19-23. 被引量：1
7杨阳,张为群,刘枫,黄仁杰.基于MapReduce自适应参数的粗糙K-modes算法研究[J].计算机科学,2012,39(11):149-152.
8朱杰,陈黎飞.类属数据的贝叶斯聚类算法[J].计算机应用,2017,37(4):1026-1031. 被引量：2
9程铃钫,杨天鹏,陈黎飞.不平衡数据的软子空间聚类算法[J].计算机应用,2017,37(10):2952-2957. 被引量：4
10宋海娜,罗涛,韩新宇,李剑峰.面向多敏感值的个性化随机响应机制设计与分析[J].电子学报,2019,47(6):1236-1243.

同被引文献27

1李佳,范巍.基于改进D-S证据理论的网络入侵检测[J].控制工程,2017,24(11):2362-2367. 被引量：17
2冯钧,李顶圣,陆佳民,张立霞.基于HBase的路网移动对象时空索引方法[J].计算机应用,2018,38(6):1575-1583. 被引量：9
3吴磊,原鹏,丁维龙.智能家居网关与云服务器数据同步协议的研究[J].计算机技术与发展,2018,28(9):151-155. 被引量：28
4李永忠,陈兴亮,于化龙.基于改进DS证据融合与ELM的入侵检测算法[J].计算机应用研究,2016,33(10):3049-3051. 被引量：22
5韦海宇,王勇,柯文龙,俸皓.基于改进极端随机树的异常网络流量分类[J].计算机工程,2018,44(11):33-39. 被引量：28
6蒋荣萍.基于N⁃gram算法的网络安全风险检测系统设计[J].现代电子技术,2021,44(1):25-28. 被引量：12
7彭春春,陈燕俐,荀艳梅.支持本地化差分隐私保护的k-modes聚类方法[J].计算机科学,2021,48(2):105-113. 被引量：14
8王鹏,胡宏彬,李勇.大数据融合模型的智能化网络安全检测方法[J].计算机测量与控制,2021,29(5):40-44. 被引量：10
9陈解元.基于LSTM的卷积神经网络异常流量检测方法[J].信息技术与网络安全,2021,40(7):42-46. 被引量：19
10熊强,杨欣琦,李治文.网络安全漏洞信息披露中多元参与主体行为策略演化博弈分析[J].运筹与管理,2021,30(7):102-109. 被引量：17

引证文献3

1田小芳.基于人工蜂群算法的计算机网络DDoS攻击检测方法[J].计算机测量与控制,2023,31(12):28-33. 被引量：4
2李橙,何孙秦,卫星,张国华.基于孤立森林算法的弹性光网络异常流量自动识别方法[J].激光杂志,2024,45(1):179-183. 被引量：3
3祁富,陈丽敏.基于k-modes聚类算法的混洗差分隐私方法[J].牡丹江师范学院学报（自然科学版）,2024(2):6-13.

二级引证文献7

1江海.基于梯度提升决策树的计算机网络异常流量识别方法[J].信息技术与信息化,2024(7):47-52.
2覃小粉.基于人工蜂群算法的计算机网络DDoS攻击检测方法[J].移动信息,2024,46(7):206-208.
3王波.5G通信网络带宽流量异常自动预警方法[J].长江信息通信,2024,37(7):31-33.
4苏成武.全固态中波发射端监控系统攻击入侵快速告警方法研究[J].移动信息,2024,46(8):395-397.
5张仁飞,曾成.基于决策树挖掘的移动通信网络异常流量识别[J].电信快报,2024(10):36-39.
6蒋子昂,朱志亮,翁德华,伍默然,叶南.基于BOA-DF-LightGBM的入侵检测方法[J].计算机测量与控制,2024,32(12):88-95.
7林滔.数字交易通信网络DDoS攻击安全防护方法[J].无线互联科技,2024,21(23):26-28.

1张典范,杨镇豪,程淑红.基于ResNet50与迁移学习的轮毂识别[J].计量学报,2022,43(11):1412-1417. 被引量：11
2文庆军.泡沫轻质土性能试验与塑性损伤参数研究[J].建材世界,2022,43(6):43-46.
3张杰.基于人脸识别的门禁系统设计[J].通信电源技术,2022,39(15):53-55.
4田天祎,孙福明.基于域自适应的肿瘤识别模型[J].计算机科学,2022,49(12):250-256.
5王聪,夏乐,李建梅,范育英,郭姗姗.局部中晚期鼻咽癌患者人文关怀、生活质量状况及其相互关系[J].护理实践与研究,2022,19(23):3500-3505. 被引量：5
6高坤,李汪根,束阳,王志格,葛英奎.融入密集连接的多尺度轻量级人体姿态估计[J].计算机工程与应用,2022,58(24):196-204. 被引量：6
7柳兴华,曹桂涛,林秋斌,曹文明.自适应混合注意力深度跨模态哈希[J].计算机应用,2022,42(12):3663-3670. 被引量：1
8郭芳,王灿.“双碳”目标下的城市建设之路:从低碳走向碳中和[J].前沿科学,2022,16(2):46-50.
9郑志远,朱文章.双域融合和LSTM下的FMCW雷达人体活动识别方法[J].厦门理工学院学报,2022,30(5):15-21.
10无.环球时讯(2022年9月16日-30日)[J].中国财政,2022(20):87-87.

计算机应用

2022年第12期

浏览历史

内容加载中请稍等...

面向本地差分隐私的K-Prototypes聚类方法被引量：3

参考文献8

二级参考文献50

共引文献155

同被引文献27

引证文献3

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

面向本地差分隐私的K-Prototypes聚类方法 被引量：3

参考文献8

二级参考文献50

共引文献155

同被引文献27

引证文献3

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

面向本地差分隐私的K-Prototypes聚类方法被引量：3