面向差分隐私保护的聚类算法被引量：12

Clustering Algorithm in Differential Privacy Preserving

下载PDF

导出

摘要大数据时代的数据挖掘技术在研究和应用等领域取得了较大发展,但大量敏感信息披露给用户带来了众多威胁和损失。因此,在聚类分析过程中如何保护数据隐私成为数据挖掘和数据隐私保护领域的热点问题。传统差分隐私保护k-means算法对其初始中心点的选择较为敏感,而且在聚簇个数k值的选择上存在一定的盲目性,降低了聚类结果的可用性。为了进一步提高差分隐私k-means聚类方法聚类结果的可用性,研究并提出一种新的基于差分隐私的DPk-means-up聚类算法,同时进行了理论分析和比较实验。理论分析表明,该算法满足ε-差分隐私,可适用于不同规模和不同维度的数据集。此外,实验结果表明,在相同隐私保护级别下,与其他差分隐私k-means聚类方法相比,所提算法有效提高了聚类的可用性。 Data mining has made great progress in the field of research and application of big data,but sensitive information disclosure could bring users many threats and losses.Therefore,how to protect data privacy in clustering analysis has become a hot issue in data mining and data privacy protection.Traditional differential privacy k-means is sensitive to the selection of its initial centers,and it has a certain blindness in the selection of cluster number k,which reduces the availability of clustering results.To improve the availability of clustering results of differential privacy k-means clustering,this paper presented a new DPk-means-up clustering algorithm based on differential privacy and carried out theoretical analysis and comparison experiment.Theoretical analysis shows that the algorithm satisfiesε-differential privacy,and can be applied to data sets with different sizes and dimensions.In addition,experimental results indicate that the proposed algorithm improves clustering availability than other differential privacy k-means clustering methods at the same level of privacy preserve.

作者胡闯杨庚白云璐 HU Chuang;YANG Geng;BAI Yun-lu(College of Computer Science,Nanjing University of Posts and Telecommunications,Nanjing 210003,China;Jiangsu Key Laboratory of Big Data Security&Intelligent Processing,Nanjing 210023,China;College of Information Technology,Nanjing University of Chinese Medicine,Nanjing 210023,China)

机构地区南京邮电大学计算机学院江苏省大数据安全与智能处理重点实验室南京中医药大学信息技术学院

出处《计算机科学》 CSCD 北大核心 2019年第2期120-126,共7页 Computer Science

基金国家自然科学基金项目(61572263) 江苏省自然科学基金政策引导类计划--前瞻性联合研究项目(2016ZS04)资助

关键词差分隐私 K-均值聚类算法隐私保护 Differential privacy k-means Clustering algorithms Privacy preserving

分类号 TP309 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献3

1张付霞,蒋朝惠.一种基于网格聚类的查询隐私匿名算法研究[J].信息网络安全,2015(8):53-58. 被引量：4
2方跃坚,朱锦钟,周文,李同亮.数据挖掘隐私保护算法研究综述[J].信息网络安全,2017(2):6-11. 被引量：26
3李杨,郝志峰,温雯,谢光强.差分隐私保护k-means聚类方法研究[J].计算机科学,2013,40(3):287-290. 被引量：48

二级参考文献42

1潘晓,肖珍,孟小峰.位置隐私研究综述[J].计算机科学与探索,2007,1(3):268-281. 被引量：65
2Blum A,Dwork C,McSherry F,et al.Practical Privacy:The SuLQ Framework[C] //24th ACM SIGMOD International Conference on Management of Data / Principles of Database Systems,Baltimore (PODS 2005).Baltimore,Maryland,USA,June 2005.
3Dwork C.Differential Privacy[C] //33rd International Colloquium on Automata,Languages and Programming,part Ⅱ (ICALP 2006).Venice,Italy,Springer Verlag,July 2006.
4Dwork C.Differential Privacy:A Survey of Results[C] //Theory and Applications of Models of Computation(TAMC2008).Xi'an,China,Springer Verlag,April 2008.
5Dwork C.The Differential Privacy Frontier[C] //6th Theory of Cryptography Conference (TCC 2009).San Francisco,CA,Springer Verlag,March 2009.
6Dwork C.Differential Privacy in New Settings[C] //Symposium on Discrete Algorithms (SODA),Society for Industrial and Applied Mathematics.Austin,TX,January 2010.
7Dwork C.A Firm Foundation for Private Data Analysis[J].Communications of the ACM,2011,54 (1):86-95.
8Dwork C.The Promise of Differential Privacy.A Tutorial on Algorithmic Techniques[C] // 52nd Annual IEEE Symposium on Foundations of Computer Science.Palm Springs,CA,October 2011.
9Agrawal R,Strikant R.Privacy-preserving data mining[C] //Proceedings of the 2000 ACM SIGMOD International Conference on Managementof Data.Dallas,Texas,May 2000:439-450.
10Sweeney L.K-anonymity:A Model for Protecting Privacy[J].International Journal on Uncertainty[J].Fuzziness and Knowledge-based Systems,2002,10 (5):557-570.

共引文献71

1刘丹青,高瑜,吴振强.基于距离贡献率的隐私保护框架下k-medoids算法研究[J].青海师范大学学报（自然科学版）,2022,38(1):4-13.
2程林,丰江帆.多维敏感属性流数据发布的隐私保护方法[J].中国科技论文在线精品论文,2021(2):212-219.
3李杨,郝志峰,肖燕珊,袁淦钊,谢光强.差分隐私DPE k-means数据聚合下的多维数据可视化[J].小型微型计算机系统,2013,34(7):1637-1640. 被引量：3
4丁丽萍,卢国庆.面向频繁模式挖掘的差分隐私保护研究综述[J].通信学报,2014,35(10):200-209. 被引量：19
5吴伟民,黄焕坤.基于差分隐私保护的DP-DBScan聚类算法研究[J].计算机工程与科学,2015,37(4):830-834. 被引量：26
6李洪成,吴晓平,陈燕.MapReduce框架下支持差分隐私保护的k-means聚类方法[J].通信学报,2016,37(2):124-130. 被引量：23
7刘晓迁,李千目.基于聚类匿名化的差分隐私保护数据发布方法[J].通信学报,2016,37(5):125-129. 被引量：21
8李灵芳,黄文培,胡伟健.PINQ下K-means的差分隐私保护研究[J].软件导刊,2016,15(6):204-208. 被引量：2
9刘杰,赵满仓,张淑艳.聚类分析法在癌胚抗原数据挖掘分析中的应用研究[J].北京生物医学工程,2016,35(4):395-399. 被引量：1
10方炜炜,谢伟,黄宏博,夏红科.基于隐私保护的序列模式挖掘[J].计算机科学,2016,43(12):195-199. 被引量：4

同被引文献69

1周世兵,徐振源,唐旭清.K-means算法最佳聚类数确定方法[J].计算机应用,2010,30(8):1995-1998. 被引量：140
2原福永,张晓彩,罗思标.基于信息熵的精确属性赋权K-means聚类算法[J].计算机应用,2011,31(6):1675-1677. 被引量：37
3顾朝晖,卢振波.图书馆个性化服务中的用户个人信息隐私权保护[J].图书馆论坛,2011,31(5):141-143. 被引量：10
4李杨,郝志峰,温雯,谢光强.差分隐私保护k-means聚类方法研究[J].计算机科学,2013,40(3):287-290. 被引量：48
5耿生玲,李永明,刘震.关联规则挖掘的软集包含度方法[J].电子学报,2013,41(4):804-809. 被引量：17
6王雪梅,李晓峰,高巍巍.一种改进的K-Means聚类算法的研究[J].计算机与数字工程,2013,41(11):1717-1719. 被引量：6
7熊平,朱天清,王晓峰.差分隐私保护及其应用[J].计算机学报,2014,37(1):101-122. 被引量：174
8刘雅辉,张铁赢,靳小龙,程学旗.大数据时代的个人隐私保护[J].计算机研究与发展,2015,52(1):229-247. 被引量：261
9李运娣,文政颖,于海鹏.基于k-means算法和相关反馈信息的图像检索方法[J].福建电脑,2015,31(5):19-20. 被引量：2
10申彦,朱玉全.CMP上基于数据集划分的K-means多核优化算法[J].智能系统学报,2015,10(4):607-614. 被引量：4

引证文献12

1刘丹青,高瑜,吴振强.基于距离贡献率的隐私保护框架下k-medoids算法研究[J].青海师范大学学报（自然科学版）,2022,38(1):4-13.
2赵莉,付世凤.一种改进的面向差分隐私保护的k-means聚类算法[J].信息与电脑,2019,0(14):49-52. 被引量：2
3吴海丽.大数据挖掘中的K-means无监督聚类算法的改进[J].现代电子技术,2020,43(19):118-121. 被引量：4
4黄保华,程琪,袁鸿,黄丕荣.基于距离与误差平方和的差分隐私K-means聚类算法[J].信息网络安全,2020(10):34-40. 被引量：6
5张可铧,成卫青.基于空间动态划分的差分隐私聚类算法[J].计算机工程与应用,2021,57(2):97-103. 被引量：3
6彭春春,陈燕俐,荀艳梅.支持本地化差分隐私保护的k-modes聚类方法[J].计算机科学,2021,48(2):105-113. 被引量：11
7胡兆玮.一种基于最小支持度的轨迹隐私保护方法[J].吉林师范大学学报（自然科学版）,2021,42(3):110-114. 被引量：1
8赵书鹏.一种基于聚类的交通轨迹差分隐私保护数据发布方法[J].现代计算机,2021,27(23):29-35. 被引量：1
9张亚玲,屈玲玉.应用BWP指标的差分隐私保护k-means算法[J].计算机工程与应用,2022,58(10):108-115. 被引量：6
10张俊,刘德安,申自浩,王辉,刘沛骞.面向轨迹数据发布的KSDP方案[J].深圳大学学报（理工版）,2023,40(2):236-243.

二级引证文献35

1李雪瑞,侯幸刚,杨梅,王璐瑶,王怡妍,李欣颖.数字孪生驱动的工业产品CMF设计服务模型构建与应用[J].计算机集成制造系统,2021,27(2):307-327. 被引量：13
2王志强.基于局部引力模型的聚类算法研究综述[J].信息与电脑,2021,33(8):56-58.
3赵书鹏.一种基于聚类的交通轨迹差分隐私保护数据发布方法[J].现代计算机,2021,27(23):29-35. 被引量：1
4商新新,牟莉.基于聚类和关联规则的煤炭项目挖掘[J].电子设计工程,2021,29(19):137-141.
5张亚迪,孙悦,刘锋,朱二周.结合密度参数与中心替换的改进K-means算法及新聚类有效性指标研究[J].计算机科学,2022,49(1):121-132. 被引量：12
6孔钰婷,谭富祥,赵鑫,张正航,白璐,钱育蓉.基于差分隐私的K-means算法优化研究综述[J].计算机科学,2022,49(2):162-173. 被引量：5
7张帅,曲娜,郑天芳,胡从强,李玮祯.基于K-means算法的故障电弧检测方法[J].沈阳航空航天大学学报,2022,39(1):61-68. 被引量：5
8孙林,刘梦含,徐久成.基于优化初始聚类中心和轮廓系数的K-means聚类算法[J].模糊系统与数学,2022,36(1):47-65. 被引量：36
9才让昂秀.一个用于网络主机智能识别的半监督学习模型[J].信息网络安全,2021(S01):203-207.
10王豪石,张淑芬,董燕灵,李帅.面向差分隐私的BIRCH算法研究[J].软件导刊,2022,21(4):116-120. 被引量：1

1戴月明,王明慧,张明,王艳.SVD优化初始簇中心的K-means中文文本聚类算法[J].系统仿真学报,2018,30(10):3835-3842. 被引量：9
2何利,姚元辉.基于上下文聚类的云虚拟机异常检测与识别策略[J].信息网络安全,2018(12):54-65. 被引量：2
3徐亚红,杨庚,白云璐,汪伟亚.面向主成分分析的差分隐私数据发布算法[J].网络空间安全,2018,9(10):74-82. 被引量：1
4王万良,胡禹.基于MapReduce的CTK加权聚类改进算法[J].微电子学与计算机,2018,35(12):105-109. 被引量：3
5王炳乾,陈建华,许开行,卢健.分层贪心聚簇算法研究[J].科技与创新,2019(1):43-45.
6周功建.基于Hadoop平台Canopy-Kmeans聚类算法优化改进研究[J].安徽广播电视大学学报,2018(4):117-122. 被引量：2
7郭卫霞,薛涛,李婷.基于Hadoop的Canopy-K-means并行算法的学生成绩与毕业流向关系分析[J].西安工程大学学报,2018,32(6):705-712. 被引量：11
8宗春梅,赵青杉,焦莉娟.基于簇内差异度的K-均值算法应用研究[J].忻州师范学院学报,2018,34(5):26-30.
9任凯强,孙正波.基于虚拟参考站的同步三星时差定位系统广域差分校正算法[J].电子与信息学报,2019,41(2):433-439. 被引量：3
10朱越,李振伟,杨晓利,胡志刚.基于视觉的静态手势识别系统[J].计算机技术与发展,2019,29(2):69-72. 被引量：10

计算机科学

2019年第2期

浏览历史

内容加载中请稍等...

面向差分隐私保护的聚类算法被引量：12

参考文献3

二级参考文献42

共引文献71

同被引文献69

引证文献12

二级引证文献35

相关作者

相关机构

相关主题

浏览历史

面向差分隐私保护的聚类算法 被引量：12

参考文献3

二级参考文献42

共引文献71

同被引文献69

引证文献12

二级引证文献35

相关作者

相关机构

相关主题

浏览历史

面向差分隐私保护的聚类算法被引量：12