一种面向聚类的隐私保护数据发布方法被引量：13

A Privacy-Preserving Data Publishing Algorithm for Clustering Application

下载PDF

导出

摘要隐私保护微数据发布技术可以在保护敏感数据隐私的同时,维持数据的可用性.但已有的多数发布方法都局限于类别属性数据集,发布后数据可用性以维持数据聚集查询可用性和频繁项集分析、分类挖掘可用性为主.针对数据挖掘领域另一重要任务——聚类分析,以及聚类分析中常处理的数值属性数据隐藏发布问题,提出隐藏算法NeSDO,算法对数据记录关于聚类可用性的特征进行分析,引入个性数据记录和共性数据记录的定义.采用合成数据替换扰动方法,为个性数据记录定义相应的正邻域记录集和负邻域记录集.对共性数据记录用其k最近邻域数据记录的均值替换;对个性数据记录分别采用其正邻域记录集或负邻域记录集内记录的均值进行置换,实现隐藏处理.理论分析和实验结果表明,算法NeSDO能够较好地保护敏感数值不泄露,同时能够有效保持发布后数据的聚类可用性. Privacy has become a more and more serious concern in applications involving micro-data. Recently, privacy-preserving data publishing has attracted much research work. Most of the present methods focus on categorical data publishing, and the potential applications are mainly for aggregate querying, frequent pattern mining and classification. Concerning the problem of publishing numerical data for clustering analysis, definitions of individual data record and common data record are introduced by making density analysis within the neighborhood of a given record, which can describe the effect of each data record on maintaining clustering usability. Furthermore, positive neighborhood and negative neighborhood are designed for individual data record respectively. Based on the above definitions, a data obfuscating method NeSDO is proposed, which realizes privacy-preserving data publishing by substituting primitive micro-data values with synthetic statistical values of some suitable data subset. For an individual data record, average value of records in its negative neighborhood（or positive neighborhood） is adopted to substitute corresponding items of this record. For a common data record, average value of records in its k nearest neighborhood is adopted vice versa. Theoretical analysis and experimental results indicate that the algorithm NeSDO is effective and can preserve privacy of the sensitive data well meanwhile maintaining better clustering usability.

作者崇志宏倪巍伟刘腾腾张勇

机构地区东南大学计算机科学与工程学院

出处《计算机研究与发展》 EI CSCD 北大核心 2010年第12期2083-2089,共7页 Journal of Computer Research and Development

基金国家自然科学基金项目(61003057 60973023) 江苏省自然科学基金项目(BK2006095)

关键词隐私保护数据发布聚类 k邻域个性数据记录共性数据记录 privacy-preserving data publishing clustering k nearest neighborhood individual data record common data record

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献11

1Kantarcioglu M,Jin Jiasun,Clifton C.When do data mining results violate privacy?[C]//Proc of the 10th ACM SIGKDD Int Conf on Knowledge Discovery and Data Mining.New York:ACM,2004:599-604.
2Agrawal R,Srikant R.Privacy-preserving data mining[C]//Proc of the 2000 ACM SIGMOD Conf on Management of Data.New York:ACM,2000:439-450.
3周水庚,李丰,陶宇飞,肖小奎.面向数据库应用的隐私保护研究综述[J].计算机学报,2009,32(5):847-861. 被引量：220
4Oliveira S R M,Zaane O R.Privacy preservation when sharing data for clustering[C]//Proc of the Int Workshop on Secure Data Management in a Connected World.Berlin:Springer,2004:67-82.
5Parameswaran R,Blough D M.Privacy preserving data obfuscation for inherently clustered data[J].International Journal of Information and Computer Security,2008,2(1):1744-1765.
6Mukherjee S,Chen Zhiyuan,Gangopadhyay A.A privacy-preserving technique for Euclidean distance-based mining algorithms using Fourier-related transforms[J].The International Journal on Very Large Data Bases,2006,15(4):293-315.
7倪巍伟,徐立臻,崇志宏,吴英杰,刘腾腾,孙志挥.基于邻域属性熵的隐私保护数据干扰方法[J].计算机研究与发展,2009,46(3):498-504. 被引量：16
8Aggarwal G,Feder T,Kenthapadi K,et al.Approximation algorithms for k-anonymity[C]//Proc of ACM SIGMOD Int Conf on Management of Data.New York:ACM,2007.
9Du Yang,Xia Tian,Tao Yufei,et al.On multidimensional k-anonymity with local recoding generalization[C]//Proc of IEEE the 23rd Int Conf on Data Engineering.Los Alamitos,CA:IEEE Computer Society,2007.
10Rijsbergen C J van.Information Retrieval (2nd edition)[M].London:Butterworths,1979.

二级参考文献84

1倪巍伟,孙志挥,陆介平.k-LDCHD——高维空间k邻域局部密度聚类算法[J].计算机研究与发展,2005,42(5):784-791. 被引量：18
2罗永龙,黄刘生,荆巍巍,姚亦飞,陈国良.一个保护私有信息的布尔关联规则挖掘算法[J].电子学报,2005,33(5):900-903. 被引量：33
3葛伟平,汪卫,周皓峰,施伯乐.基于隐私保护的分类挖掘[J].计算机研究与发展,2006,43(1):39-45. 被引量：20
4杨晓春,刘向宇,王斌,于戈.支持多约束的K-匿名化方法[J].软件学报,2006,17(5):1222-1231. 被引量：60
5张鹏,童云海,唐世渭,杨冬青,马秀莉.一种有效的隐私保护关联规则挖掘方法[J].软件学报,2006,17(8):1764-1774. 被引量：53
6张锋,常会友.基于分布式数据的隐私保持协同过滤推荐研究[J].计算机学报,2006,29(8):1487-1495. 被引量：17
7羌卫中,邹德清,金海.网格环境中证书和策略的隐私保护机制研究[J].计算机研究与发展,2007,44(1):11-19. 被引量：11
8Kantarcioglu M, Jin Jiasun, Clifton C. When do data mining results violate privacy [C]//Proc of the 10th ACM SIGKDD on Int Conf on Knowledge Discovery and Data Mining. New York: ACM, 2004:599-604
9Agrawal R, Srikant R. Privacy-preserving data mining [C]// Proc of the 2000 ACM SIGMOD Conf on Management of Data. New York: ACM, 2000:439-450
10Gagan Aggarwal, Tomas Feder, Krishnaram Kenthapadi, et al. Approximation algorithms for k knonymity [C] //Proc of ACM SIGMOD Int Conf on Management of Data. New York: ACM, 2007:67-78

共引文献228

1王一蕾,吴英杰,唐庆明.基于混合划分技术的隐私保护关系型数据发布算法[J].南京理工大学学报,2013,37(4):493-499. 被引量：2
2张勇,倪巍伟,崇志宏,胡新平.基于邻域相关性的面向聚类数据扰动方法[J].计算机研究与发展,2011,48(S3):79-85. 被引量：1
3武毅,王丹,蒋宗礼.基于事务型K-Anonymity的动态集值属性数据重发布隐私保护方法[J].计算机研究与发展,2013,50(S1):248-256. 被引量：7
4万绪江,刘晓东,李洋.基于数据库管理安全的研究[J].气象与环境学报,2009,25(5):57-61. 被引量：6
5王平水,王建东.匿名化隐私保护技术研究进展[J].计算机应用研究,2010,27(6):2016-2019. 被引量：10
6兰丽辉,鞠时光,金华,刘善成.数据发布中的隐私保护研究综述[J].计算机应用研究,2010,27(8):2822-2827. 被引量：14
7申艳光,邵慧,张永强.隐私保护的分布式决策树分类算法的研究[J].计算机应用研究,2010,27(8):3070-3072. 被引量：4
8朱青,赵桐,王珊.面向查询服务的数据隐私保护算法[J].计算机学报,2010,33(8):1315-1323. 被引量：33
9刘腾腾,倪巍伟,崇志宏,张勇.多维数值敏感属性隐私保护数据发布方法[J].东南大学学报（自然科学版）,2010,40(4):699-703. 被引量：6
10陈娟,方滨兴,殷丽华,苏申.传感器网络中基于源节点有限洪泛的源位置隐私保护协议[J].计算机学报,2010,33(9):1736-1747. 被引量：53

同被引文献119

1张欣.算法影响评估制度的构建机理与中国方案[J].法商研究,2021(2):102-115. 被引量：77
2韩勇.中国反兴奋剂模式探索:在控制模式与正当程序模式间平衡[J].北京体育大学学报,2023,46(5):37-49. 被引量：2
3叶杰敏,刘国华,貟慧,石丹妮,吴云龙,费凡.Attribute-or模型下不确定关系的无损分解算法[J].计算机研究与发展,2013,50(S1):117-124. 被引量：1
4罗永龙,黄刘生,荆巍巍,徐维江.空间几何对象相对位置判定中的私有信息保护[J].计算机研究与发展,2006,43(3):410-416. 被引量：44
5杨晓春,刘向宇,王斌,于戈.支持多约束的K-匿名化方法[J].软件学报,2006,17(5):1222-1231. 被引量：60
6韩家炜范明孟小峰.数据挖掘概念与技术[M].北京：机械工业出版社,2001..
7Blum A,Dwork C,McSherry F,et al.Practical Privacy:The SuLQ Framework[C] //24th ACM SIGMOD International Conference on Management of Data / Principles of Database Systems,Baltimore (PODS 2005).Baltimore,Maryland,USA,June 2005.
8Dwork C.Differential Privacy[C] //33rd International Colloquium on Automata,Languages and Programming,part Ⅱ (ICALP 2006).Venice,Italy,Springer Verlag,July 2006.
9Dwork C.Differential Privacy:A Survey of Results[C] //Theory and Applications of Models of Computation(TAMC2008).Xi'an,China,Springer Verlag,April 2008.
10Dwork C.The Differential Privacy Frontier[C] //6th Theory of Cryptography Conference (TCC 2009).San Francisco,CA,Springer Verlag,March 2009.

引证文献13

1桂琼,程小辉.基于聚类的分级匿名方法[J].计算机应用,2013,33(2):412-416. 被引量：4
2李杨,郝志峰,温雯,谢光强.差分隐私保护k-means聚类方法研究[J].计算机科学,2013,40(3):287-290. 被引量：48
3刘英华.分布式隐私保护FHE-DBIRCH模型研究[J].计算机工程与科学,2014,36(7):1384-1388.
4徐东镇.试析面向大数据的个性化检索中的用户匿名化策略[J].电子世界,2014(24):10-10. 被引量：1
5刘晓迁,李千目.基于聚类匿名化的差分隐私保护数据发布方法[J].通信学报,2016,37(5):125-129. 被引量：21
6张卫国,孙嫚,陈振华,陈娓.空间位置关系的安全多方计算及其应用[J].电子与信息学报,2016,38(9):2294-2300. 被引量：6
7崔一辉,宋伟,王占兵,史成良,程芳权.一种基于格的隐私保护聚类数据挖掘方法[J].软件学报,2017,28(9):2293-2308. 被引量：26
8刘强,李桐,于洋,蔡志平,周桐庆.面向可穿戴设备的数据安全隐私保护技术综述[J].计算机研究与发展,2018,55(1):14-29. 被引量：29
9施进发,焦合军,赵群力,丁钰.公共云环境下的多租户数据隐私研究[J].计算机工程与应用,2016,52(20):138-144. 被引量：2
10牛新征,王崇屹,叶志佳,佘堃.基于簇和阈值区间的高效关联规则隐藏算法[J].计算机研究与发展,2017,54(12):2785-2796. 被引量：9

二级引证文献150

1陈振华,黄路琪,史晓楠,聂靖靖.信息论安全的3个基础外包计算协议及空间位置关系保密判定[J].西安科技大学学报,2019,0(6):1049-1056. 被引量：1
2田智莹,罗甜甜.大数据时代我国智慧养老市场模式的成本研究[J].企业改革与管理,2021(5):12-13.
3刘丹青,高瑜,吴振强.基于距离贡献率的隐私保护框架下k-medoids算法研究[J].青海师范大学学报（自然科学版）,2022,38(1):4-13.
4许天颖.数据智能化规训:可穿戴设备的隐私风险与保护[J].江西社会科学,2022,42(12):162-170. 被引量：5
5程林,丰江帆.多维敏感属性流数据发布的隐私保护方法[J].中国科技论文在线精品论文,2021(2):212-219.
6李杨,郝志峰,肖燕珊,袁淦钊,谢光强.差分隐私DPE k-means数据聚合下的多维数据可视化[J].小型微型计算机系统,2013,34(7):1637-1640. 被引量：3
7丁丽萍,卢国庆.面向频繁模式挖掘的差分隐私保护研究综述[J].通信学报,2014,35(10):200-209. 被引量：19
8吴伟民,黄焕坤.基于差分隐私保护的DP-DBScan聚类算法研究[J].计算机工程与科学,2015,37(4):830-834. 被引量：26
9谢静,张健沛,杨静,张冰.相异敏感度下最小信息损失增量优先的隐私保护方法[J].中南大学学报（自然科学版）,2015,46(12):4548-4555. 被引量：1
10李洪成,吴晓平,陈燕.MapReduce框架下支持差分隐私保护的k-means聚类方法[J].通信学报,2016,37(2):124-130. 被引量：23

1倪巍伟,陈耿,崇志宏,吴英杰.面向聚类的数据隐藏发布研究[J].计算机研究与发展,2012,49(5):1095-1104. 被引量：16
2张勇,倪巍伟,崇志宏,胡新平.基于邻域相关性的面向聚类数据扰动方法[J].计算机研究与发展,2011,48(S3):79-85. 被引量：1
3魏大恩.Visual FoxPro多表数据交换教学探索[J].攀枝花学院学报,2008,25(6):104-108.
4王蕊.基于数据挖掘的隐私保护数据发布模型研究[J].技术与市场,2016,23(8):46-47. 被引量：1
5刘海.基于差异化聚类的分级隐私保护数据发布方法[J].海南师范大学学报（自然科学版）,2014,27(1):23-26.
6倪巍伟,张勇,黄茂峰,崇志宏,贺玉芝.一种向量等价置换隐私保护数据干扰方法[J].软件学报,2012,23(12):3198-3208. 被引量：6
7方炜炜,周长胜,贾艳萍,刘亚辉.基于SMC的分布式隐私保护数据发布研究[J].系统工程与电子技术,2012,34(11):2390-2395. 被引量：1
8王天放,张龙军,陈晓.一种基于差分隐私的集值型数据发布方法[J].武警工程大学学报,2015,0(6):52-56.
9黄茂峰,倪巍伟,王佳俊,孙福林,崇志宏.一种面向聚类的对数螺线数据扰动方法[J].计算机学报,2012,35(11):2275-2282. 被引量：7
10马瑜,宋绍云.一种人工神经网络样本数据的对数螺旋线扰动方法[J].价值工程,2013,32(2):181-182.

计算机研究与发展

2010年第12期

浏览历史

内容加载中请稍等...

一种面向聚类的隐私保护数据发布方法被引量：13

参考文献11

二级参考文献84

共引文献228

同被引文献119

引证文献13

二级引证文献150

相关作者

相关机构

相关主题

浏览历史

一种面向聚类的隐私保护数据发布方法 被引量：13

参考文献11

二级参考文献84

共引文献228

同被引文献119

引证文献13

二级引证文献150

相关作者

相关机构

相关主题

浏览历史

一种面向聚类的隐私保护数据发布方法被引量：13