基于杂度增益与层次聚类的数据匿名方法被引量：6

A Data Anonymization Approach Based on Impurity Gain and Hierarchical Clustering

下载PDF

导出

摘要数据匿名是发布数据时对隐私信息进行保护的重要手段之一.对数据匿名的基本概念和应用模型进行了介绍,探讨了数据匿名结果应该满足的要求.为了抵制背景知识攻击,提出了一种基于杂度增益与层次聚类的数据匿名方法,该方法以杂度来度量敏感属性随机性,并以概化过程中信息损失最小、杂度增益最大的条件约束来控制聚类的合并过程,可以使数据匿名处理后的数据集在满足k-匿名模型和l-多样模型的同时,使数据概化的信息损失最小且敏感属性的取值均匀化.在实验部分,提出了一种对数据匿名结果进行评估的方法,该方法将匿名结果和原始数据进行对比,并从平均信息损失和平均杂度2个方面来评估数据匿名的质量.实验结果验证了以上方法的有效性. Data anonymization is one of the important solutions to preserve privacy in data publishing. The basic concept of data anonymization and the application models are introduced, and the requirements that an anonymized dataset should meet are discussed. To resist the background knowledge attack, a new data anonymization approach based on impurity gain and hierarchical clustering is brought out. The impurity of a cluster is used to measure the randomicity of sensitive attributes, and the clusters＇ combination process is controlled by the restrictions that the information loss caused by generalization should be minimized and the impurity gain should be maximized. With the method, the anonymization results of a dataset can meet the requirements of k anonymity model and /-diversity model, meanwhile, the information loss is minimized and the values of the sensitive attributes in each cluster has a uniform distribution. An evaluation method is provided in the experiment section, which compares anonymized dataset with the original one to evaluate the quality by calculating the average information loss and impurity. The experimental results validate the availability of the method.

作者熊平朱天清

机构地区中南财经政法大学信息与安全工程学院武汉工业学院计算机与信息工程系

出处《计算机研究与发展》 EI CSCD 北大核心 2012年第7期1545-1552,共8页 Journal of Computer Research and Development

基金国家自然科学基金项目(70903076) 中央高校基本科研业务费专项基金项目(31540911202)

关键词隐私保护数据匿名准标识符层次聚类信息损失 privacy preserving data anonymization quasi-identifier hierarchical clustering information loss

分类号 TP309 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献12

1Aggarwal G,Feder T,Kenthapadi K. k-anonymity:Algorithms and hardness,2004-22[R].Stanford,California:Stanford University Press,2004.doi:10.1213/ANE.0b013e3181e3dfd2.
2Lefvre K,DeWitt D,Ramakrishnan R. Incognito:Efficient full-domain k-anonymity[A].New York:ACM,2005.49-60.
3Bayardo R,Agrawal R. Data privacy through optimal kanonymization[A].Piscataway,NJ:IEEE,2005.217-228.
4Samarati P,Sweeney L. Protecting privacy when disclosing information: k-anonymity and its enforcement through generalization and suppression[A].Piscataway,NJ:IEEE,1998.1-19.
5Sweeney L. Achieving k-anonymity privacy protection using generalization and suppression[J].International Journal of Uncertainty Fuzziness and Knowledge-Based Systems,2002,(05):571-558.
6Adam N,Wortmann J. Security-control methods for statistical databases:A comparative study[J].ACM Computing Surveys,1989,(04):515-556.doi:10.1145/76894.76895.
7Duncan T,Feinberg S. Ohtaining information while preserving privacy: A Markov perturbation method for tabular data[A].Luxembourg:Eurostat,1999.351-362.
8Samarati P. Protecting respondents' identities in microdata release[J].IEEE Transactions on Knowledge and Data Engineering,2001,(06):1010-1027.doi:10.1109/69.971193.
9Sweeney L. K-Anonymity:A model for protecting privacy[J].International Journal of Uncertainty Fuzziness and Knowledge-Based Systems,2002,(05):557-570.
10Machanavajjhala A,Gehrke J,Kifer D. /-Diversity:Privacy beyond k-anonymity[A].Piscataway,NJ:IEEE,2006.24-36.

二级参考文献1

1杨晓春,刘向宇,王斌,于戈.支持多约束的K-匿名化方法[J].软件学报,2006,17(5):1222-1231. 被引量：60

共引文献48

1王平水.基于聚类的匿名化隐私保护技术研究[J].现代图书情报技术,2010(11):53-58. 被引量：2
2杨高明,杨静,张健沛.聚类的(α,k)-匿名数据发布[J].电子学报,2011,39(8):1941-1946. 被引量：19
3杨高明,杨静,张健沛.隐私保护的数据发布研究[J].计算机科学,2011,38(9):11-17. 被引量：16
4王平水,马钦娟.隐私保护k-匿名算法研究[J].计算机工程与应用,2011,47(28):117-119. 被引量：12
5焉凯,何贤芒.基于局部聚类的数据匿名化算法[J].计算机应用研究,2012,29(1):148-151. 被引量：5
6杨高明,杨静,张健沛.半监督聚类的匿名数据发布[J].哈尔滨工程大学学报,2011,32(11):1489-1494. 被引量：6
7张付志,贾长伟,徐玉辰.基于聚类的l-多样性匿名方法[J].燕山大学学报,2012,36(1):32-38.
8王波,杨静.数据发布中的个性化隐私匿名技术研究[J].计算机科学,2012,39(4):168-171. 被引量：12
9王波,杨静.一种基于逆聚类的个性化隐私匿名方法[J].电子学报,2012,40(5):883-890. 被引量：25
10王平水,王建东.一种基于聚类的个性化(l,c)-匿名算法[J].计算机工程与应用,2012,48(23):16-20. 被引量：4

同被引文献89

1彭京,唐常杰,程温泉,石葆梅,乔少杰.一种基于层次距离计算的聚类算法[J].计算机学报,2007,30(5):786-795. 被引量：11
2MACHANAVAJJHALA A, GEHRKE J, KIFER D. 1-diversity:priva- cy beyond k-anonymity [ C ]//Proe of the 22nd IEEE International Conference on Data Engineering. Washington DC : IEEE Computer So- ciety, 2006 : 24- 36.
3SWEENEY L. K-anonymity:a model for protecting privacy[ J]. Inter- national Journal of Uncertainty, Fuzziness and Knowledge- Based Systems,2002,10(5) :55?-570.
4SWEENEY L. Achieving k-anonymity privacy protection using generaliza-tion and suppression[ J ~. International Journal of Uncertainty, Fuzzi- ness and Knowledge-Based Systems ,2002,10 (5) :571-588.
5IYENGAR V. Transforming data to satisfy privacy constraints [ C ]// Proc of the 12th ACM SIGKDD Conference. New York:ACM Press, 2002:279-288.
6MEYERSON A, WILLIAMS R. On the complexity of optimal k-ano- nymity [ C ]//Proc of the 23rd ACM Symposium on Principles of Data- base Systems. New York : ACM Press ,2004:223- 228.
7LEFVRE K, DEWITf D, RAMAKRISHNAN R. Incognito: efficient full-domain k-anonymity [ C ]//Proc of International Conference on Management of Data. New York:ACM Press, 2005:49-60.
8BAYARDO R, AGRAWAL R. Data privacy through optimal k-anony- mization [ C ]//Proc of the 21st IEEE International Conference on Data Engineering. Washington DC: IEEE Computer Society, 2005: 217- 228.
9WONG R C,LI J,FU A W C,et al. (c~,k)-anonymity:an enhanced k- anonymity model for privacy preserving data publishing [ C ]//Proc of the 12th ACM SIGKDD International Conference on Knowledge Dis- cove~ and Data mining. New York: ACM Press,2006:754-759.
10TRUTA T, VINAY B. Privacy protection: p-sensitive k-anonymity property[ C]//Proc of the 22nd International Conference on Data En- gineering Workshops. Washington DC:IEEE Computer Society,2006: 94-103.

引证文献6

1熊平,朱天清,顾霄.基于信息增益比例约束的数据匿名方法及其评估机制[J].计算机应用研究,2014,31(3):819-824. 被引量：2
2杨静,王超,张健沛.基于敏感属性熵的微聚集算法[J].电子学报,2014,42(7):1327-1337. 被引量：14
3王超,杨静,张健沛.基于轨迹位置形状相似性的隐私保护算法[J].通信学报,2015,36(2):144-157. 被引量：18
4王超,杨静,张健沛.基于轨迹特征及动态邻近性的轨迹匿名方法研究[J].自动化学报,2015,41(2):330-341. 被引量：7
5郑剑,刘聪.基于DTW距离度量函数的DTW-TA轨迹匿名算法[J].计算机应用研究,2017,34(8):2459-2463. 被引量：2
6郑剑,刘聪.k-匿名改进模型下的LCSS-TA轨迹匿名算法[J].计算机应用研究,2017,34(11):3428-3431. 被引量：1

二级引证文献37

1康海燕,朱万祥.位置服务隐私保护[J].山东大学学报（理学版）,2018,53(11):35-50. 被引量：6
2王超,杨静,张健沛,吕刚.基于投影区域密度划分的k匿名算法[J].通信学报,2015,36(8):125-134. 被引量：1
3马春光,张磊,杨松涛.位置轨迹隐私保护综述[J].信息网络安全,2015(10):24-31. 被引量：14
4孙丹丹,罗永龙,范国婷,郭良敏,郑孝遥.基于轨迹形状多样性的隐私保护算法[J].计算机应用,2016,36(6):1544-1551. 被引量：5
5贾俊杰,陈菲.(α,k)-匿名数据集的增量更新算法[J].计算机工程与应用,2016,52(14):90-94. 被引量：3
6吴信东,何进,陆汝钤,郑南宁.从大数据到大知识：HACE＋BigKE[J].自动化学报,2016,42(7):965-982. 被引量：49
7刘湘雯,王良民.数据发布匿名技术进展[J].江苏大学学报（自然科学版）,2016,37(5):562-571. 被引量：17
8张少波,Md Zakirul Alam Bhuiyan,刘琴,王国军.移动社交网络中基于代理转发机制的轨迹隐私保护方法[J].电子与信息学报,2016,38(9):2158-2164. 被引量：5
9吴响,俞啸,王换换.面向数据挖掘的匿名化隐私数据发布系统设计[J].电子技术应用,2016,42(11):62-65. 被引量：9
10雷凯跃,李兴华,刘海,裴卓雄,马建峰,李晖.轨迹发布中基于时空关联性的假轨迹隐私保护方案[J].通信学报,2016,37(12):156-164. 被引量：19

1郭昆,张岐山.基于聚类的快速数据流匿名方法[J].软件学报,2013,24(8):1852-1867. 被引量：5
2滕金芳,钟诚.基于匿名方法的数据发布隐私泄露控制技术研究进展[J].广西科学院学报,2009,25(4):273-277.
3邓娜,王宇,王秋玲.数据挖掘库预处理技术在教学中的应用研究[J].河北省科学院学报,2006,23(2):15-18. 被引量：5
4杨高明,杨静,张健沛.聚类的(α,k)-匿名数据发布[J].电子学报,2011,39(8):1941-1946. 被引量：19
5王智慧,许俭,汪卫,施伯乐.一种基于聚类的数据匿名方法[J].软件学报,2010,21(4):680-693. 被引量：49
6孙炯宁.基于混合式子树算法的大数据匿名化[J].南京理工大学学报,2015,39(5):609-613. 被引量：2
7龚奇源,杨明,罗军舟.面向关系-事务数据的数据匿名方法[J].软件学报,2016,27(11):2828-2842. 被引量：3
8桂琼,程小辉.基于聚类的分级匿名方法[J].计算机应用,2013,33(2):412-416. 被引量：4
9张付志,贾长伟,徐玉辰.基于聚类的l-多样性匿名方法[J].燕山大学学报,2012,36(1):32-38.
10熊平,朱天清,顾霄.基于信息增益比例约束的数据匿名方法及其评估机制[J].计算机应用研究,2014,31(3):819-824. 被引量：2

计算机研究与发展

2012年第7期

浏览历史

内容加载中请稍等...

基于杂度增益与层次聚类的数据匿名方法被引量：6

参考文献12

二级参考文献1

共引文献48

同被引文献89

引证文献6

二级引证文献37

相关作者

相关机构

相关主题

浏览历史

基于杂度增益与层次聚类的数据匿名方法 被引量：6

参考文献12

二级参考文献1

共引文献48

同被引文献89

引证文献6

二级引证文献37

相关作者

相关机构

相关主题

浏览历史

基于杂度增益与层次聚类的数据匿名方法被引量：6