面向表数据发布隐私保护的贪心聚类匿名方法被引量：26

Greedy Clustering-Anonymity Method for Privacy Preservation of Table Data-Publishing

下载PDF

导出

摘要为了防范隐私泄露,表数据一般需要匿名处理后发布.现有匿名方案较少分类考察准标识属性概化,并缺少同时考虑信息损失量和时间效率的最优化.利用贪心法和聚类划分的思想,提出一种贪心聚类匿名方法:分类概化准标识属性,并分别度量其信息损失,有利于减小并合理评价信息损失.对元组间距离和元组与等价类距离,建立与最小合并概化信息损失值正相关的距离定义,聚类过程始终选取具有最小距离值的元组添加,从而保证信息损失总量趋于最小.按照k值控制逐一聚类,实现等价类均衡划分,减少了距离计算总量,节省了运行时间.实验结果表明,该方法在减少信息损失和运行时间方面是有效的. To prevent privacy disclosure, table data generally needs to be anonymized before being published. Existing anonymity methods seldom distinguish different types of quasi-identifier in generalization, and also lack investigation into optimization of both information loss and time efficiency. In this paper, a greedy clustering-anonymity method is proposed using the ideas of greedy algorithm and clustering algorithm. The method makes distinct generalizations according to the type of quasi-identifier to conduct different calculations on information loss, and this providing reduction and reasonable estimate on information loss. Moreover, with regard to distance between tuples, or distance between a tuple and an equivalence class, two definitions are put forward in order to achieve minimum information loss in merging generalization. When establishing a new cluster, the tuple with the minimum distance in the ongoing cluster is always chosen to add. It ensures that the total information loss is close to minimum. Since the number of tuples in establishing each cluster is subject to k and the size of every cluster is equal to or just greater than k, the amount of calculation on distances and therefore the running time are reduced. Experimental results show that the proposed method is effective in reducing both information loss and running time.

作者姜火文曾国荪马海英

机构地区同济大学计算机科学与技术系江西科技师范大学数学与计算机科学学院嵌入式系统与服务计算教育部重点实验室(同济大学)

出处《软件学报》 EI CSCD 北大核心 2017年第2期341-351,共11页 Journal of Software

基金华为创新研究计划(IRP-2013-12-03) 高效能服务器和存储技术国家重点实验室开放基金(2014HSSA10) 江西科技师范大学重点科研项目(2016XJZD002)~~

关键词数据发布隐私保护聚类匿名信息损失 data-publishing privacy preservation clustering-anonymity information loss

分类号 TP309 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献5

1郭昆,张岐山.基于聚类的快速数据流匿名方法[J].软件学报,2013,24(8):1852-1867. 被引量：5
2韩建民,于娟,虞慧群,贾泂.面向敏感值的个性化隐私保护[J].电子学报,2010,38(7):1723-1728. 被引量：40
3王智慧,许俭,汪卫,施伯乐.一种基于聚类的数据匿名方法[J].软件学报,2010,21(4):680-693. 被引量：49
4王波,杨静.一种基于逆聚类的个性化隐私匿名方法[J].电子学报,2012,40(5):883-890. 被引量：25
5王平水,王建东.匿名化隐私保护技术研究综述[J].小型微型计算机系统,2011,32(2):248-252. 被引量：30

二级参考文献46

1杨晓春,刘向宇,王斌,于戈.支持多约束的K-匿名化方法[J].软件学报,2006,17(5):1222-1231. 被引量：60
2Samarati P,Sweeney L.Generalizing data to provide anonymity when disclosing information (abstract)[A].Proceedings of the 17th ACM-SIGMOD-SIGACT-SIGART Symposium on the Principles of Database Systems[C].Seattle,WA,USA:IEEE press,1998.188.
3Samarati P.Protecting restondents' identities in microdata release[J].IEEE Transactions on Knowledge and Data Engineering,2001,13(6):1010-1027.
4Tiancheng Li,Ninghui Li.Towards optimal k-anonymization[J].Data and Knowledge Engineering,2008,65(1):22-39.
5Machanavajjhala A,Gehrke J,Kifer D.L-diversity:privacy beyond k-anonymity[A].Proceedings of the 22nd International Confence e on Data Engineering[C].Atlanta,GA,USA:IEEE Press,2006.24-36.
6Truta T M,Vinay B.Privacy protection:p-sensitive kanonymity property[A].Proceedings of the 22nd International Conference on Data Engineering Workshops (ICDEW)[C].Washington,DC,USA:IEEE Computer Society,2006.94.
7Wong C R,Li J,Fu A,et al.(α,k)-anonymity:an enhanced k-anonymity model for privacy preserving data publishing[A].Proceedings of the 12th ACM SIGKDD Conference[C].Philadelphia,PA:ACM Press,2006.754-759.
8Ninghui Li,Tiancheng Ii,Venkatasubramanian S.t-Closeness:privacy beyond k-anonymity and l-diversity[A].Proceedings of the 23rd International Conference on Data Engineering (ICDE)[C].Istanbul,Turkey:IEEE Press,2007.106-115.
9Xiaokui Xiao,Yufen Tao.Personalized privacy preservation[A].Proceedings of the 2006 ACM SIGMOD International Conference on Management of Data[C].Chicago,Illinois,USA:ACM Press,2006.229-240.
10Zude Li,Guoqiang Zhan,Xiaojun Ye.Towards an anti-inference (k,l)-anonymity model with value association rules[A].Database and Expert Systems Applications (DEXA)[C].Krakow,Poland:Springer-Verlag,Berlin Heidelberg,2006.883-893.

共引文献124

1叶佩雯.基于区块链技术的隐私保护——以华大区块链为例[J].大众标准化,2022(5):34-36. 被引量：4
2王平水.基于聚类的匿名化隐私保护技术研究[J].现代图书情报技术,2010(11):53-58. 被引量：2
3杨高明,杨静,张健沛.聚类的(α,k)-匿名数据发布[J].电子学报,2011,39(8):1941-1946. 被引量：19
4杨高明,杨静,张健沛.隐私保护的数据发布研究[J].计算机科学,2011,38(9):11-17. 被引量：16
5王平水,马钦娟.隐私保护k-匿名算法研究[J].计算机工程与应用,2011,47(28):117-119. 被引量：12
6金华,鞠时光,兰丽辉,刘善成.面向统计应用的隐私保护发布[J].计算机工程与应用,2011,47(30):109-112.
7吕欣,高枫.电子政务信息资源共享中的隐私保护方法[J].计算机应用,2012,32(1):82-85. 被引量：12
8焉凯,何贤芒.基于局部聚类的数据匿名化算法[J].计算机应用研究,2012,29(1):148-151. 被引量：5
9杨高明,杨静,张健沛.半监督聚类的匿名数据发布[J].哈尔滨工程大学学报,2011,32(11):1489-1494. 被引量：6
10张付志,贾长伟,徐玉辰.基于聚类的l-多样性匿名方法[J].燕山大学学报,2012,36(1):32-38.

同被引文献168

1张霁雯.社交媒体用户隐私关注、自我表露和隐私管理行为的实证研究[J].新媒体研究,2021(4):39-45. 被引量：3
2张岐山,郑丽君.基于灰关联分析的V-MDAV算法研究[J].计算机应用研究,2020,37(1):107-111. 被引量：3
3焦海涛.个人信息的反垄断法保护:从附属保护到独立保护[J].法学,2021(4):108-124. 被引量：96
4武毅,王丹,蒋宗礼.基于事务型K-Anonymity的动态集值属性数据重发布隐私保护方法[J].计算机研究与发展,2013,50(S1):248-256. 被引量：7
5赵克勤.集对分析对不确定性的描述和处理[J].信息与控制,1995,24(3):162-166. 被引量：150
6潘晓,肖珍,孟小峰.位置隐私研究综述[J].计算机科学与探索,2007,1(3):268-281. 被引量：65
7戢渼钧.关于个性化信息服务的隐私保护[J].图书情报工作,2006,50(2):49-51. 被引量：20
8侯海燕,刘则渊,陈悦,姜春林,尹丽春,庞杰.当代国际科学学研究热点演进趋势知识图谱[J].科研管理,2006,27(3):90-96. 被引量：158
9刘喻,吕大鹏,冯建华,周立柱.数据发布中的匿名化技术研究综述[J].计算机应用,2007,27(10):2361-2364. 被引量：6
10杨晓春,王雅哲,王斌,于戈.数据发布中面向多敏感属性的隐私保护方法[J].计算机学报,2008,31(4):574-587. 被引量：59

引证文献26

1丁蓉,杨俊杰.基于DDS技术的信号发生器的设计与实现[J].上海电力学院学报,2017,33(6):577-580. 被引量：3
2熊金波,王敏燊,田有亮,马蓉,姚志强,林铭炜.面向云数据的隐私度量研究进展[J].软件学报,2018,29(7):1963-1980. 被引量：21
3唐海波,林煜明,李优,蔡国永.基于模拟退火与贪心策略的平衡聚类算法[J].计算机应用,2018,38(11):3132-3138. 被引量：2
4曹敏姿,张琳琳,毕雪华,赵楷.个性化(α,l)-多样性k-匿名隐私保护模型[J].计算机科学,2018,45(11):180-186. 被引量：14
5张俊材.海量动态信息管理系统防冲突任务调度方法[J].内蒙古民族大学学报（自然科学版）,2019,34(2):104-108.
6武绍欣.基于属性分区的(α_i,k)-p隐私保护算法[J].软件导刊,2019,18(8):63-65. 被引量：1
7李明飞.基于私有区块链的多源网络数据隐私保护仿真[J].计算机仿真,2019,36(8):266-270. 被引量：11
8马丽.面向数字图书馆用户隐私保护的匿名发布方法[J].信息技术,2019,43(9):88-91. 被引量：3
9王海艳,陆金祥.面向群组推荐的个性化隐私保护方法[J].通信学报,2019,40(9):106-115. 被引量：3
10王芳,余敦辉,张万山.基于局部划分的匿名算法研究[J].计算机应用研究,2019,36(10):3048-3053. 被引量：3

二级引证文献98

1李啸林,章红艳,许佳钰,许力,黄赞.基于节点1-邻居图相似性的社会网络匿名技术[J].计算机系统应用,2022,31(11):21-30.
2蒋浩英,钱进,王滔滔,洪承鑫,余鹰.基于三支决策的新型分类匿名模型[J].南京大学学报（自然科学版）,2023,59(6):970-980.
3王进茂,郑均宝,高秀丽,徐振华,张法勇.花烛组织培养的研究[J].河北林果研究,2000,15(1):69-74. 被引量：24
4王洪均,谢国君.高压水除鳞系统改进[J].四川冶金,2000,22(2):48-50. 被引量：4
5李奕麟.试论我国隐私权保护的不足及其完善[J].祖国,2018,0(7):89-89.
6初广辉,王晓利.一种改进的基于差分隐私的k-means聚类算法[J].软件导刊,2019,18(8):71-74. 被引量：5
7付钰,俞艺涵,吴晓平.大数据环境下差分隐私保护技术及应用[J].通信学报,2019,40(10):157-168. 被引量：22
8王林信,杨鹏,江元,侯应龙,廖晓群.智能电网大数据隐私保护技术研究与实现[J].电力信息与通信技术,2019,17(12):24-30. 被引量：20
9郑明辉,杨晨,谭杰,吕含笑.相同敏感值数据表泛化算法的安全性度量研究[J].网络空间安全,2019,10(6):88-94.
10谢明明,彭长根,吴睿雪,丁红发,刘波涛.结构化数据的隐私与数据效用度量模型[J].计算机应用研究,2020,37(5):1465-1469. 被引量：6

1王晓锋,温学兵,滕明岩.一种新的DAGSVMs多类分类方法[J].铁路计算机应用,2009,18(5):15-17.
2李志永,陈立潮,张英俊.基于特征空间聚类的二叉树支持向量机分类算法[J].计算机与数字工程,2010,38(6):32-34. 被引量：4
3孙越泓,魏建香,夏德深.基于互信息与类距离测度最优的图像聚类[J].计算机工程与应用,2011,47(34):199-202. 被引量：1
4王晓锋,秦玉平.一种新型基于二叉树的支持向量机多类分类方法[J].郑州轻工业学院学报（自然科学版）,2008,23(6):29-31. 被引量：1
5郭亚军,何炎祥.一种有效的匿名分析算法[J].计算机科学,2007,34(11):56-57. 被引量：1
6康海燕,马跃雷,苑晓姣,刘建昆.面向网络搜索日志的发布方法研究[J].信息安全研究,2016,2(3):251-257. 被引量：1
7吕晓丽,李雷,曹未丰.基于二叉树的SVM多类分类算法[J].信息技术,2008,32(4):1-3. 被引量：5
8龚卫华,兰雪锋,裴小兵,杨良怀.基于k-度匿名的社会网络隐私保护方法[J].电子学报,2016,44(6):1437-1444. 被引量：11
9李子龙,刘伟铭.基于JointBoost I2C距离度量的图像分类方法[J].华南理工大学学报（自然科学版）,2015,43(5):114-119. 被引量：1
10赵秦怡,王丽珍,顾应龙.基于邻接图的空间分类算法的改进[J].计算机应用研究,2004,21(9):115-117. 被引量：2

软件学报

2017年第2期

浏览历史

内容加载中请稍等...

面向表数据发布隐私保护的贪心聚类匿名方法被引量：26

参考文献5

二级参考文献46

共引文献124

同被引文献168

引证文献26

二级引证文献98

相关作者

相关机构

相关主题

浏览历史

面向表数据发布隐私保护的贪心聚类匿名方法 被引量：26

参考文献5

二级参考文献46

共引文献124

同被引文献168

引证文献26

二级引证文献98

相关作者

相关机构

相关主题

浏览历史

面向表数据发布隐私保护的贪心聚类匿名方法被引量：26