基于不同敏感度的改进K-匿名隐私保护算法被引量：1

Improved K-anonymity privacy protection algorithm based on different sensitivities

下载PDF

导出

摘要针对机器学习的发展需要大量兼顾数据安全性和可用性的真实数据集的问题,提出一种基于随机森林(RF)的K-匿名隐私保护算法——RFK-匿名隐私保护。首先,使用RF算法预测出每种属性值的敏感程度;然后,使用k-means聚类算法将属性值根据不同敏感程度进行聚类,再使用K-匿名算法根据属性值的敏感程度集群对数据进行不同程度的隐匿;最后,由用户自主地选择需要哪种隐匿程度的数据表。实验结果表明,在Adult数据集中,与K-匿名算法处理过的数据相比,RFK-匿名隐私保护算法处理过的数据在阈值分别为3、4时的准确率分别提高了0.5、1.6个百分点;与(p,α,k)-匿名算法处理过的数据相比,RFK-匿名隐私保护算法处理过的数据在阈值分别为4、5时的准确率分别提高了0.4、1.9个百分点。RFK-匿名隐私保护算法在保护数据的隐私安全的基础上能有效提高数据的可用性,更适合应用于机器学习中的分类预测。 To address the problem that the development of machine learning requires a large number of real datasets with both data security and availability,an improved K-anonymity privacy protection algorithm based on Random Forest(RF)was proposed,namely RFK-anonymity privacy protection.Firstly,the sensitivity of each attribute value was predicted by RF algorithm.Secondly,the attribute values were clustered according to different sensitivities by using the k-means clustering algorithm,and the data was hidden to different degrees by using the K-anonymity algorithm according to the sensitivity clusters of attribution.Finally,data tables with different hiding degrees were selected by different users according to their needs.Experimental results show that in Adult datasets,compared with the data processed by K-anonymity algorithm,the accuracies of the data processed by the RFK-anonymity privacy protection algorithm are increased by 0.5 and 1.6 percentage points at thresholds of 3 and 4,respectively;compared with the data processed by(p,α,k)-anonymity algorithm,the accuracies of the data processed by the proposed algorithm are improved by 0.4 and 1.9 percentage points at thresholds of 4 and 5.It can be seen that RFK-anonymity privacy protection algorithm can effectively improve the availability of data on the basis of protecting the privacy and security of data,and it is more suitable for classification and prediction in machine learning.

作者翟冉陈学斌张国鹏裴浪涛马征 ZHAI Ran;CHEN Xuebin;ZHANG Guopeng;PEI Langtao;MA Zheng(College of Sciences,North China University of Science and Technology,Tangshan Hebei 063210,China;Hebei Provincial Key Laboratory of Data Science and Application(North China University of Science and Technology),Tangshan Hebei 063210,China;Tangshan Key Laboratory of Data Science,North China University of Science and Technology,Tangshan Hebei 063210,China)

机构地区华北理工大学理学院河北省数据科学与应用重点实验室(华北理工大学) 华北理工大学唐山市数据科学重点实验室

出处《计算机应用》 CSCD 北大核心 2023年第5期1497-1503,共7页 journal of Computer Applications

基金国家自然科学基金资助项目(U20A20179)。

关键词随机森林 K-匿名隐私保护 K-MEANS 聚类算法 Random Forest(RF) K-anonymity privacy protection k-means clustering algorithm

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献17

1郝雅娴.K-Means聚类中心最近邻推荐算法[J].山西师范大学学报（自然科学版）,2021,35(1):72-78. 被引量：7
2朱麟,黄胜波.不确定环境下轨迹k-匿名隐私保护[J].计算机应用,2015,35(12):3437-3441. 被引量：5
3王平水,马钦娟.隐私保护k-匿名算法研究[J].计算机工程与应用,2011,47(28):117-119. 被引量：12
4樊佳锦,朱焱.基于分类重要性与隐私约束的K-匿名特征选择[J].计算机应用与软件,2022,39(6):35-39. 被引量：1
5杨柳,李云.混合式的K-匿名特征选择算法[J].计算机应用,2021,41(12):3521-3526. 被引量：4
6张强,叶阿勇,叶帼华,邓慧娜,陈爱民.最优聚类的k-匿名数据隐私保护机制[J].计算机研究与发展,2022,59(7):1625-1635. 被引量：9
7苏林萍,董子娴,李为,吴克河,崔文超.支持多属性泛化的个性化(α,l,k)匿名模型[J].计算机技术与发展,2021,31(6):88-93. 被引量：1
8徐剑,王安迪,毕猛,周福才.支持隐私保护的k近邻分类器[J].软件学报,2019,30(11):3503-3517. 被引量：4
9吴梦婷,孙丽萍,刘援军,胡朝焱,赵延年,罗永龙.基于约束聚类的k-匿名隐私保护方法[J].计算机工程与设计,2021,42(3):607-613. 被引量：3
10张王策,范菁,王渤茹,倪旻.面向缺损数据的(α,k)-匿名模型[J].计算机科学,2020,47(S01):395-399. 被引量：2

二级参考文献143

1姜传贤,孙星明,易叶青,杨恒伏.基于JADE算法的数据库公开水印算法的研究[J].系统仿真学报,2006,18(7):1781-1784. 被引量：9
2李涛,王建东,叶飞跃,冯新宇,张有东.一种基于用户聚类的协同过滤推荐算法[J].系统工程与电子技术,2007,29(7):1178-1182. 被引量：70
3Samarati P, Sweency L.Generalizing data to provide anonymity when disclosing information(abstract)[C]//Proc of the 17th ACM SIGACT-SIGMOD-SIGART Symposium on Principles of Database Systems.New York:ACM Press, 1998.
4Sweeney L.K-anonymity:a model for protecting privacy[J].International Journal of Uncertainty, Fuzziness and Knowledge-based Systems, 2002,10 (5) : 557-570.
5Sweeney L.Achieving k-anonymity privacy protection using generalization and suppression[J].Intemational Journal on Uncertainty,Fuzziness and Knowledge-based Systems,2002,10(5) :571-588.
6Lefevre K,Dewittd J,Ramakrishnan R.Incognito:efficient full-domain k-anonymity[C]//Proc of the 2005 ACM SIGMOD International Conference on Management of Data.New York: ACM Press, 2005 :49-60.
7Fung B,Wang Ke,Yu ETop-down specialization for information and privacy preservation[C]//Proc of the 21st IEEE International Conference on Data Engineering.Washington DC: IEEE Computer Society, 2005 : 205-216.
8Wang Ke,Yu P,Chakraborty S.Bottom-up generalization:a data mining solution to privacy protection[C]//Proc of the 4th IEEE International Conference on Data Mining.Washington DC: 1EEE Computer Society, 2004: 249-256.
9Machanavajjhala A, Gehrke J, Kifer D.l-diversity: privacy beyond k-anonymity[J].ACM Transactions on Knowledge Discovery from Data.New York: ACM Press, 2007,1 ( 1 ) : 24-35.
10Byun J W,Kamra A, Bertino E,et al.Efficient k-anonymization using clustering teehniques[C]//LNCS 4443 :Proceedings of DASFAA 2007.Berlin Heidelberg:Springer-Verlag,2007:188-200.

共引文献1005

1李啸林,章红艳,许佳钰,许力,黄赞.基于节点1-邻居图相似性的社会网络匿名技术[J].计算机系统应用,2022,31(11):21-30.
2张旭昱,李琛.基于“隐私悖论”的社交媒体用户隐私保护探究[J].新媒体研究,2023,9(7):50-53.
3娄豪,李晓东,刘晶,金鑫.物流用户隐私信息保护系统[J].北京电子科技学院学报,2019,27(4):18-25. 被引量：1
4操凡.云环境下金融通信信息安全的加密技术研究[J].中国新通信,2020,22(3):44-45.
5杨雨菲,韩浩武,陈荣,黄魏,傅佩红.数字土壤制图的推理方法对比研究[J].土壤通报,2020(5):1016-1023. 被引量：1
6温学兵,谢维,姚佳宜.基于随机森林和支持向量机模型的期刊评价[J].沈阳师范大学学报（自然科学版）,2022,40(2):174-179.
7何立蜓.基于K-means聚类算法的防汛物资调配改进模型[J].人民黄河,2021,43(S02):272-275. 被引量：1
8陈熠,王仲,任瑞瑞.大数据时代下对个性化服务的伦理思考[J].计算机产品与流通,2019,0(12):261-262.
9冯建英,苏允汇,龚劭齐,王智,穆维松.基于集成学习的农业生产技术效率评价方法[J].农业机械学报,2021,52(S01):148-155. 被引量：6
10蒋浩英,钱进,王滔滔,洪承鑫,余鹰.基于三支决策的新型分类匿名模型[J].南京大学学报（自然科学版）,2023,59(6):970-980.

同被引文献2

1张强,叶阿勇,叶帼华,邓慧娜,陈爱民.最优聚类的k-匿名数据隐私保护机制[J].计算机研究与发展,2022,59(7):1625-1635. 被引量：9
2方凯,史志才,贾媛媛.基于混合聚类的k-匿名数据发布算法[J].电子科技,2022,35(12):78-83. 被引量：2

引证文献1

1蒋浩英,钱进,王滔滔,洪承鑫,余鹰.基于三支决策的新型分类匿名模型[J].南京大学学报（自然科学版）,2023,59(6):970-980.

1杨靖康,刘忆宁.建立互助互信的网络空间[J].金融博览,2023(3):18-19.
2燕春光,陈春俊,陈才茂,蒲旭东.高速动车组牵引电机轴电流测试及特征分析[J].铁道机车车辆,2023,43(2):18-26. 被引量：1
3邵亚萌.聚焦车联网位置隐私保护[J].上海信息化,2023(2):45-47.
4戴昀.基于大数据的K-means聚类算法的网络安全监测应用研究[J].信息记录材料,2023,24(4):140-142. 被引量：6
5郁淼淼,李子洋,周勇.分布式计算下基于差分隐私保护的参数估计[J].应用数学学报,2023,46(2):145-165. 被引量：1
6王丽红.人工智能(AI)在智能交通领域的应用[J].中文科技期刊数据库（全文版）工程技术,2022(4):99-102.
7侯延琛,赵金东.任意形状聚类的SPK-means算法[J].山东大学学报（工学版）,2023,53(2):87-92.
8唐焕博,郑鸿强,沈启航,陈星.基于QoE的无人机网络部署和缓存策略优化方法[J].计算机应用研究,2023,40(5):1473-1479. 被引量：4
9苏健渊,谢锋.基于北斗导航的车辆信息管理系统设计与实现[J].时代汽车,2023(9):17-19. 被引量：1
10张玉立,张麦玲.私有区块链下个人信息隐私保护算法仿真[J].计算机仿真,2023,40(4):397-401. 被引量：1

计算机应用

2023年第5期

浏览历史

内容加载中请稍等...

基于不同敏感度的改进K-匿名隐私保护算法被引量：1

参考文献17

二级参考文献143

共引文献1005

同被引文献2

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于不同敏感度的改进K-匿名隐私保护算法 被引量：1

参考文献17

二级参考文献143

共引文献1005

同被引文献2

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于不同敏感度的改进K-匿名隐私保护算法被引量：1