基于互联网大数据的脱敏分析技术研究被引量：14

Data Masking Analysis Based on Internet Big Data

导出

摘要【目的】基于现有的脱敏技术,改进匿名组的划分效果,得到较优的脱敏模型及算法。【方法】基于k-匿名技术,改进维度划分标准,以KD树作为存储结构,构造新算法。利用Python实现程序,比较所产生的匿名组数量、NCP百分比,验证算法的可行性与有效性。【结果】新算法能够使得脱敏后整个数据集所生成的匿名组个数达到最大。且NCP百分比低于同类算法。【局限】对于有某一属性离散程度显著的数据集,循环计算划分维度较为繁琐。【结论】新算法相比于传统算法增加了匿名组个数,相比于同类算法,信息损失较低。 [Objective] This paper aims to improve the classification results of anonymous groups and then obtain better data masking model and algorithm. [Methods] First, we modified the dimension judgment standards based on k-anonymity. Then, we used the KD tree as storage structure to construct a new algorithm. Third, we implemented the proposed algorithm with Python. Finally, we examined the feasibility and effectiveness of the new algorithm with the number of anonymous groups and the percentage of NCP. [Results] The new algorithm could maximize the number of anonymous groups generated by the whole dataset, while the percentage of NCP was lower than similar algorithms. [Limitations] For datasets with significant degree of dispersion, the dimension of the loop computation was cumbersome. [Conclusions] The proposed algorithm could improve the availability of the anonymous groups and reduce the data loss.

作者周倩伊王亚民王闯 Zhou Qianyi ,Wang Yamin ,Wang Chuang(School of Economics and Management, Xidian University, Xi＇an 710126, Chin)

机构地区西安电子科技大学经济与管理学院

出处《数据分析与知识发现》 CSSCI CSCD 北大核心 2018年第2期58-63,共6页 Data Analysis and Knowledge Discovery

关键词数据脱敏 K-匿名模型取整划分 Data Masking k-anonymity Integer Division

分类号 TP391 [自动化与计算机技术—计算机应用技术] G35 [文化科学—情报学]

引文网络
相关文献

参考文献6

1穆良,程良伦.基于k-匿名位置隐私保护的自适应学习模型[J].计算机工程与应用,2017,53(18):89-94. 被引量：3
2王静,闫仁武,刘亚梅.多敏感属性K-匿名模型的实现[J].计算机与数字工程,2017,45(7):1368-1372. 被引量：3
3王良,王伟平,孟丹.FVSk-匿名:一种基于k-匿名的隐私保护方法[J].高技术通讯,2015,25(3):228-238. 被引量：10
4郑路倩,韩建民,鲁剑锋,彭浩,郭会.抵制时空位置点链接攻击的(k,δ,l)-匿名模型[J].计算机科学与探索,2015,9(9):1108-1121. 被引量：2
5吴英杰,唐庆明,倪巍伟,孙志挥.基于取整划分函数的k匿名算法[J].软件学报,2012,23(8):2138-2148. 被引量：8
6陈天莹,陈剑锋.大数据环境下的智能数据脱敏系统[J].通信技术,2016,49(7):915-922. 被引量：61

二级参考文献54

1杨晓春,刘向宇,王斌,于戈.支持多约束的K-匿名化方法[J].软件学报,2006,17(5):1222-1231. 被引量：60
2Bayardo R J, Agrawal R. Data privacy through optimal k-anonymization. In: Aberer K, Franklin M, Nishio S, eds. Proc. of the 21 st IEEE lnt'l Conf. on Data Engineering. Washington: IEEE Computer Society, 2005. 217-228. [doi: 10.1109/ICDE.2005.42].
3Samarati P, Sweeney L. Protecting privacy when disclosing information: k-Anonymity and its enforcement through generalization and suppression. Technical Report, SRI Int'l, 1998.
4Sweeney L. Achieving k-anonymity privacy protection using generalization and suppression. Int'l Journal on Uncertainty, Fuzziness, and Knowledge-Based Systems, 2002,10(5):571-588. [doi: 10.1142/S021848850200165X].
5Sweeney L. k-Anonymity: A model for protecting privacy. Int'l Journal on Uncertainty, Fuzziness and Knowledge-Based Systems, 2002,10(5):557-570. [doi: 10.1142/S0218488502001648].
6Xu Y, Wang K, Fu AWC, Yu PS. Anonymizing transaction databases for publication. In: Li Y, Liu B, Sarawagi S, eds. Proc. of the 14th ACM SIGKDD Int'l Conf. on Knowledge Discovery and Data Mining. New York: Association for Computing Machinery, 2008. 767-775. [doi: 10.1145/1401890.1401982].
7Terrovitis M, Mamoulis N, Kalnis P. Anonymity in unstructured data. Technical Report. Hong Kong: Hong Kong University, 2008.
8Fung BCM, Wang K, Yu PS. Top-Down specialization for information and privacy preservation. In: Aberer K, Franklin M, Nishio S, eds. Proc. of the 21st IEEE Int'l Conf. on Data Engineering. Washington: IEEE Computer Society, 2005. 205-216. [doi: 10.1109/ICDE.2005.143 ].
9Fung BCM, Wang K, Chen R, Yu PS. Privacy-Preserving data publishing: A survey on recent developments. ACM Computing Surveys, 2010,42(4): 1-53. [doi: 10.1145/1749603.1749605].
10Iyengar VS. Transforming data to satisfy privacy constraints. In: Hand D, Keim D, Ng R, eds. Proe. of the 8th ACM SIGKDD Int'l Conf. on Knowledge Discovery and Data Mining. New York: Association for Computing Machinery, 2002. 279-288. [doi: 10.1145/775047.775089].

共引文献79

1张俊,李灵犀,林懿伦,张天韵,张科,许沛东,阮克羽,沈聃.虚实系统互驱的混合增强智能开放创新平台的架构与方案[J].智能科学与技术学报,2019,0(4):379-391. 被引量：7
2袁梦真,许潇,张彦豪.基于人工智能的非结构化数据脱敏方法研究[J].网络安全与数据治理,2023,42(S01):184-190.
3王一蕾,吴英杰,唐庆明.基于混合划分技术的隐私保护关系型数据发布算法[J].南京理工大学学报,2013,37(4):493-499. 被引量：2
4肖建华,柴芳墨.论数据权利与交易规制[J].中国高校社会科学,2019,0(1):83-93. 被引量：57
5胡峻峰.用户画像机制下信息定向推送的权利保护与法律规制[J].西安电子科技大学学报（社会科学版）,2018,28(4):36-43. 被引量：4
6史汉发,王俊峰,陈建,王宇琛.医疗数据发布中多敏感属性隐私保护算法[J].四川大学学报（自然科学版）,2014,51(4):731-737. 被引量：4
7王超,杨静,张健沛,吕刚.基于投影区域密度划分的k匿名算法[J].通信学报,2015,36(8):125-134. 被引量：1
8汪小寒,罗永龙,江叶峰,赵传信,吴文莉,郭良敏.基于KD树最优投影划分的k匿名算法[J].南京大学学报（自然科学版）,2016,52(6):1050-1064. 被引量：2
9何建成,郭兵.基于云存储的个人数据保管箱的设计与实现[J].现代计算机,2016,22(22):61-64.
10范润奇,郭兵.Android中基于MultiDex的热修补方案的研究[J].现代计算机,2016,22(23):33-36.

同被引文献155

1盛小平,袁圆.科学数据开放共享中的数据权利治理研究[J].中国图书馆学报,2021,47(5):80-96. 被引量：33
2梅傲.数据跨境传输规则的新发展与中国因应[J].法商研究,2023,40(4):58-71. 被引量：20
3杨杨,于水,胡卫卫.区块链赋能重塑社会治理结构:场景、风险与治理之道[J].电子政务,2020(3):54-61. 被引量：34
4余军.法律责任概念的双元价值构造[J].浙江学刊,2005(1):174-177. 被引量：24
5赵红武,金瑜,刘云生.一种减少中断延迟的中断调度模型[J].现代计算机,2005,11(9):27-29. 被引量：1
6应飞虎.问题及其主义——经济法学研究非传统性之探析[J].法律科学（西北政法大学学报）,2007,25(2):86-94. 被引量：36
7应飞虎.论经济法视野中的弱势群体——以消费者等为对象的考察[J].南京大学学报（哲学．人文科学．社会科学）,2007,44(3):67-74. 被引量：39
8王耀琦,王小鹏,张忠林,刘勇.基于数据存储的小波数字水印算法[J].自动化与仪器仪表,2011(6):159-160. 被引量：2
9安东.论法律的安全价值[J].法学评论,2012,30(3):3-8. 被引量：40
10吴英杰,唐庆明,倪巍伟,孙志挥.基于取整划分函数的k匿名算法[J].软件学报,2012,23(8):2138-2148. 被引量：8

引证文献14

1蒙杨.基于机器学习的数据脱敏系统研究与设计[J].电子技术与软件工程,2019,0(23):178-179. 被引量：4
2王慧,程正兴.基于小波分析的a-多样性k-匿名大数据自适应延迟调度算法[J].吉林大学学报（理学版）,2020,58(3):620-626. 被引量：5
3刘岳山.“互联网+”环境下智慧校园数据安全治理[J].网络安全技术与应用,2020(6):105-106. 被引量：3
4梁群.基于深度内容识别的数据脱敏合规检测平台研究与实现[J].湖南邮电职业技术学院学报,2020,19(2):32-34. 被引量：8
5谢裕清,王渊,江樱,杨苗,王永利.便于数据共享的电网数据湖隐私保护方法[J].计算机工程与应用,2021,57(2):113-118. 被引量：22
6刘桂锋,阮冰颖,包翔.数据生命周期视角下高校科学数据安全内容框架构建[J].情报杂志,2021,40(2):146-153. 被引量：27
7刘莉,陈先来,李忠民,安莹,朱勋梅,谢丽敏,杨潇,邱珂,于冰.精准医学大数据应用安全分类分级研究[J].医学信息学杂志,2021,42(1):9-15. 被引量：8
8符精晶,许晓东.一种抵制对等性攻击的(p,θ)k-匿名模型[J].计算机与数字工程,2021,49(8):1619-1624.
9韩艺,刘璨.区块链赋能:“互联网+政务服务”运行中的数据安全治理之道[J].广西师范大学学报（哲学社会科学版）,2022,58(5):86-99. 被引量：9
10周坤琳,吴忠奇.金融机构个人数据保护义务的履行困境与法律回应[J].长江大学学报（社会科学版）,2023,46(1):90-97. 被引量：1

二级引证文献100

1金贞燕,阿童木.基于科研项目生命周期的科研数据管理体系研究[J].知识管理论坛,2021(4):228-237.
2袁梦真,许潇,张彦豪.基于人工智能的非结构化数据脱敏方法研究[J].网络安全与数据治理,2023,42(S01):184-190.
3黄瑞.一种基于云环境下的民生应用的数据安全评估方法研究[J].新一代信息技术,2022,5(6):12-14.
4金励,周坤琳.数据共享的制度去障与司法应对研究[J].西南金融,2020(3):88-96. 被引量：17
5赵晖,彭广成,吴彦铭.5G智慧校园应用[J].江西通信科技,2020(1):18-20. 被引量：4
6梁群.基于深度内容识别的数据脱敏合规检测平台研究与实现[J].湖南邮电职业技术学院学报,2020,19(2):32-34. 被引量：8
7牛可义.对社会变迁中的互联网治理分析[J].大众标准化,2020(15):90-91. 被引量：1
8李强.新时代背景下智慧校园网络安全研究[J].现代工业经济和信息化,2020,10(9):70-71. 被引量：1
9柳小文,雷军程,刘雪婷.隐私信息管理系统设计与实现[J].邵阳学院学报（自然科学版）,2020,17(6):54-58.
10曹芳,章翰源.基于大数据的学生食堂消费画像构建及其应用[J].湖南邮电职业技术学院学报,2020,19(4):27-30. 被引量：3

1王鑫,王电钢,母继元,常健,张凤.基于机器学习的数据脱敏系统研究与设计[J].电力信息与通信技术,2018,16(1):33-38. 被引量：19
2宁雪莉,罗永龙,邢凯,郑孝遥.基于地理社交网络的频繁位置隐私保护算法[J].计算机应用,2018,38(3):688-692. 被引量：2
3蒋晓丽,贾瑞琪.新闻游戏:一个属性的界定[J].新闻界,2018(1):42-47. 被引量：16
4宋明秋,王琳,姜宝彦,邓贵仕.多属性泛化的K-匿名算法[J].电子科技大学学报,2017,46(6):896-901. 被引量：11
5丁加旗.初中物理科学思维水平划分与提升学生思维能力途径探讨——以“运动的相对性”一课为例[J].中学物理教学参考,2018,0(3):1-3. 被引量：18
6黄艳,卢学良.基于KD树的规则格网DEM插值技术[J].测绘科学与工程,2017,0(6):65-68.
7刘阳,祝永志,迟玉良.基于敏感性分级的(k,δ,a_i)-匿名模型[J].信息技术与网络安全,2018,37(1):52-56.
8李子茂,骆庆,刘晶.VDOD:一种基于KD树的分布式离群点检测算法[J].计算机与数字工程,2018,46(3):419-423. 被引量：2
9段海兵,韩建民,鲁剑锋,唐长兵,叶荣华.一种基于博弈的LBS隐私保护哑元生成机制[J].浙江师范大学学报（自然科学版）,2018,41(1):50-55.
10钟世彪,张磊昌,余泽炎,陈利生.临床路径在混合痔手术治疗过程中的应用效果[J].结直肠肛门外科,2017,23(6):691-697. 被引量：6

数据分析与知识发现

2018年第2期

浏览历史

内容加载中请稍等...

基于互联网大数据的脱敏分析技术研究被引量：14

参考文献6

二级参考文献54

共引文献79

同被引文献155

引证文献14

二级引证文献100

相关作者

相关机构

相关主题

浏览历史

基于互联网大数据的脱敏分析技术研究 被引量：14

参考文献6

二级参考文献54

共引文献79

同被引文献155

引证文献14

二级引证文献100

相关作者

相关机构

相关主题

浏览历史

基于互联网大数据的脱敏分析技术研究被引量：14