基于MapReduce的并行抽样路径K-匿名隐私保护算法被引量：3

A parallel sampling path K-anonymity privacy protection based on MapReduce

下载PDF

导出

摘要 K-匿名算法及现存K-匿名改进算法大多使用牺牲时间效率降低发布数据信息损失量的方法实现数据的匿名化,但随着数据量的急剧增长,传统的数据匿名化方法已不适用于对较大数据的处理。针对K-匿名算法在单机执行过程中产生大量频繁项集和重复搜索数据表的缺点,将MapReduce模型引入到抽样泛化路径K-匿名算法中对其进行优化。该方法兼具MapReduce及抽样泛化算法的优点,高效分布式匿名化数据集,降低发布数据集信息损失量,提高数据的可用性。实验结果表明:当数据量较大时,该优化算法在时间效率及数据精度方面有显著提高。 K-anonymous algorithm and improved algorithm K-anonymous mostly use the method of sacrificing of time to lower data information loss to realize the data anonymity, but with the rapid growth of data quantity, the traditional methods of data anonymity is not suitable for processing of large data. Aimed at the shortage of time complexity and execution efficiency K-anonymity in stand-alone that it generates a lot of frequent sets and searches the data table repeatedly, this paper introduces the MapReduce technology to K-anonymity algorithm to optimize this algorithm. The algorithm with the advantage of MapReduce and sampling generic algorithm can compute distributed anonymous data set effectively and reduce the information loss of released data set, so it improves the availability of data. The experimental results show that the algorithm increases observably in time efficiency and data accuracy.

作者刘杰沈微微戈军王学军

机构地区宿迁学院信息工程学院江苏大学计算机科学与通信工程学院

出处《电子技术应用》北大核心 2017年第9期132-136,共5页 Application of Electronic Technique

基金宿迁市科技计划项目(Z201445 S201410 Z201448) 宿迁学院科研基金项目(2013KY13)

关键词 MAP REDUCE K-匿名抽样 MapReduce K-anonymity sample

分类号 TN99 [电子电信—信号与信息处理]

引文网络
相关文献

参考文献5

1杨静,王超,张健沛.基于敏感属性熵的微聚集算法[J].电子学报,2014,42(7):1327-1337. 被引量：14
2Qinghai Liu,Hong Shen,Yingpeng Sang.Privacy-Preserving Data Publishing for Multiple Numerical Sensitive Attributes[J].Tsinghua Science and Technology,2015,20(3):246-254. 被引量：6
3崔杰,李陶深,兰红星.基于Hadoop的海量数据存储平台设计与开发[J].计算机研究与发展,2012,49(S1):12-18. 被引量：141
4詹浩,段卓毅,陈迎春.基于遗传算法和分布式计算的翼型优化设计研究[J].西北工业大学学报,2004,22(6):778-781. 被引量：5
5李建江,崔健,王聃,严林,黄义双.MapReduce并行编程模型研究综述[J].电子学报,2011,39(11):2635-2642. 被引量：186

二级参考文献77

1宁焕生,张瑜,刘芳丽,刘文明,渠慎丰.中国物联网信息服务系统研究[J].电子学报,2006,34(B12):2514-2517. 被引量：151
2彭京,唐常杰,程温泉,石葆梅,乔少杰.一种基于层次距离计算的聚类算法[J].计算机学报,2007,30(5):786-795. 被引量：11
3J Dean,S Ghemawat.MapReduce:Simplified data processing on large clusters[J].Communications of the ACM,2008,51(1):107-113.
4J L Wagener.High performance fortran[J].Computer Standards & Interfaces,Elsevier,1996,18(4):371-377.
5W Gropp,E Lusk,et al.Using MPI:Portable Parallel Programming with the Message Passing Interface[M].Cambridge:MIT Press,1999.1-350.
6A Geist,A Beguelin,et al.PVM:Parallel Virtual Machine:A Users' Guide and Tutorial for Networked Parallel Computing[M].Cambridge:MIT Press,1995.1-299.
7A Verma,N Zea,et al.Breaking the mapreduce stage barrier .Proc of IEEE International Conference on Cluster Computing .Los Alamitos:IEEE Computer Society,2010.235-244.
8H C Yang,A Dasdan,et al.Map-Reduce-Merge:Simplified relational data processing .Proc of ACM SIGMOD International Conference on Management of Data .New York:ACM,2007.1029-1040.
9S V Valvag,D Johansen.Oivos:Simple and efficient distributed data processing .Proc of IEEE International Conference on High Performance Computing and Communications .Piscataway:IEEE,2008.113-122.
10Z Vrba,P Halvorsen,et al.Kahn process networks are a flexible alternative to mapreduce .Proc of IEEE International Conference on High Performance Computing and Communications .Piscataway:IEEE,2009.154-162.

共引文献343

1陈宁,陈孝文,冯世杰,吕志鹏,陈习,张娜,王岩.基于Hadoop的电力客户用电地址存储与结构化管理系统设计[J].微型电脑应用,2020,36(2):97-101. 被引量：4
2李威耀,范国梅,马俊才.基于微生物分类的信息推荐模型[J].计算机应用研究,2020,37(S01):211-212.
3左学刚,邹滨,胡晨霞,李沈鑫,贺晨骋.自然资源大数据助力的城市可持续发展评估[J].测绘科学,2023,48(1):189-200. 被引量：3
4桂智明,向宇,李玉鉴.基于出租车轨迹的并行城市热点区域发现[J].华中科技大学学报（自然科学版）,2012,40(S1):187-190. 被引量：21
5秦晓辉,刘沛清,张大伟,吴洋.大型飞机超临界翼型设计与优化[J].民用飞机设计与研究,2009,0(S1):1-6. 被引量：1
6常青,严小文,陶晓峰,付峰.基于大数据技术的智能电表运行状态分析系统研究[J].自动化与仪器仪表,2015(12):4-6. 被引量：19
7程文渊,常艳,崔德刚,谢向辉.基于分布式计算的复合材料机翼优化设计[J].复合材料学报,2007,24(1):167-171. 被引量：11
8亢丽芸,王效岳,白如江.MapReduce原理及其主要实现平台分析[J].现代图书情报技术,2012(2):60-67. 被引量：17
9李建敦,彭俊杰,张武.云存储中一种基于布局的虚拟磁盘节能调度方法[J].电子学报,2012,40(11):2247-2254. 被引量：10
10许丞,刘洪,谭良.Hadoop云平台的一种新的任务调度和监控机制[J].计算机科学,2013,40(1):112-117. 被引量：52

同被引文献30

1李学明,唐相桢.基于3-gram模型和数据挖掘技术的元数据预取[J].重庆大学学报（自然科学版）,2008,31(6):658-662. 被引量：2
2刘晓群,邹欣,范虹.基于并行云计算模式的建筑结构设计[J].电子技术应用,2011,37(10):123-125. 被引量：7
3李建江,崔健,王聃,严林,黄义双.MapReduce并行编程模型研究综述[J].电子学报,2011,39(11):2635-2642. 被引量：186
4胡爱娜,蔡晓艳.基于MapReduce的分布式期望最大化算法[J].科学技术与工程,2013,21(16):4603-4606. 被引量：4
5钮亮,张宝友.MapReduce求解物流配送单源最短路径研究[J].电子技术应用,2014,40(3):123-125. 被引量：5
6黄伟建,周鸣爱,杜巍.异构云环境下MapReduce高效性的优化研究[J].科学技术与工程,2014,22(31):73-77. 被引量：2
7李书豪,陈宇,吕淑宝,张猛治.基于N-gram模型的中文分词前k优算法[J].智能计算机与应用,2016,6(6):31-35. 被引量：4
8秦军,郝天曙,董倩倩.基于MapReduce的Apriori算法并行化改进[J].计算机技术与发展,2017,27(4):64-68. 被引量：11
9郑剑,刘聪.基于DTW距离度量函数的DTW-TA轨迹匿名算法[J].计算机应用研究,2017,34(8):2459-2463. 被引量：2
10姜火文,占清华,刘文娟,马海英.图数据发布隐私保护的聚类匿名方法[J].软件学报,2017,28(9):2323-2333. 被引量：12

引证文献3

1龚永罡,田润琳,廉小亲,夏天.基于MapReduce的三元N-gram算法的并行化研究[J].电子技术应用,2019,45(5):70-73. 被引量：5
2朱锐.互连通信中多主机网络转发信息匿名方法仿真[J].计算机仿真,2019,36(12):155-158. 被引量：1
3姜庆臣,莫路锋,朱雪芬,唐丽华.基于智能合约的分布式数据共享模式及其算法研究[J].信息技术与网络安全,2021,40(11):49-53. 被引量：1

二级引证文献7

1郑海鹏.Spark集群实现统计文档单词频次实例[J].电脑知识与技术,2020,16(23):33-34. 被引量：1
2高鑫,王世杰,许舒翔.基于并行算法的大数据阶乘算法的时间效率优化分析[J].微型电脑应用,2021,37(1):168-169.
3王林,姜萌.基于MapReduce并行处理的机电特种设备故障诊断系统设计[J].计算机测量与控制,2021,29(2):5-9. 被引量：10
4韩宝虎,赵亮,韩希君.应用巡检机器人的分布式基站布局及网络互联[J].粘接,2022(8):155-159. 被引量：3
5产院东,孟剑萍,郭乔进,吴其华,梁中岩,胡杰.基于机器学习的恶意软件分析算法[J].信息化研究,2022,48(3):23-30.
6郭媛,张彦如,罗南.基于区块链技术的档案数据共享研究[J].办公室业务,2022(23):187-189.
7徐强,王仕佐.基于改进Apriori算法的大数据AR挖掘仿真[J].计算机仿真,2023,40(7):509-513. 被引量：3

1吴金龙.MIS从单机到网络环境的转换及其实现[J].华侨大学学报（自然科学版）,1992,13(2):285-291.
2单机经典[J].家庭电脑世界,2004(08S):59-61.
3单机经典[J].家庭电脑世界,2004(07S):59-61.
4三季度GDP增7．8％符合预期全年目标无忧[J].企业决策参考,2013(28):4-4.
5三季度中国经济同比增长7．8％[J].企业决策参考,2013(28):2-2.
6陈炜伟,安蓓.上半年中国经济同比增长6．9％[J].现代企业,2017,0(7):40-40.
7雷敏,刘铮.三季度中国经济增速反弹至7．8％[J].现代企业,2013(10).
8一季度GDP增长6.7％[J].半月谈,2016,0(8):93-93.
9王希,陈炜伟.一季度中国经济同比增长7%[J].现代企业,2015(4).
10国家统计局发布数据2016年我国GDP增速6．7％[J].中国建材,2017,0(2):112-112.

电子技术应用

2017年第9期

浏览历史

内容加载中请稍等...

基于MapReduce的并行抽样路径K-匿名隐私保护算法被引量：3

参考文献5

二级参考文献77

共引文献343

同被引文献30

引证文献3

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

基于MapReduce的并行抽样路径K-匿名隐私保护算法 被引量：3

参考文献5

二级参考文献77

共引文献343

同被引文献30

引证文献3

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

基于MapReduce的并行抽样路径K-匿名隐私保护算法被引量：3