-
题名差分隐私的数据流关键模式挖掘方法
被引量:11
- 1
-
-
作者
王金艳
刘陈
傅星珵
罗旭东
李先贤
-
机构
广西多源信息挖掘与安全重点实验室(广西师范大学)
广西师范大学计算机科学与信息工程学院
-
出处
《软件学报》
EI
CSCD
北大核心
2019年第3期648-666,共19页
-
基金
国家自然科学基金(61502111
61763003
+7 种基金
61672176
61762016
61562007)
广西自然科学基金(2016GXNSFAA380192)
广西科技基地与人才专项(AD16380008)
广西高等学校千名中青年骨干教师培育计划
"八桂学者"工程专项经费资助项目
广西区域多源信息集成与智能处理协同创新中心~~
-
文摘
频繁模式挖掘是数据挖掘的重要任务之一,在数据流上挖掘简洁的关键模式比频繁模式更有优势,因为关键模式既可以避免频繁模式里包含的冗余信息以减少内存存储空间,又可以高效无损地提取频繁模式.但是由于相邻时间戳的统计信息可以作为背景知识增强攻击者的推理能力,所以从包含个人信息的数据流中挖掘关键模式比静态场景下更容易泄露隐私.分析指出了数据流关键模式挖掘的隐私泄露问题及原理,并提出了一种满足差分隐私的数据流关键模式挖掘算法DP-CPM,该算法在每个时间戳设计一种两阶段机制:差异计算阶段和噪音挖掘阶段.该机制既考虑了隐私和数据效用之间的权衡,又考虑了挖掘时间和维护开销之间的权衡.为了提高数据流中连续发布时的数据效用性,在第1阶段通过计算差异来决定当前时间戳是返回低噪音统计值还是精确的近似统计值.如果是返回低噪音统计值,算法进入噪音挖掘阶段.在噪音挖掘阶段,首先通过判断查询集筛选出关键模式候选集,然后通过给筛选出的候选集里的模式支持度加入服从拉普拉斯分布的随机噪音,得到最终的噪音支持度.最后,给出了严格的理论分析和大量的实验,表明DP-CPM算法的有效性和执行效率.
-
关键词
关键模式
数据流
差分隐私
数据挖掘
隐私泄露
-
Keywords
crucial pattern
data stream
differential privacy
data mining
privacy leakage
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-