期刊文献+
共找到11篇文章
< 1 >
每页显示 20 50 100
Discovering top-k patterns with differential privacy-an accurate approach 被引量:2
1
作者 Xiaojian ZHANG Xiaofeng MENG 《Frontiers of Computer Science》 SCIE EI CSCD 2014年第5期816-827,共12页
Frequent pattern mining discovers sets of items that frequently appear together in a transactional database; these can serve valuable economic and research purposes. However, if the database contains sensitive data (... Frequent pattern mining discovers sets of items that frequently appear together in a transactional database; these can serve valuable economic and research purposes. However, if the database contains sensitive data (e.g., user behavior records, electronic health records), directly releas- ing the discovered frequent patterns with support counts will carry significant risk to the privacy of individuals. In this pa- per, we study the problem of how to accurately find the top-k frequent patterns with noisy support counts on transactional databases while satisfying differential privacy. We propose an algorithm, called differentially private frequent pattern (DFP- Growth), that integrates a Laplace mechanism and an expo- nential mechanism to avoid privacy leakage. We theoretically prove that the proposed method is (λ, δ)-useful and differ- entially private. To boost the accuracy of the returned noisy support counts, we take consistency constraints into account to conduct constrained inference in the post-processing step. Extensive experiments, using several real datasets, confirm that our algorithm generates highly accurate noisy support counts and top-k frequent patterns. 展开更多
关键词 frequent pattern mining differential privacy constrained inference.
原文传递
本地化差分隐私下的频繁序列模式挖掘算法PrivSPM
2
作者 黄硕 李艳辉 曹建秋 《计算机应用》 CSCD 北大核心 2023年第7期2057-2064,共8页
序列数据中可能包含大量敏感信息,因此直接对序列数据的频繁模式进行挖掘存在泄露用户隐私信息的风险。本地化差分隐私(LDP)能够抵御具有任意背景知识的攻击者,可以对敏感信息提供更全面的保护。序列数据内在序列性和高维度的特点为LDP... 序列数据中可能包含大量敏感信息,因此直接对序列数据的频繁模式进行挖掘存在泄露用户隐私信息的风险。本地化差分隐私(LDP)能够抵御具有任意背景知识的攻击者,可以对敏感信息提供更全面的保护。序列数据内在序列性和高维度的特点为LDP应用于频繁序列模式挖掘带来了挑战。为解决这个问题,提出一种满足ε-LDP的top-k频繁序列模式挖掘算法PrivSPM。该算法结合填充和采样技术、自适应频率估计算法与频繁项预测技术来构造候选集;基于新域,利用基于指数机制的策略对用户数据进行扰动,并结合频率估计算法识别最终的频繁序列模式。理论分析证明了该算法满足ε-LDP。在3个真实数据集上的实验结果表明,PrivSPM算法在纳真率(TPR)和归一化累积排名(NCR)上明显高于对比算法,能有效提高挖掘结果的准确度。 展开更多
关键词 本地化差分隐私 隐私保护 频繁序列模式挖掘 指数机制 数据挖掘
下载PDF
基于事务分离的差分隐私频繁项集挖掘方法
3
作者 丁苏凡 曾尚琦 田冬艳 《计算机工程与设计》 北大核心 2023年第1期45-51,共7页
频繁项集挖掘在加入差分隐私后将带来敏感度过高、噪声过大、数据可用性较差的问题。为了解决这些问题,提出了基于事务分离的差分隐私频繁项集挖掘方法。利用指数机制对事务最大限制长度进行筛选,将长事务分离成为多个短事务,以此降低... 频繁项集挖掘在加入差分隐私后将带来敏感度过高、噪声过大、数据可用性较差的问题。为了解决这些问题,提出了基于事务分离的差分隐私频繁项集挖掘方法。利用指数机制对事务最大限制长度进行筛选,将长事务分离成为多个短事务,以此降低全局敏感度并避免截断误差的产生。在数据挖掘过程中,采用Apriori算法挖掘频繁项集,利用双阈值进行项集判断以及修正支持度,减小传输误差的产生和噪音。实验结果表明,该方法满足差分隐私的要求,可有效提高数据可用性。 展开更多
关键词 频繁项集挖掘 ε-差分隐私 事务分离 双阈值 支持度修正
下载PDF
差分隐私保护下一种精确挖掘top-k频繁模式方法 被引量:29
4
作者 张啸剑 王淼 孟小峰 《计算机研究与发展》 EI CSCD 北大核心 2014年第1期104-114,共11页
频繁模式挖掘是分析事务数据集常用技术.然而,当事务数据集含有敏感数据时(如用户行为记录、电子病例等),直接发布频繁模式及其支持度计数会给个人隐私带来相当大的风险.对此提出了一种满足ε-差分隐私的top-k频繁模式挖掘算法DP-topkP(... 频繁模式挖掘是分析事务数据集常用技术.然而,当事务数据集含有敏感数据时(如用户行为记录、电子病例等),直接发布频繁模式及其支持度计数会给个人隐私带来相当大的风险.对此提出了一种满足ε-差分隐私的top-k频繁模式挖掘算法DP-topkP(differentially private top-kpattern mining).该算法利用指数机制从候选频繁模式集合中挑选出top-k个携带真实支持度计数的模式;采用拉普拉斯机制产生的噪音扰动所选模式的真实支持度计数;为了增强输出模式的可用性,采用后置处理技术对top-k个模式的噪音支持度计数进行求精处理.从理论角度证明了该算法满足ε-差分隐私,并符合(λ,δ)-useful要求.实验结果证明了DP-topkP算法具有较好的准确性、可用性和可扩展性. 展开更多
关键词 频繁模式挖掘 top-k模式 差分隐私 拉普拉斯机制 指数机制
下载PDF
差分隐私下的一种频繁序列模式挖掘方法 被引量:7
5
作者 卢国庆 张啸剑 +2 位作者 丁丽萍 李彦峰 廖鑫 《计算机研究与发展》 EI CSCD 北大核心 2015年第12期2789-2801,共13页
频繁序列模式挖掘是数据挖掘领域的1个基本问题,然而模式本身及其支持度计数都有可能泄露用户隐私信息.差分隐私(differential privacy,DP)作为一种新出现的隐私保护技术,定义了一个相当严格的攻击模型,通过添加噪音使数据失真达到隐私... 频繁序列模式挖掘是数据挖掘领域的1个基本问题,然而模式本身及其支持度计数都有可能泄露用户隐私信息.差分隐私(differential privacy,DP)作为一种新出现的隐私保护技术,定义了一个相当严格的攻击模型,通过添加噪音使数据失真达到隐私保护的目的.由于序列数据内在序列性和高维度的特点,给差分隐私应用于频繁序列模式挖掘带来了挑战.对此提出了一种基于交互式差分隐私保护框架的频繁序列模式挖掘算法Diff-FSPM(differential-privacy frequent sequential pattern mining).该算法利用指数机制获取最优序列长度,并采用一种维规约策略获得原始序列数据集的规约表示,有效降低序列维度的影响;应用前缀树压缩频繁序列模式,利用拉普拉斯机制产生的噪音扰动频繁模式的真实支持度计数,同时采用闭频繁序列模式和Markov假设,有效分配隐私预算,并利用一致性约束后置处理,增强输出模式的可用性.理论角度证明算法满足ε-差分隐私,实验结果验证算法具有较好的可用性. 展开更多
关键词 频繁序列模式 数据挖掘 差分隐私 隐私保护 前缀树
下载PDF
面向频繁模式挖掘的差分隐私保护研究综述 被引量:19
6
作者 丁丽萍 卢国庆 《通信学报》 EI CSCD 北大核心 2014年第10期200-209,共10页
频繁模式挖掘是数据挖掘的一个基本问题,其模式本身和相应计数都有可能泄露隐私信息。当前,差分隐私通过添加噪音使数据失真,有效实现了隐私保护的目的。首先介绍了差分隐私保护模型的理论基础;其次,详细综述了差分隐私下3种典型的频繁... 频繁模式挖掘是数据挖掘的一个基本问题,其模式本身和相应计数都有可能泄露隐私信息。当前,差分隐私通过添加噪音使数据失真,有效实现了隐私保护的目的。首先介绍了差分隐私保护模型的理论基础;其次,详细综述了差分隐私下3种典型的频繁模式挖掘方法的最新研究进展,并进行对比性分析;最后对未来的研究方向进行了展望。 展开更多
关键词 差分隐私 隐私保护 频繁模式 数据挖掘
下载PDF
一种面向数据流top-k频繁模式发布的差分隐私保护方案 被引量:6
7
作者 梁文娟 陈红 +1 位作者 赵素云 李翠平 《计算机学报》 EI CAS CSCD 北大核心 2021年第4期741-760,共20页
频繁模式挖掘是事务数据分析的常用技术,面向数据流的频繁模式挖掘具有重要的应用价值.然而当事务为敏感信息时,直接发布频繁模式及支持度会导致个体隐私泄露.差分隐私是一种严格且可证明的隐私保护模型,目前虽然已有基于差分隐私的频... 频繁模式挖掘是事务数据分析的常用技术,面向数据流的频繁模式挖掘具有重要的应用价值.然而当事务为敏感信息时,直接发布频繁模式及支持度会导致个体隐私泄露.差分隐私是一种严格且可证明的隐私保护模型,目前虽然已有基于差分隐私的频繁模式发布方案,但它们大都是面向静态数据做一次性发布的隐私保护.本文是面向数据流频繁模式发布的隐私保护,旨在设计一种兼顾可用性和发布效率的持续发布的差分隐私保护方案.与静态发布方案不同,面向数据流的隐私保护处理面临两大挑战:一是持续发布过程中隐私预算的累计消耗会造成发布结果可用性较低;二是候选模式集增大会造成发布结果误差较大和发布效率较低.为解决隐私预算的累计消耗问题,方案设计了满足event级差分隐私的保护机制.该机制可以最大化隐私预算利用率,提高发布结果可用性.为降低候选模式集大小,从而提高发布结果可用性和发布效率,方案首先设计了一种基于模式估计的长事务拆分预处理策略,并对拆分所致的信息丢失率进行了分析和弥补.然后在持续发布阶段,在基于Cantree的挖掘中,先基于支持度阈值对候选模式集进一步缩减.基于缩减后的候选模式集,本文设计了一种蓄水池抽样和指数机制(EM)相结合的持续更新发布策略,该策略通过一遍扫描抽样集,在保证可用性和隐私保护级别的前提下提高了发布效率.最后,理论证明了该方案满足ε-差分隐私,实验结果验证了该方案具有较好的可用性和较高的工作效率. 展开更多
关键词 模式估计 差分隐私 蓄水池抽样 频繁模式挖掘 事务拆分
下载PDF
基于事务截断的差分隐私频繁模式挖掘算法 被引量:2
8
作者 甘文勇 吴英杰 +1 位作者 孙岚 王一蕾 《小型微型计算机系统》 CSCD 北大核心 2015年第11期2583-2587,共5页
现有基于ε-差分隐私模型的频繁模式挖掘算法存在全局敏感度过高与挖掘结果可用性较低的不足.设计一个基于事务截断的差分隐私频繁模式挖掘算法.算法首先采用基于指数机制的事务截断思想,对长事务进行截断处理,以有效降低算法的全局敏感... 现有基于ε-差分隐私模型的频繁模式挖掘算法存在全局敏感度过高与挖掘结果可用性较低的不足.设计一个基于事务截断的差分隐私频繁模式挖掘算法.算法首先采用基于指数机制的事务截断思想,对长事务进行截断处理,以有效降低算法的全局敏感度,并在此基础上提出基于事务截断的差分隐私频繁模式挖掘算法,而后提出可用于扩充Apriori算法候选集的最小噪声支持度标准,以进一步提升挖掘结果的可用性.实验对本文算法的频繁模式挖掘结果与同类算法进行比较分析.实验结果表明,本文算法可在满足ε-差分隐私的前提下,保证挖掘结果具有较高的可用性. 展开更多
关键词 频繁模式挖掘 差分隐私 指数机制 事务截断
下载PDF
面向电力工控网络大数据的微聚集差分隐私保护方法 被引量:10
9
作者 程伟华 谭晶 +1 位作者 徐明生 倪震 《南京理工大学学报》 EI CAS CSCD 北大核心 2019年第5期571-577,共7页
针对隐私泄露问题,该文提出一种在频繁模式挖掘中依托微聚集算法实现的差分隐私保护方法,并将其应用到电力工控网络中。通过对指数机制和每个模式的微聚集权重的权衡,选择了Top-k频繁模式方法,并加入拉普拉斯噪声进行扰动,使每个被选择... 针对隐私泄露问题,该文提出一种在频繁模式挖掘中依托微聚集算法实现的差分隐私保护方法,并将其应用到电力工控网络中。通过对指数机制和每个模式的微聚集权重的权衡,选择了Top-k频繁模式方法,并加入拉普拉斯噪声进行扰动,使每个被选择模式的原始支持度均实现了隐私保护与效用的平衡,最大程度地确保了信息发布、数据分析需求和隐私保护需求的平衡,保障了各方对电力工控系统的信任和电力工控系统的健康成长,在数据集上的实验结果验证了该方法的有效性。 展开更多
关键词 微聚集 匿名化 频繁模式挖掘 差分隐私保护
下载PDF
基于差分隐私的轨迹模式挖掘算法 被引量:2
10
作者 金凯忠 彭慧丽 张啸剑 《计算机应用》 CSCD 北大核心 2017年第10期2938-2945,2951,共9页
针对现有基于差分隐私的频繁轨迹模式挖掘算法全局敏感度过高、挖掘结果可用性较低的问题,提出一种基于前缀序列格和轨迹截断的差分隐私下频繁轨迹模式挖掘算法——LTPM。该算法首先利用自适应的方法获得最优截断长度,然后采用一种动态... 针对现有基于差分隐私的频繁轨迹模式挖掘算法全局敏感度过高、挖掘结果可用性较低的问题,提出一种基于前缀序列格和轨迹截断的差分隐私下频繁轨迹模式挖掘算法——LTPM。该算法首先利用自适应的方法获得最优截断长度,然后采用一种动态规划的策略对原始数据库进行截断处理,在此基础上,利用等价关系构建前缀序列格,并挖掘频繁轨迹模式。理论分析表明LTPM算法满足ε-差分隐私;实验结果表明,LTPM算法的准确率(TPR)和平均相对误差(ARE)明显优于N-gram和Prefix算法,能有效提高挖掘结果的可用性。 展开更多
关键词 差分隐私 隐私保护 频繁模式挖掘 轨迹截断 前缀序列格
下载PDF
一种并行差分隐私关联规则挖掘算法
11
作者 申泽宇 袁健 《软件导刊》 2017年第9期65-67,71,共4页
针对传统基于ε-差分隐私模型的top-k关联规则挖掘算法在大规模数据环境下挖掘效率低下的问题,提出了一种并行差分隐私关联规则挖掘算法。算法利用Hadoop框架实现并行计算,利用负载均衡策略,使每一个节点分配到的数据量相当,利用指数机... 针对传统基于ε-差分隐私模型的top-k关联规则挖掘算法在大规模数据环境下挖掘效率低下的问题,提出了一种并行差分隐私关联规则挖掘算法。算法利用Hadoop框架实现并行计算,利用负载均衡策略,使每一个节点分配到的数据量相当,利用指数机制挑选出k个频繁模式,采用拉普拉斯机制对这k个频繁模式添加噪音。通过实验对算法的频繁模式挖掘结果与同类算法进行比较分析,结果表明,该算法在保证挖掘结果具有可用性的前提下,在效率上较传统算法有所提升。 展开更多
关键词 频繁模式挖掘 差分隐私 指数机制 并行计算
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部