聚类是一种典型且重要的数据挖掘方法,但现有聚类算法大多需要人为指定聚类的数量,并且聚类结果对参数敏感.针对上述不足,本文提出一种基于子博弈完美均衡的启发式聚类算法(Heuristic Clustering algorithm based on Sub-game Perfect E...聚类是一种典型且重要的数据挖掘方法,但现有聚类算法大多需要人为指定聚类的数量,并且聚类结果对参数敏感.针对上述不足,本文提出一种基于子博弈完美均衡的启发式聚类算法(Heuristic Clustering algorithm based on Sub-game Perfect Equilibrium,HCSPE).该算法充分挖掘数据点自身的分布特征信息,通过启发式方法得到自适应的参数值,从而使数据点局部密度属性值的得出具有客观性和普适性,降低了聚类结果对参数的敏感性.基于博弈的思想,综合局部密度和相对距离两个属性形成数据点的竞争力,依靠竞争机制完成聚类数量的自动计算以及聚类中心的确定.在多个规模和类型均不相同的数据集上的实验结果表明,本文所提出算法的性能指标整体优于其他算法,并且聚类结果更符合客观所需.展开更多
关联规则隐藏是隐私保护数据挖掘(privacy-preserving data mining,PPDM)的一种重要方法.针对当前的关联规则隐藏算法直接操作事务数据、I/O开销较大的缺陷,提出一种基于FP-tree快速关联规则隐藏的算法FP-DSRRC.算法首先对FP-tree的结...关联规则隐藏是隐私保护数据挖掘(privacy-preserving data mining,PPDM)的一种重要方法.针对当前的关联规则隐藏算法直接操作事务数据、I/O开销较大的缺陷,提出一种基于FP-tree快速关联规则隐藏的算法FP-DSRRC.算法首先对FP-tree的结构进行改进,增设事务编号索引并建立双向遍历结构,进而利用改进的FP-tree对事务信息进行快速处理,避免了遍历原始数据集产生的大量I/O时间;然后通过建立和维护事务索引表实现对敏感项的快速查找,并基于分簇策略对关联规则处理,以簇为单位进行敏感规则消除,同时采用规则支持度和置信度阈值区间的思想,减少了关联规则隐藏处理对原始数据集的影响;最后通过实验测试证明:相较于传统关联规则隐藏算法,FP-DSRRC算法在保证生成的数据集质量的同时,减少了50%~70%的算法执行时间,并在大规模真实数据集上有较好的可用性.展开更多
针对传统模块优化社团划分算法仅能利用网络的结构信息,而无法利用同样丰富的内容信息,导致划分精度较低的问题,提出一种结合内容属性并通过给连边加权来全面优化网络拓扑结构的社团划分算法CCSRW(Classification with Content-Structur...针对传统模块优化社团划分算法仅能利用网络的结构信息,而无法利用同样丰富的内容信息,导致划分精度较低的问题,提出一种结合内容属性并通过给连边加权来全面优化网络拓扑结构的社团划分算法CCSRW(Classification with Content-Structure and Random Walk).设计利用随机游走理论计算结构节点与内容节点间的相似性关系矩阵,并将结构节点映射到内容属性空间上,最终把社团划分问题转化为多维无监督聚类问题.通过在真实数据集上进行的全面实验分析,展示了相比于传统社团划分算法,本文的算法能更准确的描述网络结构,显著提高划分性能,并有效解决小社团不敏感问题,更适用于大规模复杂信息网络的社团划分.展开更多
文摘聚类是一种典型且重要的数据挖掘方法,但现有聚类算法大多需要人为指定聚类的数量,并且聚类结果对参数敏感.针对上述不足,本文提出一种基于子博弈完美均衡的启发式聚类算法(Heuristic Clustering algorithm based on Sub-game Perfect Equilibrium,HCSPE).该算法充分挖掘数据点自身的分布特征信息,通过启发式方法得到自适应的参数值,从而使数据点局部密度属性值的得出具有客观性和普适性,降低了聚类结果对参数的敏感性.基于博弈的思想,综合局部密度和相对距离两个属性形成数据点的竞争力,依靠竞争机制完成聚类数量的自动计算以及聚类中心的确定.在多个规模和类型均不相同的数据集上的实验结果表明,本文所提出算法的性能指标整体优于其他算法,并且聚类结果更符合客观所需.
文摘关联规则隐藏是隐私保护数据挖掘(privacy-preserving data mining,PPDM)的一种重要方法.针对当前的关联规则隐藏算法直接操作事务数据、I/O开销较大的缺陷,提出一种基于FP-tree快速关联规则隐藏的算法FP-DSRRC.算法首先对FP-tree的结构进行改进,增设事务编号索引并建立双向遍历结构,进而利用改进的FP-tree对事务信息进行快速处理,避免了遍历原始数据集产生的大量I/O时间;然后通过建立和维护事务索引表实现对敏感项的快速查找,并基于分簇策略对关联规则处理,以簇为单位进行敏感规则消除,同时采用规则支持度和置信度阈值区间的思想,减少了关联规则隐藏处理对原始数据集的影响;最后通过实验测试证明:相较于传统关联规则隐藏算法,FP-DSRRC算法在保证生成的数据集质量的同时,减少了50%~70%的算法执行时间,并在大规模真实数据集上有较好的可用性.
文摘针对传统模块优化社团划分算法仅能利用网络的结构信息,而无法利用同样丰富的内容信息,导致划分精度较低的问题,提出一种结合内容属性并通过给连边加权来全面优化网络拓扑结构的社团划分算法CCSRW(Classification with Content-Structure and Random Walk).设计利用随机游走理论计算结构节点与内容节点间的相似性关系矩阵,并将结构节点映射到内容属性空间上,最终把社团划分问题转化为多维无监督聚类问题.通过在真实数据集上进行的全面实验分析,展示了相比于传统社团划分算法,本文的算法能更准确的描述网络结构,显著提高划分性能,并有效解决小社团不敏感问题,更适用于大规模复杂信息网络的社团划分.