提出了一种基于闭合频繁模式的半随机森林数据流分类算法(Semi-Random Forest based on Closed Frequent Pattern,SRFCFP),以解决数据流中噪声和概念漂移问题。SRFCFP利用闭合频繁模式对数据流进行表示,去除冗余信息和噪声,突出数据特...提出了一种基于闭合频繁模式的半随机森林数据流分类算法(Semi-Random Forest based on Closed Frequent Pattern,SRFCFP),以解决数据流中噪声和概念漂移问题。SRFCFP利用闭合频繁模式对数据流进行表示,去除冗余信息和噪声,突出数据特征。采用半随机森林建立分类模型,并通过基于时间衰减的模式集更新机制适应数据流的无限性。为了检测概念漂移并及时适应,引入了一种模式集差异性度量方式,用于测量数据分布变化。实验结果表明,在MOA平台下使用真实和合成数据集,SRFCFP在平均精度上超越了相关对比算法,并能有效处理数据流中的概念漂移和噪声问题。展开更多
提出类别属性数据流数据离群度量——加权频繁模式离群因子(weighted frequent pattern outlier factor,简称WFPOF),并在此基础上给出一种快速数据流离群点检测算法FODFP-Stream(fast outlier detection for high dimensional categoric...提出类别属性数据流数据离群度量——加权频繁模式离群因子(weighted frequent pattern outlier factor,简称WFPOF),并在此基础上给出一种快速数据流离群点检测算法FODFP-Stream(fast outlier detection for high dimensional categorical data streams based on frequent pattern).该算法通过动态发现和维护频繁模式来计算离群度,能够有效地处理高维类别属性数据流,并可进一步扩展到数值属性和混合属性数据流.对仿真数据集和真实数据集的实验检测均验证该算法具有良好的适用性和有效性.展开更多
多尺度理论已被引入到数据挖掘领域中,但目前多尺度数据挖掘的研究并不深入,缺乏普适性理论与方法。针对上述问题,研究了普适的多尺度数据挖掘理论,提出了尺度上推关联规则挖掘算法。首先基于概念分层理论给出了数据尺度划分和数据尺度...多尺度理论已被引入到数据挖掘领域中,但目前多尺度数据挖掘的研究并不深入,缺乏普适性理论与方法。针对上述问题,研究了普适的多尺度数据挖掘理论,提出了尺度上推关联规则挖掘算法。首先基于概念分层理论给出了数据尺度划分和数据尺度的定义;然后根据多尺度理论的研究重点阐明了多尺度数据挖掘的实质及研究核心;最后在多尺度数据理论研究的基础上提出了尺度上推关联规则挖掘算法SU-ARMA(scaling-up association rules mining algorithm)。该算法利用采样理论和Jaccard相似性系数对数据集挖掘结果中的频繁项集进行处理,实现了多尺度数据间知识的向上推导。利用人造数据集和H省全员人口真实数据集对算法进行了实验和分析,实验结果表明算法具有较高的覆盖率、精确度和较低的支持度估计误差,是可行且有效的。展开更多
文摘提出了一种基于闭合频繁模式的半随机森林数据流分类算法(Semi-Random Forest based on Closed Frequent Pattern,SRFCFP),以解决数据流中噪声和概念漂移问题。SRFCFP利用闭合频繁模式对数据流进行表示,去除冗余信息和噪声,突出数据特征。采用半随机森林建立分类模型,并通过基于时间衰减的模式集更新机制适应数据流的无限性。为了检测概念漂移并及时适应,引入了一种模式集差异性度量方式,用于测量数据分布变化。实验结果表明,在MOA平台下使用真实和合成数据集,SRFCFP在平均精度上超越了相关对比算法,并能有效处理数据流中的概念漂移和噪声问题。
文摘提出类别属性数据流数据离群度量——加权频繁模式离群因子(weighted frequent pattern outlier factor,简称WFPOF),并在此基础上给出一种快速数据流离群点检测算法FODFP-Stream(fast outlier detection for high dimensional categorical data streams based on frequent pattern).该算法通过动态发现和维护频繁模式来计算离群度,能够有效地处理高维类别属性数据流,并可进一步扩展到数值属性和混合属性数据流.对仿真数据集和真实数据集的实验检测均验证该算法具有良好的适用性和有效性.
文摘多尺度理论已被引入到数据挖掘领域中,但目前多尺度数据挖掘的研究并不深入,缺乏普适性理论与方法。针对上述问题,研究了普适的多尺度数据挖掘理论,提出了尺度上推关联规则挖掘算法。首先基于概念分层理论给出了数据尺度划分和数据尺度的定义;然后根据多尺度理论的研究重点阐明了多尺度数据挖掘的实质及研究核心;最后在多尺度数据理论研究的基础上提出了尺度上推关联规则挖掘算法SU-ARMA(scaling-up association rules mining algorithm)。该算法利用采样理论和Jaccard相似性系数对数据集挖掘结果中的频繁项集进行处理,实现了多尺度数据间知识的向上推导。利用人造数据集和H省全员人口真实数据集对算法进行了实验和分析,实验结果表明算法具有较高的覆盖率、精确度和较低的支持度估计误差,是可行且有效的。