摘要
传统频繁项集挖掘技术无法高效获取不确定性数据中有价值的信息。通过研究频繁模式增长树的算法原理,根据不确定性数据的特点提出了一种有效的不确定性数据预处理方法PCAFP-Growth。利用主成分分析的方法进行数据的降维,并使用模糊关联分析法将数据概率进行分类,实现数据剪枝。在理论研究基础上,通过实验对数据集进行了验证。结果表明,基于主成分分析法的剪枝策略在稠密数据集上能够有效提高运算速度,减少内存的使用。
Traditional studies of frequent itemset mining cannot obtain information from uncertain data efficiently. We studied the frequent pattern tree and proposed an effective uncertain data preconditioning method, the PCAFP-Growth, which can reduce the itemset dimensions with principal component analysis method, and prune data with fuzzy associa- tion analysis. Our experimental results over real world datasets show that our method is effective and efficient.
出处
《计算机科学》
CSCD
北大核心
2012年第7期161-164,199,共5页
Computer Science
基金
国家自然科学基金项目(61100112)
中央财经大学科研创新团队支持计划资助
关键词
不确定性数据
频繁项集
主成分分析
模糊关联
Uncertain data, Frequent itemset, Principle component analysis, Fuzzy association