许多大型组织拥有大量的子公司,进行事务处理时会产生大量的多源数据库,然而现有的数据挖掘只致力于对单个数据库的挖掘,由此,提出了多数据库挖掘技术。为了减少寻找相关数据的检索代价,在对多数据库进行挖掘和分析之前,首先要对多数据...许多大型组织拥有大量的子公司,进行事务处理时会产生大量的多源数据库,然而现有的数据挖掘只致力于对单个数据库的挖掘,由此,提出了多数据库挖掘技术。为了减少寻找相关数据的检索代价,在对多数据库进行挖掘和分析之前,首先要对多数据库进行分类。由于多数据库中包含大量数据,现有的分类算法Greedy Class的时间复杂度可达到O(m4),所需代价非常大。由此提出了Identify Completeclass算法用于对多数据库分类,其时间复杂度降为O(m3),并提出了相应的寻找最优完全分类算法Identify Best Classification,实验证明改进后的算法有较高的运行效率。展开更多
文摘许多大型组织拥有大量的子公司,进行事务处理时会产生大量的多源数据库,然而现有的数据挖掘只致力于对单个数据库的挖掘,由此,提出了多数据库挖掘技术。为了减少寻找相关数据的检索代价,在对多数据库进行挖掘和分析之前,首先要对多数据库进行分类。由于多数据库中包含大量数据,现有的分类算法Greedy Class的时间复杂度可达到O(m4),所需代价非常大。由此提出了Identify Completeclass算法用于对多数据库分类,其时间复杂度降为O(m3),并提出了相应的寻找最优完全分类算法Identify Best Classification,实验证明改进后的算法有较高的运行效率。