随着电子商务的迅速发展,不仅交易数据程爆炸式增长,而且商品类别日新月异。因此,实时地、高效地、准确地获得频繁项集和关联规则对于商品的销售和推荐有着现实的指导意义。现有的工作针对交易数据的动态变化提出了很多增量式的挖掘算法...随着电子商务的迅速发展,不仅交易数据程爆炸式增长,而且商品类别日新月异。因此,实时地、高效地、准确地获得频繁项集和关联规则对于商品的销售和推荐有着现实的指导意义。现有的工作针对交易数据的动态变化提出了很多增量式的挖掘算法,但只有较少的研究工作解决属性的增量变化问题。本文设计了一个增量算法来解决商品种类增加而引起的频繁项集和关联规则的更新问题。分析实际的卖家场景,商品的种类往往以两种方式动态增加,即一次只增加一种商品和一次性增加多种商品,其中,前者被称为逐一增加,后者被称为批量增加。针对商品不同的增加方式,分别提出两种挖掘子算法(add One By One与add All),电商卖家可以根据实际情况来选择相应的解决方案。丰富的实验在真实商品交易数据集上进行,讨论了两种子算法和经典的Apriori算法在挖掘结果、运行时间两方面的性能。实验结果表明:1)两种子算法所得的结果完全一致;2)最好情况下,add One By One算法所用平均时间比add All少2.93倍,比Apriori快12.85倍。展开更多
文摘随着电子商务的迅速发展,不仅交易数据程爆炸式增长,而且商品类别日新月异。因此,实时地、高效地、准确地获得频繁项集和关联规则对于商品的销售和推荐有着现实的指导意义。现有的工作针对交易数据的动态变化提出了很多增量式的挖掘算法,但只有较少的研究工作解决属性的增量变化问题。本文设计了一个增量算法来解决商品种类增加而引起的频繁项集和关联规则的更新问题。分析实际的卖家场景,商品的种类往往以两种方式动态增加,即一次只增加一种商品和一次性增加多种商品,其中,前者被称为逐一增加,后者被称为批量增加。针对商品不同的增加方式,分别提出两种挖掘子算法(add One By One与add All),电商卖家可以根据实际情况来选择相应的解决方案。丰富的实验在真实商品交易数据集上进行,讨论了两种子算法和经典的Apriori算法在挖掘结果、运行时间两方面的性能。实验结果表明:1)两种子算法所得的结果完全一致;2)最好情况下,add One By One算法所用平均时间比add All少2.93倍,比Apriori快12.85倍。