-
题名分布式序列模式发现算法的研究
被引量:19
- 1
-
-
作者
邹翔
张巍
刘洋
蔡庆生
-
机构
公安部第三研究所科研中心
中国科学技术大学计算机科学系
-
出处
《软件学报》
EI
CSCD
北大核心
2005年第7期1262-1269,共8页
-
基金
国家自然科学基金Nos.70171052
90104030~~
-
文摘
提出算法FDMSP(fast distributed mining of sequential patterns),以解决分布式环境下的序列模式挖掘问题.首先对分布式环境下序列模式的性质进行了分析.算法采用前缀投影技术划分模式搜索空间,利用序列模式前缀指定选举站点统计序列的全局支持计数,利用局部约减、选举约减、计数约减等方法减少候选序列数,同时将算法分为3个子过程异步运行,使得算法具有较低的I/O开销、内存开销和通信开销,从而高效地生成全局序列模式.实验结果显示,在具有海量数据的局域网环境中,FDMSP算法的性能优于将数据集中后采用GSP算法68.5%~99.5%,并且FDMSP算法具有良好的可伸缩性.
-
关键词
数据挖掘
序列模式
分布式算法
-
Keywords
Algorithms
Input output programs
Local area networks
Performance
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-