一种基于数据流模式表示的半懒惰式分类算法

Partially-lazy Learning Classification Algorithm Based on Representation of Data Stream Model

下载PDF

导出

摘要依据从大规模数据中抽取的模式来建立分类模型是模式挖掘的重要研究问题之一。一种可行的方法是根据模式集合建立贝叶斯分类模型。然而,目前基于模式的贝叶斯分类模型大多是针对静态数据集合的,通常不能适应于高速动态变化与无限的数据流环境。对此,提出一种数据流环境下基于模式发现的贝叶斯分类学习模型,其采用半懒惰式学习策略,针对分类实例在不断更新的频繁项集合上建立局部的分类模型;为加快流数据处理的速度,提出了结构更为简单的混合树结构,同时提出了给定项限制的模式抽取机制以减少候选项集的生成;对数据流中模式抽取不完全的情况,使用平滑技术处理未被抽取的项。大量实验分析证明,相较于其他数据流分类器,所提模型具有更高的分类正确率。 Utilizing patterns extracted from large scale data to build classification model is one of important research problems.Exploiting patterns to estimate Bayesian probability is a feasible approach.However,most of the existing pattern-based Bayesian classifiers aim at static data set,which cannot adapt to the dynamic data stream environment.A Bayesian classification model,named PBDS（Pattern-based Bayesian classifier for Data Stream）,based on pattern discovery over data streams was proposed.PBDS constructs local model for unseen case based on continuously updated frequent item sets with partially-lazy learning method.To accelerate data processing,the simpler data structure,i.e.,hybrid trees structure was proposed,and pattern extracting mechanism was proposed to reduce the generation of candidate itemsets.Smoothing technique was used to handle incomplete itemset extraction in the data stream.Extensive experiments on real-world and synthetic data streams show that PBDS is more accurate than state-of-the-art data stream classifiers.

作者江晶晶王志海原继东

机构地区北京交通大学计算机与信息技术学院交通数据分析与挖掘北京市重点实验室

出处《计算机科学》 CSCD 北大核心 2017年第7期167-174,202,共9页 Computer Science

基金国家自然科学基金(61672086) 北京市自然科学基金(4142042)资助

关键词数据流频繁模式贝叶斯半懒惰式学习 Data stream Frequent pattern Bayesian Partially-lazy learning

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

1陈红玉.数据挖掘中贝叶斯分类算法的研究[J].光盘技术,2009(7):57-58. 被引量：1
2黄诠,杨盛,陈治平.基于贝叶斯网络的邮件过滤系统的设计[J].科学技术与工程,2008,8(13):3504-3507. 被引量：1
3屠莉,陈崚.挖掘关联规则的蚁群算法[J].南京邮电大学学报（自然科学版）,2006,26(5):36-40. 被引量：5
4詹艳艳,陈晓云,徐荣聪.基于时间序列模式表示的异常检测算法[J].计算机应用研究,2007,24(11):96-99. 被引量：8
5俞机运,黄上腾.一个KDD应用系统的设计与实现[J].电脑与信息技术,1997,5(2):14-17. 被引量：1
6李江华,时鹏.一种基于领域的语义搜索引擎模型SSEM[J].情报杂志,2012,31(4):112-116.
7蒙华,李立峰,苏静.树结构算法改善Cache数据库构建医院质控平台[J].电脑编程技巧与维护,2017(13):5-8.
8闫露,邓浩江,陈晓,叶晓舟.网络安全审计系统中FTP解析策略研究[J].计算机应用与软件,2017,34(5):306-310. 被引量：3
9陈东,邵增珍,魏争争,刘衍民.基于中国观鸟数据的移动对象周期模式发现[J].计算机工程,2017,34(4):1-7. 被引量：2
10战非,张少茹.云计算中基于Tent映射的混沌混合加密算法研究[J].计算技术与自动化,2017,36(2):113-117. 被引量：1

计算机科学

2017年第7期

浏览历史

内容加载中请稍等...

一种基于数据流模式表示的半懒惰式分类算法

相关作者

相关机构

相关主题

浏览历史