摘要
传统分类算法的研究主要关注批量学习任务。实际中,带标注样本很难一次性获得。且存储空间开销较大的特点,也使批量学习显现出一定的局限性。因此,需要增量学习来解决该问题。朴素贝叶斯分类器简单、高效、鲁棒性强,且贝叶斯估计理论为其应用于增量任务提供了基础。但现有的增量贝叶斯模型没有对适应新类别作出描述。同时,实验表明类别之间样本数量的不平衡,会严重影响该模型的分类性能。故基于这两个问题,提出对增量贝叶斯模型的改进,增加参数修正公式,使其可适应新出现的类别,并引入最小风险决策思想减轻数据不平衡造成的影响。取UCI数据集进行仿真测试,结果表明改进后的模型可以渐进提高分类性能,并具有适应新类别的能力。
The research o f tra d itio n a l c la ssifica tio n a lgo rithm focuses on the batch lea rn in g tasks. A c tu a lly ,it is not easy to ob tain labe lledsamples once fo r a ll. In a d d itio n , there is certain lim ita tio n in batch le a rning tasks because the cost o f storage space is ra th e r h ig h . T h e re fo re ,incre m en tal le a rning can be referred to as a so lu tio n . N aive B ayesian cla ssifica tio n is s im p le , e ffic ie n t and h ig h ly ro b u s t,b e sid e s,th e theory ofBayesian estim ation lays the fou nda tion fo r its a p p lica tio n in incre m en tal tasks. H ow ever no existing incre m en tal Bayesian m odel has describedthe adaptation to new classes. M o re o ve r,th e experim ent shows that the im balance in num bers o f d iffe re n t samples between classes w ill have agreat im pa ct on the c la ssifica tio n perform ance o f the m odel. T h e re fo re , based on the above two p ro b le m s,w e present to im prove the incre m en talBayesian m odel and to increase o f form ulas o f parameters m o d ifica tio n so as to enable the m odel to adapt to new classes. A lso the idea o f riskdecision m in im isa tio n is introduce d to reduce the im pa ct o f data im ba lance. S im ulatio n is carried out on U C I d a taset, re sult indicates th a t theim proved incre m en tal m odel can im prove the cla ssifica tio n perform ance gra d u a lly and has the a d a p ta b ility to new classes.
作者
苏志同
李杨
Su Zhitong;Li Yang(College of Computer, North China University of Technology, Beijing 100144 , China)
出处
《计算机应用与软件》
CSCD
2016年第8期254-259,共6页
Computer Applications and Software
基金
国家自然科学基金项目(61105045)
中央支持地方专项(PXM2014_014212_000097)
北方工业大学科研人才提升计划项目(CCXZ201303)
关键词
机器学习
朴素贝叶斯
增量学习
最小化风险
M achine lea rnin g
Naive Bayes
Incremental learning
Risk minimisation