-
题名一种基于分类器相似性集成的数据流分类研究
被引量:2
- 1
-
-
作者
刘余霞
吕虹
刘三民
-
机构
安徽工程大学电气工程学院
安徽建筑工业学院电子与信息工程学院
安徽工程大学计算机与信息学院
-
出处
《计算机科学》
CSCD
北大核心
2012年第12期208-210,共3页
-
基金
国家自然科学基金(61071001)
安徽省教育厅自然科学基金(KJ2008A010)
安徽省高等学校青年教师科研计划项目(2012SQRL220)资助
-
文摘
数据流分类已成为当前研究热点之一,如何解决其中的概念漂移和噪声是关键问题,为此提出了一种新的基于分类器相似性的动态集成算法。由于数据流中相邻数据具有相同概念的概率较大,因此用最新基分类器代表数据流中即将出现的概念,同时基于此分类器求出基分类器之间的相似性作为权值进行加权多数投票,并根据相似性大小淘汰较弱基分类器以适应概念漂移和噪声。在标准仿真数据集上进行了仿真实验,结果表明该算法相比其他集成方法在抗噪性能和分类准确性方面均得到显著提高。
-
关键词
概念漂移
相似性
集成学习
数据流分类
加权多数投票
-
Keywords
Concept drift
Similarity
Ensemble learning
Data stream classification
Weighted majority voting
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名基于修正G^2特征筛选的中文微博情感组合分类
被引量:3
- 2
-
-
作者
杜亚楠
刘业政
-
机构
合肥工业大学管理学院
-
出处
《情报学报》
CSSCI
北大核心
2016年第4期349-357,共9页
-
文摘
新词的涌现、热词的漂移、海量碎片化及中文常用词特性带来的高维稀疏性成为中文微博情感分类的主要困难。本文提出了一种新颖的方法用以解决上述问题:构造表情符号词典用来自动获取微博的情感标签,解决海量微博数据标注的问题;引入修正的G^2检验进行特征筛选,进行降维,控制稀疏性;采用多阶段判断的抽样策略保证基分类器的多样性,最后采用加权多数投票的方式对基分类器结果进行融合,解决特征和情感漂移及碎片化问题。实验表明本文方法可以快速有效的获取训练标签,保留下强区分能力的特征,并实现较高的精度,在中文微博情感分类上是一个有竞争力的方法。
-
关键词
表情符号词典
修正G2检验
多阶段判断抽样
加权多数投票合分类器
-
Keywords
dictionary of emoticons, modified G2 test, multistage judgment sampling, weighted majority voting, ensemble classifier
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
G206
[文化科学—传播学]
-