期刊文献+
共找到45篇文章
< 1 2 3 >
每页显示 20 50 100
Drift DetectionMethod Using DistanceMeasures and Windowing Schemes for Sentiment Classification
1
作者 Idris Rabiu Naomie Salim +3 位作者 Maged Nasser Aminu Da’u Taiseer Abdalla Elfadil Eisa Mhassen Elnour Elneel Dalam 《Computers, Materials & Continua》 SCIE EI 2023年第3期6001-6017,共17页
Textual data streams have been extensively used in practical applications where consumers of online products have expressed their views regarding online products.Due to changes in data distribution,commonly referred t... Textual data streams have been extensively used in practical applications where consumers of online products have expressed their views regarding online products.Due to changes in data distribution,commonly referred to as concept drift,mining this data stream is a challenging problem for researchers.The majority of the existing drift detection techniques are based on classification errors,which have higher probabilities of false-positive or missed detections.To improve classification accuracy,there is a need to develop more intuitive detection techniques that can identify a great number of drifts in the data streams.This paper presents an adaptive unsupervised learning technique,an ensemble classifier based on drift detection for opinion mining and sentiment classification.To improve classification performance,this approach uses four different dissimilarity measures to determine the degree of concept drifts in the data stream.Whenever a drift is detected,the proposed method builds and adds a new classifier to the ensemble.To add a new classifier,the total number of classifiers in the ensemble is first checked if the limit is exceeded before the classifier with the least weight is removed from the ensemble.To this end,a weighting mechanism is used to calculate the weight of each classifier,which decides the contribution of each classifier in the final classification results.Several experiments were conducted on real-world datasets and the resultswere evaluated on the false positive rate,miss detection rate,and accuracy measures.The proposed method is also compared with the state-of-the-art methods,which include DDM,EDDM,and PageHinkley with support vector machine(SVM)and Naive Bayes classifiers that are frequently used in concept drift detection studies.In all cases,the results show the efficiency of our proposed method. 展开更多
关键词 data streams sentiment analysis concept drift ensemble classification adaptive window
下载PDF
An ensemble method for data stream classification in the presence of concept drift 被引量:3
2
作者 Omid ABBASZADEH Ali AMIRI Ali Reza KHANTEYMOORI 《Frontiers of Information Technology & Electronic Engineering》 SCIE EI CSCD 2015年第12期1059-1068,共10页
One recent area of interest in computer science is data stream management and processing. By ‘data stream', we refer to continuous and rapidly generated packages of data. Specific features of data streams are imm... One recent area of interest in computer science is data stream management and processing. By ‘data stream', we refer to continuous and rapidly generated packages of data. Specific features of data streams are immense volume, high production rate, limited data processing time, and data concept drift; these features differentiate the data stream from standard types of data. An issue for the data stream is classification of input data. A novel ensemble classifier is proposed in this paper. The classifier uses base classifiers of two weighting functions under different data input conditions. In addition, a new method is used to determine drift, which emphasizes the precision of the algorithm. Another characteristic of the proposed method is removal of different numbers of the base classifiers based on their quality. Implementation of a weighting mechanism to the base classifiers at the decision-making stage is another advantage of the algorithm. This facilitates adaptability when drifts take place, which leads to classifiers with higher efficiency. Furthermore, the proposed method is tested on a set of standard data and the results confirm higher accuracy compared to available ensemble classifiers and single classifiers. In addition, in some cases the proposed classifier is faster and needs less storage space. 展开更多
关键词 data stream Classificaion ensemble classifiers concept drift
原文传递
一种面向动态不平衡数据流的集成超限学习机分类算法 被引量:1
3
作者 高源 施伟谊 +3 位作者 周亦华 梅颖 卢诚波 蔡锡飞 《复旦学报(自然科学版)》 CAS CSCD 北大核心 2023年第3期352-361,共10页
随着数据收集、存储和传输技术的快速发展,数据流的挖掘处理技术正在成为机器学习中的一个热点问题。在许多情形下,持续到达的数据之间可能会呈现出不平衡的态势,甚至是动态不平衡,这给许多机器学习算法造成了困难。文中提出面向动态不... 随着数据收集、存储和传输技术的快速发展,数据流的挖掘处理技术正在成为机器学习中的一个热点问题。在许多情形下,持续到达的数据之间可能会呈现出不平衡的态势,甚至是动态不平衡,这给许多机器学习算法造成了困难。文中提出面向动态不平衡数据流的集成超限学习机算法,设计了数据流中不平衡率变化的快速监测方法,修正了历史数据不平衡率的计算方式,使其更接近不平衡率的实时变化,并结合超限学习机的特点,将增量学习与集成学习结合。定期剔除权重低的基分类器,利用新到达的数据更新集成中的基分类器和训练新的基分类器。该方法针对动态不平衡数据流设计,具有很好的学习能力,同时也能适用于静态或者平衡的数据流的分类。实验中,将该方法与其他几种常用的方法在一些不同类型的数据流上进行了比较,结果表明,文中方法的分类性能更好。 展开更多
关键词 动态不平衡 数据流 集成 超限学习机 概念漂移
下载PDF
概念漂移复杂数据流分类方法综述
4
作者 穆栋梁 韩萌 +2 位作者 李昂 刘淑娟 高智慧 《计算机应用》 CSCD 北大核心 2023年第6期1664-1675,共12页
传统分类器难以应对含概念漂移的复杂类型数据流分类这一难题,且得到的分类效果往往不尽如人意。针对不同类型数据流中处理概念漂移的方法,从不平衡、概念演化、多标签和含噪声4个方面对概念漂移复杂数据流分类方法进行了综述。首先,对... 传统分类器难以应对含概念漂移的复杂类型数据流分类这一难题,且得到的分类效果往往不尽如人意。针对不同类型数据流中处理概念漂移的方法,从不平衡、概念演化、多标签和含噪声4个方面对概念漂移复杂数据流分类方法进行了综述。首先,对基于块的和基于在线的学习方式对不平衡概念漂移数据流、基于聚类和基于模型的学习方式对概念演化概念漂移数据流、基于问题转换和基于算法适应的学习方式对多标签概念漂移数据流和含噪声概念漂移数据流这四个方面的分类方法进行了分析介绍;然后,对所提到概念漂移复杂数据流分类方法的实验结果及性能指标进行了详细的对比和分析;最后,给出了现有方法的不足和下一步研究方向。 展开更多
关键词 数据流分类 复杂数据流 概念漂移 不平衡数据流 概念演化
下载PDF
A Classifier Using Online Bagging Ensemble Method for Big Data Stream Learning 被引量:5
5
作者 Yanxia Lv Sancheng Peng +4 位作者 Ying Yuan Cong Wang Pengfei Yin Jiemin Liu Cuirong Wang 《Tsinghua Science and Technology》 SCIE EI CAS CSCD 2019年第4期379-388,共10页
By combining multiple weak learners with concept drift in the classification of big data stream learning, the ensemble learning can achieve better generalization performance than the single learning approach. In this ... By combining multiple weak learners with concept drift in the classification of big data stream learning, the ensemble learning can achieve better generalization performance than the single learning approach. In this paper,we present an efficient classifier using the online bagging ensemble method for big data stream learning. In this classifier, we introduce an efficient online resampling mechanism on the training instances, and use a robust coding method based on error-correcting output codes. This is done in order to reduce the effects of correlations between the classifiers and increase the diversity of the ensemble. A dynamic updating model based on classification performance is adopted to reduce the unnecessary updating operations and improve the efficiency of learning.We implement a parallel version of EoBag, which runs faster than the serial version, and results indicate that the classification performance is almost the same as the serial one. Finally, we compare the performance of classification and the usage of resources with other state-of-the-art algorithms using the artificial and the actual data sets, respectively. Results show that the proposed algorithm can obtain better accuracy and more feasible usage of resources for the classification of big data stream. 展开更多
关键词 big data STREAM classification ONLINE BAGGING ensemble LEARNING concept drift
原文传递
一种不平衡数据流集成分类模型 被引量:22
6
作者 欧阳震诤 罗建书 +1 位作者 胡东敏 吴泉源 《电子学报》 EI CAS CSCD 北大核心 2010年第1期184-189,共6页
针对不平衡数据流的分类问题,结合基于权重的集成分类器与抽样技术,本文提出了一种处理不平衡数据流集成分类器模型.理论分析与实验验证表明,该集成分类器具有更低的计算复杂度,更能适应存在概念漂移的不平衡数据流挖掘分类,其整体分类... 针对不平衡数据流的分类问题,结合基于权重的集成分类器与抽样技术,本文提出了一种处理不平衡数据流集成分类器模型.理论分析与实验验证表明,该集成分类器具有更低的计算复杂度,更能适应存在概念漂移的不平衡数据流挖掘分类,其整体分类性能优于基于权重的集成分类器模型,能明显提升少数类的分类精度. 展开更多
关键词 分类 集成分类器 不平衡数据流 概念漂移
下载PDF
基于信息熵的数据流自适应集成分类算法 被引量:10
7
作者 孙艳歌 王志海 +1 位作者 原继东 白洋 《中国科学技术大学学报》 CAS CSCD 北大核心 2017年第7期575-582,共8页
数据流分类模型是面向连续变化的实时分析的基本问题.目前大多数的数据流算法只针对突变式或渐变式概念漂移进行处理的,并未充分考虑概念会重现的特点.为此提出了一种具有概念漂移检测机制的自适应集成算法.从信息熵的角度出发,用Jensen... 数据流分类模型是面向连续变化的实时分析的基本问题.目前大多数的数据流算法只针对突变式或渐变式概念漂移进行处理的,并未充分考虑概念会重现的特点.为此提出了一种具有概念漂移检测机制的自适应集成算法.从信息熵的角度出发,用Jensen-Shannon散度度量相邻两个窗口间数据分布的距离,不仅能检测出不同类型的概念漂移,且能有效地发现重现的概念;采用分类器池机制来保存历史概念,从而实现对概念的重用.将所提出的算法与几种经典的学习算法在人工合成和真实数据集上进行了广泛的对比实验.实验结果表明,所提出的算法在平均分类准确率上具有明显的优势,比其他集成算法消耗更少的时间,适合多种类型概念漂移的环境,并具有较高的抗噪性. 展开更多
关键词 数据流 概念漂移 集成分类器 信息熵 重复概念
下载PDF
数据流上概念漂移的检测和分类 被引量:9
8
作者 柴玉梅 周驰 王黎明 《小型微型计算机系统》 CSCD 北大核心 2011年第3期421-425,共5页
挖掘带有概念漂移的数据流对于许多实时决策是十分重要的.本文使用统计学理论估计某一确定模型在最新概念上的真实错误率的置信区间,在一定概率保证下检测数据流中是否发生了概念漂移,并将此方法和KMM(核平均匹配)算法引入集成分类器框... 挖掘带有概念漂移的数据流对于许多实时决策是十分重要的.本文使用统计学理论估计某一确定模型在最新概念上的真实错误率的置信区间,在一定概率保证下检测数据流中是否发生了概念漂移,并将此方法和KMM(核平均匹配)算法引入集成分类器框架中,提出一种数据流分类的新算法WSEC.在仿真和真实数据流上的试验结果表明该算法是有效的. 展开更多
关键词 概念漂移 数据流挖掘 分类 集成
下载PDF
面向噪音和概念漂移数据流的集成分类算法 被引量:8
9
作者 王中心 孙刚 王浩 《小型微型计算机系统》 CSCD 北大核心 2016年第7期1445-1449,共5页
隐含概念漂移的数据流分类问题是数据挖掘领域研究的热点之一,而实际数据流中的噪音会影响数据流的分类质量,为此,提出一种面向噪音和概念漂移数据流的集成分类算法.该算法使用支持向量机作为基分类器,采用贝叶斯分类器过滤噪音,利用Hoe... 隐含概念漂移的数据流分类问题是数据挖掘领域研究的热点之一,而实际数据流中的噪音会影响数据流的分类质量,为此,提出一种面向噪音和概念漂移数据流的集成分类算法.该算法使用支持向量机作为基分类器,采用贝叶斯分类器过滤噪音,利用Hoeffding Bounds不等式确定的双阈值检测概念漂移,并动态地更新分类模型以适应数据流环境的变化.实验结果表明,本文提出的算法可以有效地跟踪检测含噪数据流中的概念漂移,并且具有较好的分类精度. 展开更多
关键词 数据流 噪音 概念漂移 分类 集成模型
下载PDF
数据流滑动窗口方式下的自适应集成分类算法 被引量:4
10
作者 孙艳歌 王志海 +1 位作者 原继东 韩萌 《北京交通大学学报》 CAS CSCD 北大核心 2016年第5期9-15,共7页
针对基于数据块的集成算法,存在数据块大小影响分类效果,且不能及时应对完整式概念漂移的问题,提出了一种考虑数据流局部特征的和能应对多种类型概念漂移的集成分类算法.用滑动窗口作为概念漂移检测器,当检测到概念漂移时,则建立新的分... 针对基于数据块的集成算法,存在数据块大小影响分类效果,且不能及时应对完整式概念漂移的问题,提出了一种考虑数据流局部特征的和能应对多种类型概念漂移的集成分类算法.用滑动窗口作为概念漂移检测器,当检测到概念漂移时,则建立新的分类器并加入到集成分类器中.本文提出的算法在人工合成和真实数据集上与经典算法进行了广泛的对比实验.结果表明:提出的算法在分类准确率上具有明显优势,消耗更少的内存,更适合多种类型概念漂移的环境. 展开更多
关键词 数据挖掘 数据流 概念漂移 集成分类器 滑动窗口
下载PDF
基于实例加权方法的概念漂移问题研究 被引量:5
11
作者 胡学钢 潘春香 《计算机工程与应用》 CSCD 北大核心 2008年第21期188-191,共4页
数据流上的漂移概念发现已成为数据挖掘领域的研究热点之一。针对存在概念漂移的数据流分类问题,提出一种基于实例加权方法的数据流分类算法(EWAMDS),根据基分类器在训练实例上的分类结果调整该实例的权值,以增强漂移实例在新分类器中... 数据流上的漂移概念发现已成为数据挖掘领域的研究热点之一。针对存在概念漂移的数据流分类问题,提出一种基于实例加权方法的数据流分类算法(EWAMDS),根据基分类器在训练实例上的分类结果调整该实例的权值,以增强漂移实例在新分类器中的影响,同时引入动态的权值修改因子以提高算法的适应性。实验结果表明,动态地调整实例的权值时算法的适应性更强;与weighted-bagging相比,EWAMDS的时间开销显著降低、分类正确率显著提高。 展开更多
关键词 数据流 概念漂移 集成分类器 分类
下载PDF
一种面向不平衡数据流的集成分类算法 被引量:3
12
作者 孙艳歌 王志海 白洋 《小型微型计算机系统》 CSCD 北大核心 2018年第6期1178-1183,共6页
大部分数据流算法都是基于类分布大致平衡这一假设的,然而在现实世界中数据流中类的分布往往是不平衡的.同时,数据流中目标概念可能会随着时间发生变化,即概念漂移.本文针对数据流中的概念漂移和类不平衡问题,提出了一种基于集成的不平... 大部分数据流算法都是基于类分布大致平衡这一假设的,然而在现实世界中数据流中类的分布往往是不平衡的.同时,数据流中目标概念可能会随着时间发生变化,即概念漂移.本文针对数据流中的概念漂移和类不平衡问题,提出了一种基于集成的不平衡数据流分类算法.在分类之前加入采样方法应对类不平衡问题,并采取有效的基分类器更新和加权策略应对概念漂移现象,从而提高分类器的性能.针对本文所提出的算法,和几种经典学习算法,在人工合成和真实数据集上进行了广泛的对比实验.实验结果表明本文所提出的算法,其整体分类性能优于其他算法,更能适应存在概念漂移和类不平衡的数据流环境. 展开更多
关键词 数据流 概念漂移 集成分类 类不平衡
下载PDF
结合无监督学习的数据流分类算法 被引量:8
13
作者 徐树良 王俊红 《模式识别与人工智能》 EI CSCD 北大核心 2016年第7期665-672,共8页
为了能有效应对数据流中的概念漂移现象,提出结合无监督学习的数据流分类算法.该算法以集成式分类技术为基础,在分类过程中引入属性约简,利用聚类算法对数据进行聚类,通过对比分类和聚类结果的准确率,判断是否发生概念漂移.实验表明,文... 为了能有效应对数据流中的概念漂移现象,提出结合无监督学习的数据流分类算法.该算法以集成式分类技术为基础,在分类过程中引入属性约简,利用聚类算法对数据进行聚类,通过对比分类和聚类结果的准确率,判断是否发生概念漂移.实验表明,文中算法在综合时间花销和准确率上取得较好效果. 展开更多
关键词 数据流 概念漂移 集成式分类 属性约简 无监督学习
下载PDF
一种基于分类器相似性集成的数据流分类研究 被引量:2
14
作者 刘余霞 吕虹 刘三民 《计算机科学》 CSCD 北大核心 2012年第12期208-210,共3页
数据流分类已成为当前研究热点之一,如何解决其中的概念漂移和噪声是关键问题,为此提出了一种新的基于分类器相似性的动态集成算法。由于数据流中相邻数据具有相同概念的概率较大,因此用最新基分类器代表数据流中即将出现的概念,同时基... 数据流分类已成为当前研究热点之一,如何解决其中的概念漂移和噪声是关键问题,为此提出了一种新的基于分类器相似性的动态集成算法。由于数据流中相邻数据具有相同概念的概率较大,因此用最新基分类器代表数据流中即将出现的概念,同时基于此分类器求出基分类器之间的相似性作为权值进行加权多数投票,并根据相似性大小淘汰较弱基分类器以适应概念漂移和噪声。在标准仿真数据集上进行了仿真实验,结果表明该算法相比其他集成方法在抗噪性能和分类准确性方面均得到显著提高。 展开更多
关键词 概念漂移 相似性 集成学习 数据流分类 加权多数投票
下载PDF
融合分类器可信度的数据流集成分类 被引量:1
15
作者 刘三民 刘涛 +3 位作者 王忠群 修宇 刘余霞 孟超 《应用科学学报》 CAS CSCD 北大核心 2017年第2期226-232,共7页
提出基于分类器可信度的权重计算策略,解决动态数据流集成分类中子分类器权重分配难题.该方法充分考虑了所处不同位置样本对权重计算的影响,利用信息熵描述分类器对预测结果的不确定性,建立分类器可信度与样本之间的关系,进而给出分类... 提出基于分类器可信度的权重计算策略,解决动态数据流集成分类中子分类器权重分配难题.该方法充分考虑了所处不同位置样本对权重计算的影响,利用信息熵描述分类器对预测结果的不确定性,建立分类器可信度与样本之间的关系,进而给出分类器可信度的定量计算方法.最后结合动态数据流分类需求和概念漂移特点,借助批量学习和时间遗忘策略构建基于分类器可信度的动态加权集成分类模型.理论分析和实验结果表明该分类方案可行,相比传统集中方法具有一定的优势. 展开更多
关键词 数据流分类 集成学习 可信度 概念漂移
下载PDF
基于概念漂移检测的数据流集成分类 被引量:3
16
作者 张宝菊 陈一迪 薛磊 《天津师范大学学报(自然科学版)》 CAS 北大核心 2019年第1期76-80,共5页
提出一种概念漂移的并行检测机制及数据流集成分类系统.该系统从错误率和漂移度2个方面周期性地并行检测数据流,并利用Choquet模糊积分辅助构建集成分类器,动态调整每个分类器的权重,从而在保证分类准确性的同时,自适应不断变化的数据... 提出一种概念漂移的并行检测机制及数据流集成分类系统.该系统从错误率和漂移度2个方面周期性地并行检测数据流,并利用Choquet模糊积分辅助构建集成分类器,动态调整每个分类器的权重,从而在保证分类准确性的同时,自适应不断变化的数据流环境.在公开数据集上进行实验,并与已有算法进行比较,实验结果表明所提算法在分类性能和应对新概念能力方面均优于其他算法. 展开更多
关键词 数据流 概念漂移 CHOQUET模糊积分 集成分类
下载PDF
一种基于概念重复性的数据流集成分类算法 被引量:2
17
作者 尹绍宏 张盼盼 《计算机工程与应用》 CSCD 北大核心 2016年第12期80-84,共5页
目前关于概念漂移数据流的分类研究已经取得了许多成果,但大部分没有充分考虑到数据流中概念重复出现的情况,这将耗费大量的计算和内存资源,增加了分类错误的可能性。为此,基于概念的重复性提出了一种数据流集成分类算法,该算法运用集... 目前关于概念漂移数据流的分类研究已经取得了许多成果,但大部分没有充分考虑到数据流中概念重复出现的情况,这将耗费大量的计算和内存资源,增加了分类错误的可能性。为此,基于概念的重复性提出了一种数据流集成分类算法,该算法运用集成分类思想处理数据流中的概念漂移,但在学习过程中不会将暂时失效的概念及对应基分类器删除,而是把它们的基本信息存储起来,方便以后调用,并可根据概念间的转换关系预测即将到来的概念,在提高分类精度的同时又提高了时间效率。实验结果验证了算法的有效性。 展开更多
关键词 数据挖掘 数据流 集成分类 概念漂移 重复性
下载PDF
一种不平衡噪声数据流集成分类模型 被引量:1
18
作者 欧阳震诤 陶孜谨 +1 位作者 蔡建宇 吴泉源 《计算机工程与科学》 CSCD 北大核心 2011年第12期99-105,共7页
针对不平衡噪声数据流的分类问题,本文利用基于平均概率的集成分类器AP与抽样技术,提出了一种处理不平衡噪声数据流的集成分类器(IMDAP)模型。实验结果表明,该集成分类器更能适应存在概念漂移与噪声的不平衡数据流挖掘分类,其整体分类... 针对不平衡噪声数据流的分类问题,本文利用基于平均概率的集成分类器AP与抽样技术,提出了一种处理不平衡噪声数据流的集成分类器(IMDAP)模型。实验结果表明,该集成分类器更能适应存在概念漂移与噪声的不平衡数据流挖掘分类,其整体分类性能优于AP集成分类器模型,能明显提升少数类的分类精度,并且具有与AP相近的时间复杂度。 展开更多
关键词 不平衡数据流 概念漂移 噪声 集成分类器
下载PDF
面向概念漂移数据流的自适应增量集成分类算法 被引量:10
19
作者 吕艳霞 刘波男 +2 位作者 王翠荣 王聪 万聪 《小型微型计算机系统》 CSCD 北大核心 2019年第12期2624-2630,共7页
利用集成模型可以应对实时数据流分类问题中的概念漂移.许多经典集成算法都是通过对数据采样,或者通过对概念漂移的检测从而进行集成模型的更新来应对数据流种产生的概念漂移问题的.如何使得模型可以及时的在当前的概念上迅速建立模型... 利用集成模型可以应对实时数据流分类问题中的概念漂移.许多经典集成算法都是通过对数据采样,或者通过对概念漂移的检测从而进行集成模型的更新来应对数据流种产生的概念漂移问题的.如何使得模型可以及时的在当前的概念上迅速建立模型一直是在线数据流学习关注的问题.本文使用增量学习和迁移学习的思想提出了一种新的历史模型自适应概念漂移的数据流集成分类算法HAEL,在集成模型中引入注意力机制,可以始终优先关注当前的数据来构建和更新分类模型,并且提出通过利用准确率比较范围参数来调整模型对当前数据的关注程度,从而使得模型更好的应对概念漂移.通过在四种类型的概念漂移数据集上的实验表明,HAEL与传统算法相比均表现出更高的分类准确率. 展开更多
关键词 数据流分类 概念漂移 集成模型 注意力机制
下载PDF
基于堆叠集成的数据流分类 被引量:1
20
作者 梁春泉 张阳 刘全中 《计算机应用研究》 CSCD 北大核心 2009年第5期1716-1718,共3页
对数据流分类分析的常用方法是集成学习。为了得到更好的分类效果,给出一种基于堆叠集成的数据流分类分析方法。该方法通过构造一个分类器对基分类器进行集成。实验结果表明,与基于投票或加权投票的集成方法相比,基于堆叠集成方法对概... 对数据流分类分析的常用方法是集成学习。为了得到更好的分类效果,给出一种基于堆叠集成的数据流分类分析方法。该方法通过构造一个分类器对基分类器进行集成。实验结果表明,与基于投票或加权投票的集成方法相比,基于堆叠集成方法对概念漂移的快速适应能力以及预测准确率得到了提高。 展开更多
关键词 堆叠集成 数据流分类 概念漂移
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部