-
题名基于核极限学习机的多标签数据流半监督在线分类方法
- 1
-
-
作者
王雨晨
邱士远
李培培
胡学钢
-
机构
合肥工业大学计算机与信息学院
合肥工业大学大数据知识工程教育部重点实验室
合肥综合性国家科学中心大健康研究院健康大数据与群体医学研究所
合肥工业大学安徽省工业安全与应急技术重点实验室
-
出处
《模式识别与人工智能》
EI
CSCD
北大核心
2024年第8期741-754,共14页
-
基金
国家自然科学基金项目(No.62376085,62076085,62120106008)
合肥综合性国家科学中心大健康研究院健康大数据与群体医学研究所专项资金项目(No.JKS20230030)资助。
-
文摘
实际应用中涌现的大量流数据具有高速到达、海量、动态变化等特点,同时,这些数据流常含有多个标签且只有少量数据被标记,从而带来多标签数据环境下的概念漂移与标签缺失问题.为此,文中提出基于核极限学习机的多标签数据流半监督在线分类方法.首先,针对多标签数据流的标签缺失问题,根据滑动窗口将数据流划分为k块,对每块数据构造特征相似性矩阵和标签相似性矩阵,并加入核极限学习机的训练中.同时为了适应流数据的特点,设计增量式更新机制,构建半监督在线核极限学习机.然后,为了适应数据流中的概念漂移问题,采用基于时间戳丢弃更新的机制,预先设定数据规模,当数据到达指定规模后,丢弃最旧的无标签数据,将新的数据加入更新.最后,在10个多标签数据集上的实验表明,文中方法对标签缺失和概念漂移问题具有较强的适应能力,并能保持较优的分类效果.
-
关键词
数据流分类
半监督分类
多标签分类
核极限学习机
概念漂移
-
Keywords
data stream Classification
Semi-supervised Classification
Multi-label Classification
Kernel Extreme Learning Machine
concept drift
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-
-
题名基于分层校验的多标签数据流概念漂移检测
被引量:6
- 2
-
-
作者
张永
刘浩科
陈天祯
-
机构
辽宁师范大学计算机与信息技术学院
-
出处
《模式识别与人工智能》
EI
CSCD
北大核心
2020年第3期202-210,共9页
-
基金
国家自然科学基金项目(No.61772252)
辽宁省自然科学基金项目(No.2019-MS-216)
辽宁省高等学校创新人才支持计划项目(No.LR2017044)资助。
-
文摘
现有的概念漂移检测方法大多集中于单标签数据流,难以满足多标签数据流概念漂移检测的需要,因此文中提出基于分层校验的多标签数据流概念漂移检测算法.算法包括检验层和校验层,检验层通过检测数据分布变化判断是否发生概念漂移,校验层通过判断标签混淆矩阵的变化程度验证是否真正发生概念漂移.在真实多标签数据集和合成多标签数据集上的实验表明,文中算法表现更优,可以有效检测概念漂移,提升分类性能.
-
关键词
概念漂移
多标签分类
数据流
分层校验
-
Keywords
concept drift
Multi-label Classification
data stream
Hierarchical Verification
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-
-
题名一种面向不完全标记的文本数据流自适应分类方法
- 3
-
-
作者
张玉红
陈伟
胡学钢
-
机构
合肥工业大学计算机与信息学院
-
出处
《计算机科学》
CSCD
北大核心
2016年第12期179-182,194,共5页
-
基金
教育部创新团队(IRT13059)
国家自然科学基金(61305063
+1 种基金
61273292)
博士点项目基金(20130111110011)资助
-
文摘
现实生活中网络监控、网络评论以及微博等应用领域涌现了大量文本数据流,这些数据的不完全标记和频繁概念漂移给已有的数据流分类方法带来了挑战。为此,面向不完全标记的文本数据流提出了一种自适应的数据流分类算法。该算法以一个标记数据块作为起始数据块,对未标记数据块首先提取标记数据块与未标记数据块之间的特征集,并利用特征在两个数据块间的相似度进行概念漂移检测,最后计算未标记数据中特征的极性并对数据进行预测。实验表明了算法在分类精度上的优越性,尤其在标记信息较少和概念漂移较为频繁时。
-
关键词
不完全标记
自适应
数据流
概念漂移
-
Keywords
incomplete labeled, self-adaptation,data stream,concept drift
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-
-
题名基于核极限学习机的多标签数据流集成分类方法
被引量:8
- 4
-
-
作者
张海翔
李培培
胡学钢
-
机构
大数据知识工程教育部重点实验室(合肥工业大学)
合肥工业大学计算机与信息学院
-
出处
《数据采集与处理》
CSCD
北大核心
2022年第1期183-193,共11页
-
基金
国家自然科学基金(61976077,62076085)。
-
文摘
极限学习机因具有高效处理、性能优越以及更少人工参数设定等优点,已成功应用于批处理多标签分类问题。然而,实际应用领域涌现的数据流呈现海量快速、多标签和概念漂移等特点,使得这些传统的多标签分类算法面临精度与时空的挑战。本文提出一种基于核极限学习机的多标签数据流集成分类方法。首先,为适应数据流环境,利用滑动窗口机制将数据流划分为数据块,在前k个数据块上构建k个核极限学习机的集成分类模型;同时,考虑类标签相关性,利用Apriori算法得到每个数据块的标签间的关联规则,并将关联规则中的同现标签的置信度引入到基于集成模型的预测过程中,以提高整体的分类精度;其次,引入MUENLForeset模型检测新到来的数据块是否发生概念漂移,对分类器设置损失函数更新集成模型以适应概念漂移问题。最后,在实际多标签数据上的大量实验表明:与经典多标签批处理和流数据分类方法相比,所提方法不仅能适应多标签数据流中的概念漂移问题,同时在分类精度上具有显著优势。
-
关键词
多标签分类
数据流
核极限学习机
标签相关性
概念漂移
-
Keywords
multi-label classification
data stream
kernel extreme learning machine
label correlation
concept drift
-
分类号
TP183
[自动化与计算机技术—控制理论与控制工程]
-
-
题名基于概率相关性的多标签数据流变化检测
被引量:1
- 5
-
-
作者
石中伟
文益民
-
机构
桂林电子科技大学计算机科学与工程学院
广西可信软件重点实验室
-
出处
《计算机科学》
CSCD
北大核心
2015年第8期60-64,共5页
-
基金
国家自然科学基金项目:基于多任务学习的复杂概念漂移数据流分类研究(61363029)
广西可信软件重点实验室项目:基于多信息的旅游线路智能推荐系统(KX201311)资助
-
文摘
由于传统的概念漂移检测研究主要针对单标签数据流,对现实中常见的多标签数据流却缺乏足够的关注,多标签数据流概念漂移检测问题有待进一步的研究。因此,通过分析多标签数据流中存在的特殊依赖关系,提出了一种基于概率相关性的多标签数据流概念漂移检测算法。其基本思想是从概念漂移的产生原因出发,利用概率相关性近似描述数据分布来监测新旧数据分布变化,判断概念漂移是否发生。实验结果表明,提出的算法能够比较快速、准确地检测到概念漂移,并在多标签概念漂移数据流分类问题上取得了预期的学习效果。
-
关键词
概念漂移
多标签
数据流
概率相关性
分类
-
Keywords
concept drift, Multi-label, data streams, Probability of relevance, Classification
-
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
-
-
题名面向非平衡与概念漂移的数据流分类的研究
- 6
-
-
作者
陈荣
-
机构
四川大学计算机学院
-
出处
《现代计算机》
2020年第4期16-20,共5页
-
文摘
在数据流分类大环境中,数据量级不断增大,数据样本对应的概念也在不断发生变化,这不但产生“概念漂移”,数据类别分布不平衡的现象也出现愈发频繁。面对这些问题,为了快速察觉到数据分布的变化,及时调整分类模型以适应新的数据分布,针对在类别不平衡环境中的不同类型的概念漂移,设计利用部分标记数据给出不同判定方式以及分类模型再构建。实验结果显示新模型有较好的性能。
-
关键词
数据流分类
概念漂移
类别不平衡
部分标记
-
Keywords
data stream Classification
concept drift
Category Imbalance
Partial labeled data
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
TP181
[自动化与计算机技术—控制理论与控制工程]
-
-
题名基于双层采样的主动式数据流挖掘方法
- 7
-
-
作者
张匡燕
刘三民
李京阳
-
机构
安徽工程大学计算机与信息学院
-
出处
《天津理工大学学报》
2022年第6期52-57,共6页
-
基金
安徽省自然科学基金资助项目(1608085MF147)
安徽省高校自然科学研究重大项目(KJ2019ZD15)。
-
文摘
为解决传统数据流分类算法难以解决动态数据流环境中概念变化和样本标注等难题,根据主动学习原理,提出基于双层采样的主动式数据流挖掘方法。该方法的采样策略分别基于学习模型的改变期望和误差缩减两个方面设计实现,选择出具有代表性和信息量丰富的未标注样本,经专家标注后增量更新学习模型;采用聚类方法实现局部感知的概念漂移检测,以增强采样策略的有效性。试验结果表明:主动式数据流挖掘方法在降低样本标注代价的同时,可提高模型的分类能力和概念漂移的适应性,相比其他数据流挖掘方法具有一定优势。
-
关键词
数据流挖掘
主动学习
聚类分析
概念漂移
样本标注
-
Keywords
data stream mining
active learning
cluster analysis
concept drift
sample labeling
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-