数据流分类是数据流挖掘领域一项重要研究任务,目标是从不断变化的海量数据中捕获变化的类结构.目前,几乎没有框架可以同时处理数据流中常见的多类非平衡、概念漂移、异常点和标记样本成本高昂问题.基于此,提出一种非平衡数据流在线主...数据流分类是数据流挖掘领域一项重要研究任务,目标是从不断变化的海量数据中捕获变化的类结构.目前,几乎没有框架可以同时处理数据流中常见的多类非平衡、概念漂移、异常点和标记样本成本高昂问题.基于此,提出一种非平衡数据流在线主动学习方法(Online active learning method for imbalanced data stream,OALM-IDS).AdaBoost是一种将多个弱分类器经过迭代生成强分类器的集成分类方法,AdaBoost.M2引入了弱分类器的置信度,此类方法常用于静态数据.定义了基于非平衡比率和自适应遗忘因子的训练样本重要性度量,从而使AdaBoost.M2方法适用于非平衡数据流,提升了非平衡数据流集成分类器的性能.提出了边际阈值矩阵的自适应调整方法,优化了标签请求策略.将概念漂移程度融入模型构建过程中,定义了基于概念漂移指数的自适应遗忘因子,实现了漂移后的模型重构.在6个人工数据流和4个真实数据流上的对比实验表明,提出的非平衡数据流在线主动学习方法的分类性能优于其他5种非平衡数据流学习方法.展开更多
开放集识别(Open Set Recognition,OSR)的主要目的是识别未标记数据中的新类样本,同时对已见类样本进行正确分类.现有的大多数识别方法对未标记数据的评估和伪标记信息的利用不足.本文提出一种基于主动学习的开放集图像识别方法(Open Se...开放集识别(Open Set Recognition,OSR)的主要目的是识别未标记数据中的新类样本,同时对已见类样本进行正确分类.现有的大多数识别方法对未标记数据的评估和伪标记信息的利用不足.本文提出一种基于主动学习的开放集图像识别方法(Open Set Image Recognition Method Based on Active Learning,AC-OSIR),充分利用未标记数据提升开放集识别性能.通过引入已见类别的语义知识,构建语义知识和图像特征的映射关系.对于未标记数据,利用阈值选择策略区分开放集样本和已见类样本,通过主动学习模型迭代地识别高置信度开放集样本和已见类样本,并将高置信度已见类样本添加到标记数据集中.本文在图像分类数据集CIFAR-10、TIN和LSUN,以及两个合成数据集的实验结果表明了基于主动学习的开放集图像识别方法的有效性.展开更多
要提升同义词挖掘的效果通常需要现成的相关领域同义词库的支持。由于相关领域同义词库极其稀缺,给模型优化带来了阻碍。针对缺少相关领域同义词库而导致模型在相关领域的同义词挖掘效果难以持续提升的问题,提出了基于主动学习和持续学...要提升同义词挖掘的效果通常需要现成的相关领域同义词库的支持。由于相关领域同义词库极其稀缺,给模型优化带来了阻碍。针对缺少相关领域同义词库而导致模型在相关领域的同义词挖掘效果难以持续提升的问题,提出了基于主动学习和持续学习的同义词挖掘模型(SYN-AC)。首先,基于主动学习的方法获取专家标记数据,设计了一个新的损失函数并利用标记后的数据去微调模型;其次,为了减少时间和空间消耗,采用了持续学习的方法,使模型在只使用当前组标记的数据进行训练的情况下,也能不断提高同义词挖掘效果,而不需要每次都使用所有标记数据对模型重新微调。使用了3个数据集模拟专家标记的过程,实验结果表明,在其中2个数据集上比效果最好的BERT(Bidirectional Encoder Representations from Transformers)模型F1值分别提升了9.34个百分点和2.75个百分点。验证了SYN-AC能够有效提高同义词挖掘的效果。展开更多
文摘数据流分类是数据流挖掘领域一项重要研究任务,目标是从不断变化的海量数据中捕获变化的类结构.目前,几乎没有框架可以同时处理数据流中常见的多类非平衡、概念漂移、异常点和标记样本成本高昂问题.基于此,提出一种非平衡数据流在线主动学习方法(Online active learning method for imbalanced data stream,OALM-IDS).AdaBoost是一种将多个弱分类器经过迭代生成强分类器的集成分类方法,AdaBoost.M2引入了弱分类器的置信度,此类方法常用于静态数据.定义了基于非平衡比率和自适应遗忘因子的训练样本重要性度量,从而使AdaBoost.M2方法适用于非平衡数据流,提升了非平衡数据流集成分类器的性能.提出了边际阈值矩阵的自适应调整方法,优化了标签请求策略.将概念漂移程度融入模型构建过程中,定义了基于概念漂移指数的自适应遗忘因子,实现了漂移后的模型重构.在6个人工数据流和4个真实数据流上的对比实验表明,提出的非平衡数据流在线主动学习方法的分类性能优于其他5种非平衡数据流学习方法.
文摘开放集识别(Open Set Recognition,OSR)的主要目的是识别未标记数据中的新类样本,同时对已见类样本进行正确分类.现有的大多数识别方法对未标记数据的评估和伪标记信息的利用不足.本文提出一种基于主动学习的开放集图像识别方法(Open Set Image Recognition Method Based on Active Learning,AC-OSIR),充分利用未标记数据提升开放集识别性能.通过引入已见类别的语义知识,构建语义知识和图像特征的映射关系.对于未标记数据,利用阈值选择策略区分开放集样本和已见类样本,通过主动学习模型迭代地识别高置信度开放集样本和已见类样本,并将高置信度已见类样本添加到标记数据集中.本文在图像分类数据集CIFAR-10、TIN和LSUN,以及两个合成数据集的实验结果表明了基于主动学习的开放集图像识别方法的有效性.
文摘要提升同义词挖掘的效果通常需要现成的相关领域同义词库的支持。由于相关领域同义词库极其稀缺,给模型优化带来了阻碍。针对缺少相关领域同义词库而导致模型在相关领域的同义词挖掘效果难以持续提升的问题,提出了基于主动学习和持续学习的同义词挖掘模型(SYN-AC)。首先,基于主动学习的方法获取专家标记数据,设计了一个新的损失函数并利用标记后的数据去微调模型;其次,为了减少时间和空间消耗,采用了持续学习的方法,使模型在只使用当前组标记的数据进行训练的情况下,也能不断提高同义词挖掘效果,而不需要每次都使用所有标记数据对模型重新微调。使用了3个数据集模拟专家标记的过程,实验结果表明,在其中2个数据集上比效果最好的BERT(Bidirectional Encoder Representations from Transformers)模型F1值分别提升了9.34个百分点和2.75个百分点。验证了SYN-AC能够有效提高同义词挖掘的效果。