多标记分类问题需要为每个实例分配多个标记.常见的多标记分类方法主要分为算法转换法和问题转换法两类.合理利用标记间的依赖关系是提升多标记分类性能的关键.在该文中,作者从不同的问题转化方法的角度,将标记间依赖关系的利用方法分...多标记分类问题需要为每个实例分配多个标记.常见的多标记分类方法主要分为算法转换法和问题转换法两类.合理利用标记间的依赖关系是提升多标记分类性能的关键.在该文中,作者从不同的问题转化方法的角度,将标记间依赖关系的利用方法分为标记分组法和属性空间扩展法两种.作者发现,对于属性空间扩展法,普遍存在的难题在于如何对标记间的依赖关系进行准确度量,并选择合适的标记集合加入到属性空间中.在此基础上,作者提出了一种基于ReliefF剪枝的多标记分类算法(ReliefF based Stacking,RFS).算法从属性选择的角度,利用ReliefF方法对标记间的依赖关系进行度量,进而选择依赖关系较强的标记加入到原始属性空间中.在9个多标记基准数据集上的实验结果显示,RFS算法相较于当下流行的多标记分类算法具有较为明显的优势.展开更多
基于模式的贝叶斯分类模型是解决数据挖掘领域分类问题的一种有效方法.然而,大多数基于模式的贝叶斯分类器只考虑模式在目标类数据集中的支持度,而忽略了模式在对立类数据集合中的支持度.此外,对于高速动态变化的无限数据流环境,在静态...基于模式的贝叶斯分类模型是解决数据挖掘领域分类问题的一种有效方法.然而,大多数基于模式的贝叶斯分类器只考虑模式在目标类数据集中的支持度,而忽略了模式在对立类数据集合中的支持度.此外,对于高速动态变化的无限数据流环境,在静态数据集下的基于模式的贝叶斯分类器就不能适用.为了解决这些问题,提出了基于显露模式的数据流贝叶斯分类模型EPDS(Bayesian classifier algorithm based on emerging pattern for data stream).该模型使用一个简单的混合森林结构来维护内存中事务的项集,并采用一种快速的模式抽取机制来提高算法速度.EPDS采用半懒惰式学习策略持续更新显露模式,并为待分类事务在每个类下建立局部分类模型.大量实验结果表明,该算法比其他数据流分类模型有较高的准确度.展开更多
时间序列分类问题是时间序列数据挖掘中的一项重要任务,近些年受到了越来越广泛的关注.该问题的一个重要组成部分就是时间序列间的相似性度量.在众多相似性度量算法中,动态时间规整是一种非常有效的算法,目前已经被广泛应用到视频、音...时间序列分类问题是时间序列数据挖掘中的一项重要任务,近些年受到了越来越广泛的关注.该问题的一个重要组成部分就是时间序列间的相似性度量.在众多相似性度量算法中,动态时间规整是一种非常有效的算法,目前已经被广泛应用到视频、音频、手写体识别以及生物信息处理等众多领域.动态时间规整本质上是一种在边界及时间一致性约束下的点对点的匹配算法,能够获得两条序列间的全局最优匹配.但该算法存在一个明显的不足,即不一定能实现序列间的局部合理匹配.具体的讲,就是具有完全不同局部结构信息的时间点有可能被动态时间规整算法错误匹配.为了解决这个问题,提出了一种改进的基于局部梯度和二进制模式的动态时间规整算法LGBDTW(local gradient and binary pattern based dynamic time warping),通过考虑时间序列点的局部结构信息来强化传统动态时间规整算法.所提算法虽然实质上是一种动态时间规整算法,但它通过考虑序列点的局部梯度和二进制模式值来进行相似性加权度量,有效避免了具有相异局部结构的点匹配.为了进行全面比较,将所提出的算法应用到了最近邻分类算法的相似性度量中,并在多个UCR时间序列数据集上进行了测试.实验结果表明,所提出的方法能有效提高时间序列分类的准确率.此外,实例分析验证了所提出算法的可解释性.展开更多
文摘多标记分类问题需要为每个实例分配多个标记.常见的多标记分类方法主要分为算法转换法和问题转换法两类.合理利用标记间的依赖关系是提升多标记分类性能的关键.在该文中,作者从不同的问题转化方法的角度,将标记间依赖关系的利用方法分为标记分组法和属性空间扩展法两种.作者发现,对于属性空间扩展法,普遍存在的难题在于如何对标记间的依赖关系进行准确度量,并选择合适的标记集合加入到属性空间中.在此基础上,作者提出了一种基于ReliefF剪枝的多标记分类算法(ReliefF based Stacking,RFS).算法从属性选择的角度,利用ReliefF方法对标记间的依赖关系进行度量,进而选择依赖关系较强的标记加入到原始属性空间中.在9个多标记基准数据集上的实验结果显示,RFS算法相较于当下流行的多标记分类算法具有较为明显的优势.
文摘基于模式的贝叶斯分类模型是解决数据挖掘领域分类问题的一种有效方法.然而,大多数基于模式的贝叶斯分类器只考虑模式在目标类数据集中的支持度,而忽略了模式在对立类数据集合中的支持度.此外,对于高速动态变化的无限数据流环境,在静态数据集下的基于模式的贝叶斯分类器就不能适用.为了解决这些问题,提出了基于显露模式的数据流贝叶斯分类模型EPDS(Bayesian classifier algorithm based on emerging pattern for data stream).该模型使用一个简单的混合森林结构来维护内存中事务的项集,并采用一种快速的模式抽取机制来提高算法速度.EPDS采用半懒惰式学习策略持续更新显露模式,并为待分类事务在每个类下建立局部分类模型.大量实验结果表明,该算法比其他数据流分类模型有较高的准确度.
文摘时间序列分类问题是时间序列数据挖掘中的一项重要任务,近些年受到了越来越广泛的关注.该问题的一个重要组成部分就是时间序列间的相似性度量.在众多相似性度量算法中,动态时间规整是一种非常有效的算法,目前已经被广泛应用到视频、音频、手写体识别以及生物信息处理等众多领域.动态时间规整本质上是一种在边界及时间一致性约束下的点对点的匹配算法,能够获得两条序列间的全局最优匹配.但该算法存在一个明显的不足,即不一定能实现序列间的局部合理匹配.具体的讲,就是具有完全不同局部结构信息的时间点有可能被动态时间规整算法错误匹配.为了解决这个问题,提出了一种改进的基于局部梯度和二进制模式的动态时间规整算法LGBDTW(local gradient and binary pattern based dynamic time warping),通过考虑时间序列点的局部结构信息来强化传统动态时间规整算法.所提算法虽然实质上是一种动态时间规整算法,但它通过考虑序列点的局部梯度和二进制模式值来进行相似性加权度量,有效避免了具有相异局部结构的点匹配.为了进行全面比较,将所提出的算法应用到了最近邻分类算法的相似性度量中,并在多个UCR时间序列数据集上进行了测试.实验结果表明,所提出的方法能有效提高时间序列分类的准确率.此外,实例分析验证了所提出算法的可解释性.