密度峰值聚类(clustering by fast search and find of density peaks,DPC)算法是一种基于密度的聚类算法,它可以发现任意形状和维度的类簇,是具有里程碑意义的聚类算法。然而,DPC算法的样本局部密度定义不适用于同时发现数据集的稠密...密度峰值聚类(clustering by fast search and find of density peaks,DPC)算法是一种基于密度的聚类算法,它可以发现任意形状和维度的类簇,是具有里程碑意义的聚类算法。然而,DPC算法的样本局部密度定义不适用于同时发现数据集的稠密簇和稀疏簇;此外,DPC算法的一步分配策略使得一旦有一个样本分配错误,将导致更多样本的错误分配,产生“多米诺骨牌效应”。针对这些问题,提出一种新的样本局部密度定义,采用局部标准差指数定义样本局部密度,克服DPC的密度定义缺陷;采用两步分配策略代替DPC的一步分配策略,克服DPC的“多米诺骨牌效应”,得到ESDTS-DPC算法。与DPC及其改进算法KNN-DPC、FKNN-DPC、DPC-CE和经典密度聚类算法DBSCAN的实验比较显示,提出的ESDTS-DPC算法具有更好的聚类准确性。展开更多
提出一种基于双支持向量机的偏二叉树多类分类算法,偏二叉树双支持向量机多类分类算法.该算法综合了二叉树支持向量机和双支持向量机的优势,实现了在不降低分类性能的前提下,大大缩短训练时间.理论分析和UCI(University of California I...提出一种基于双支持向量机的偏二叉树多类分类算法,偏二叉树双支持向量机多类分类算法.该算法综合了二叉树支持向量机和双支持向量机的优势,实现了在不降低分类性能的前提下,大大缩短训练时间.理论分析和UCI(University of California Irvine)机器学习数据库数据集上的实验结果共同证明,偏二叉树双支持向量机多类分类算法在训练时间上具有绝对的优势,尤其在处理稍大数据集的多类分类问题时,这一优势尤为突出;实验仿真结果还证明,在采用非线性核时,该算法取得了比基于经典支持向量机的一对其余多类分类算法及二叉树支持向量机更好的分类效果;同时该算法还解决了后两种算法可能存在的样本不平衡问题,以及基于经典支持向量机的一对其余多类分类算法可能存在的不可分区域问题.展开更多
考虑特征之间的相关性对于其类间区分能力的影响,提出了一种新的特征子集区分度衡量准则——DFS(Discernibility of Feature Subsets)准则.该准则考虑特征之间的相关性,通过计算特征子集中全部特征对于分类的联合贡献来判断特征子集的...考虑特征之间的相关性对于其类间区分能力的影响,提出了一种新的特征子集区分度衡量准则——DFS(Discernibility of Feature Subsets)准则.该准则考虑特征之间的相关性,通过计算特征子集中全部特征对于分类的联合贡献来判断特征子集的类间辨别能力大小,不再只考虑单个特征对于分类的贡献.结合顺序前向、顺序后向、顺序前向浮动和顺序后向浮动4种特征搜索策略,以支持向量机(Support Vector Machines,SVM)为分类工具,引导特征选择过程,得到4种基于DFS与SVM的特征选择算法.其中在顺序前/后向浮动搜索策略中,首先根据DFS准则加入/去掉特征到特征子集中,然后在浮动阶段根据所得临时SVM分类器的分类性能决定刚加入/去掉特征的去留.UCI机器学习数据库数据集的对比实验测试表明,提出的DFS准则是一种很好的特征子集类间区分能力度量准则;基于DFS与SVM的特征选择算法实现了有效的特征选择;与其他同类算法相比,基于DFS准则与SVM的特征选择算法具有非常好的泛化性能,但其所选特征子集的规模不一定是最好的.展开更多
针对不完整决策系统属性约简算法时间复杂度较高问题,基于正域不变条件下,决策系统分类能力保持不变原则,提出不完整决策系统前向顺序特征选择算法.该算法从约简集为空集开始,根据在约简集合中加入各属性后对正域影响程度大小将属性降...针对不完整决策系统属性约简算法时间复杂度较高问题,基于正域不变条件下,决策系统分类能力保持不变原则,提出不完整决策系统前向顺序特征选择算法.该算法从约简集为空集开始,根据在约简集合中加入各属性后对正域影响程度大小将属性降序排列,采用顺序前向搜索,选择当前最佳特征加入特征约简集合,确定最佳特征子集.将该算法扩展到基于邻域粗糙集的实值和混合型不完整决策系统,得到基于邻域粗糙集的不完整决策系统前向顺序特征选择算法.同时,将基于相容关系的不完整决策系统快速属性约简算法推广到实值和混合属性的不完整决策系统,得到适用于实值、混合属性的不完整决策系统后向特征选择算法.理论分析和University of California Irvine机器学习数据库数据集的实验共同表明,本文提出的基于邻域粗糙集的不完整决策系统前向特征选择算法有效降低了不完整决策系统特征选择算法的时间复杂度,在保持系统识别能力的情况下,用更少的时间得到决策系统的属性约简子集,即特征子集.然而,本文前向特征选择算法的缺陷是有可能因为无法选择到第一个最重要的特征(属性)而使特征选择过程不能进行下去,从而不能完成特征选择过程.展开更多
文摘密度峰值聚类(clustering by fast search and find of density peaks,DPC)算法是一种基于密度的聚类算法,它可以发现任意形状和维度的类簇,是具有里程碑意义的聚类算法。然而,DPC算法的样本局部密度定义不适用于同时发现数据集的稠密簇和稀疏簇;此外,DPC算法的一步分配策略使得一旦有一个样本分配错误,将导致更多样本的错误分配,产生“多米诺骨牌效应”。针对这些问题,提出一种新的样本局部密度定义,采用局部标准差指数定义样本局部密度,克服DPC的密度定义缺陷;采用两步分配策略代替DPC的一步分配策略,克服DPC的“多米诺骨牌效应”,得到ESDTS-DPC算法。与DPC及其改进算法KNN-DPC、FKNN-DPC、DPC-CE和经典密度聚类算法DBSCAN的实验比较显示,提出的ESDTS-DPC算法具有更好的聚类准确性。
文摘提出一种基于双支持向量机的偏二叉树多类分类算法,偏二叉树双支持向量机多类分类算法.该算法综合了二叉树支持向量机和双支持向量机的优势,实现了在不降低分类性能的前提下,大大缩短训练时间.理论分析和UCI(University of California Irvine)机器学习数据库数据集上的实验结果共同证明,偏二叉树双支持向量机多类分类算法在训练时间上具有绝对的优势,尤其在处理稍大数据集的多类分类问题时,这一优势尤为突出;实验仿真结果还证明,在采用非线性核时,该算法取得了比基于经典支持向量机的一对其余多类分类算法及二叉树支持向量机更好的分类效果;同时该算法还解决了后两种算法可能存在的样本不平衡问题,以及基于经典支持向量机的一对其余多类分类算法可能存在的不可分区域问题.
文摘针对不完整决策系统属性约简算法时间复杂度较高问题,基于正域不变条件下,决策系统分类能力保持不变原则,提出不完整决策系统前向顺序特征选择算法.该算法从约简集为空集开始,根据在约简集合中加入各属性后对正域影响程度大小将属性降序排列,采用顺序前向搜索,选择当前最佳特征加入特征约简集合,确定最佳特征子集.将该算法扩展到基于邻域粗糙集的实值和混合型不完整决策系统,得到基于邻域粗糙集的不完整决策系统前向顺序特征选择算法.同时,将基于相容关系的不完整决策系统快速属性约简算法推广到实值和混合属性的不完整决策系统,得到适用于实值、混合属性的不完整决策系统后向特征选择算法.理论分析和University of California Irvine机器学习数据库数据集的实验共同表明,本文提出的基于邻域粗糙集的不完整决策系统前向特征选择算法有效降低了不完整决策系统特征选择算法的时间复杂度,在保持系统识别能力的情况下,用更少的时间得到决策系统的属性约简子集,即特征子集.然而,本文前向特征选择算法的缺陷是有可能因为无法选择到第一个最重要的特征(属性)而使特征选择过程不能进行下去,从而不能完成特征选择过程.