虽然软大间隔聚类(Soft large margin clustering,SLMC)相比其他诸如K-Means等算法具有更优的聚类性能与某种程度的可解释性,然而当面对大规模分布存储数据时,均遭遇了同样的可扩展瓶颈,其涉及的核矩阵计算需要高昂的时间代价。消减此...虽然软大间隔聚类(Soft large margin clustering,SLMC)相比其他诸如K-Means等算法具有更优的聚类性能与某种程度的可解释性,然而当面对大规模分布存储数据时,均遭遇了同样的可扩展瓶颈,其涉及的核矩阵计算需要高昂的时间代价。消减此代价的有效策略之一是采用随机Fourier特征变换逼近核函数,而逼近精度所依赖的特征维度常常过高,隐含着可能过拟合的风险。本文将稀疏性嵌入核SLMC,结合交替方向乘子法(Alternating direction method of multipliers,ADMM),给出了一个分布式稀疏软大间隔聚类算法(Distributed sparse SLMC,DS-SLMC)来克服可扩展问题,同时通过稀疏化获得更好的可解释性。展开更多
决策树(Desision tree,DT)生长关键步骤的分裂或分叉准则通常根据纯度和误分类误差等实现,分裂生长分为轴平行和非轴平行方式。这些分裂准则一般与数据内在结构(如类别是否是多簇或单簇组成)无关。为了弥补这一缺失,本文提出了两种混合...决策树(Desision tree,DT)生长关键步骤的分裂或分叉准则通常根据纯度和误分类误差等实现,分裂生长分为轴平行和非轴平行方式。这些分裂准则一般与数据内在结构(如类别是否是多簇或单簇组成)无关。为了弥补这一缺失,本文提出了两种混合分裂准则,分别用加权和两步法将同类内的节点间距(Between-node margin within the same class,BNM)和同一节点内的类紧性(Within-class compactness and between-class separation in the same inner node,CSN)与纯度度量相结合。由于传统决策树以贪婪方式生长,仅能确定出当前的一个局部最优分裂点,为改善这个缺点,本文首先根据纯度确定出前k个候选分裂点,然后通过最大化BNM和最小化CSN确定最终的分裂点,不仅缓和了纯度上的局部最优性,而且引入了数据结构的全局性,因此能较大程度地改进后代节点的分裂,增强树的泛化性和可解释性。将上述两种分裂准则组合还可以进一步提升性能。在21个标准验证数据集上的比较结果表明:新准则下的决策树不仅提高了预测性能、降低了复杂性,而且相比于其他采用混合分裂准则的DTs更具竞争力。展开更多
Wang和陈等利用各自提出的二值指数双向联想记忆模型 (e BAM)及其改进型 e BAM(Ie BAM) ,分别构造了由多个 e BAM和 Ie BAM组成的多重 e BAM(Multi- e BAM)和多重 Ie BAM(Multi- Ie BAM)的信念组合模型 ,使之可模拟多个专家的表决 .该...Wang和陈等利用各自提出的二值指数双向联想记忆模型 (e BAM)及其改进型 e BAM(Ie BAM) ,分别构造了由多个 e BAM和 Ie BAM组成的多重 e BAM(Multi- e BAM)和多重 Ie BAM(Multi- Ie BAM)的信念组合模型 ,使之可模拟多个专家的表决 .该文在此基础上 ,借助陈提出的多值 e BAM(MVe BAM) ,提出了多重多值 e BAM(Mul-ti- MVe BAM) ,对 Multi- e BAM和 Multi- Ie BAM进行了两方面的推广 :一是将二值表示推广到多值表示 ,以此可以处理现实中的多值数据 ;二是将原有模型中具有同等权威度的各专家推广到各具不同的权威度的专家 ,以此模拟更实际的表决情形 .文中借助能量函数证明了所提模型的渐近稳定性 ,以保证其实际可用 .计算机模拟证实了模型的可行性 .展开更多
文摘虽然软大间隔聚类(Soft large margin clustering,SLMC)相比其他诸如K-Means等算法具有更优的聚类性能与某种程度的可解释性,然而当面对大规模分布存储数据时,均遭遇了同样的可扩展瓶颈,其涉及的核矩阵计算需要高昂的时间代价。消减此代价的有效策略之一是采用随机Fourier特征变换逼近核函数,而逼近精度所依赖的特征维度常常过高,隐含着可能过拟合的风险。本文将稀疏性嵌入核SLMC,结合交替方向乘子法(Alternating direction method of multipliers,ADMM),给出了一个分布式稀疏软大间隔聚类算法(Distributed sparse SLMC,DS-SLMC)来克服可扩展问题,同时通过稀疏化获得更好的可解释性。
文摘决策树(Desision tree,DT)生长关键步骤的分裂或分叉准则通常根据纯度和误分类误差等实现,分裂生长分为轴平行和非轴平行方式。这些分裂准则一般与数据内在结构(如类别是否是多簇或单簇组成)无关。为了弥补这一缺失,本文提出了两种混合分裂准则,分别用加权和两步法将同类内的节点间距(Between-node margin within the same class,BNM)和同一节点内的类紧性(Within-class compactness and between-class separation in the same inner node,CSN)与纯度度量相结合。由于传统决策树以贪婪方式生长,仅能确定出当前的一个局部最优分裂点,为改善这个缺点,本文首先根据纯度确定出前k个候选分裂点,然后通过最大化BNM和最小化CSN确定最终的分裂点,不仅缓和了纯度上的局部最优性,而且引入了数据结构的全局性,因此能较大程度地改进后代节点的分裂,增强树的泛化性和可解释性。将上述两种分裂准则组合还可以进一步提升性能。在21个标准验证数据集上的比较结果表明:新准则下的决策树不仅提高了预测性能、降低了复杂性,而且相比于其他采用混合分裂准则的DTs更具竞争力。