随着数据获取方式的多样化发展,针对多视图领域的算法研究变得越来越重要,但大多数方法仅通过自表示属性或局部结构获取样本间的相似性关系,在此过程中忽略了整体样本的聚类结构和原始空间的噪声的影响,使得聚类结果存在较大误差。为解...随着数据获取方式的多样化发展,针对多视图领域的算法研究变得越来越重要,但大多数方法仅通过自表示属性或局部结构获取样本间的相似性关系,在此过程中忽略了整体样本的聚类结构和原始空间的噪声的影响,使得聚类结果存在较大误差。为解决此问题,提出了一种基于聚类结构和局部相似性的多视图隐空间聚类方法(multi-view latent subspace clustering with cluster structure and local similarity,MLC2L),通过隐表示融合不同视图上的共享信息并抑制噪声的存在。此外,通过探索隐空间内样本间的局部相似性关系和整体的聚类结构促进样本达到同类聚合、异类远离的目的;最后引入一个交替方向迭代优化算法来快速求解目标函数。实验结果显示,在六个真实数据集的实验中,MLC2L在MSRC-v1、UCI以及100Leaves上的五个评价指标均为最优,在3Sources、WebKB和Prokaryotic等数据集上的五个指标有四个最优,大量的实验分析也证明了融合局部结构和整体聚类结构的MLC2L在多视图聚类任务上的有效性。展开更多
提出了一种基于频繁子树模式的GML文档结构聚类算法GCFS(GML Clustering based on Frequent Subtree patterns),与其他相关算法不同,该算法首先挖掘GML文档集合中的最大与闭合频繁Induced子树,并将其作为聚类特征,根据频繁子树的大小赋...提出了一种基于频繁子树模式的GML文档结构聚类算法GCFS(GML Clustering based on Frequent Subtree patterns),与其他相关算法不同,该算法首先挖掘GML文档集合中的最大与闭合频繁Induced子树,并将其作为聚类特征,根据频繁子树的大小赋予不同的权值,采用余弦函数定义相似度,利用K-Means算法对聚类特征进行聚类。实验结果表明算法GCFS是有效的,具有较高的聚类效率,性能优于其他同类算法。展开更多
通过对XML结构聚类现状进行研究分析,提出了一种新的XML文档结构相似度度量方法DBTD(Density-Based of the Tree Distance),并在此基础上提出以基于密度的DBSCAN方法对XML文档进行结构聚类。实验表明:该方法能够对XML文档进行结构聚类,...通过对XML结构聚类现状进行研究分析,提出了一种新的XML文档结构相似度度量方法DBTD(Density-Based of the Tree Distance),并在此基础上提出以基于密度的DBSCAN方法对XML文档进行结构聚类。实验表明:该方法能够对XML文档进行结构聚类,且其聚类结果充分展现了该方法的有效性。展开更多
文摘随着数据获取方式的多样化发展,针对多视图领域的算法研究变得越来越重要,但大多数方法仅通过自表示属性或局部结构获取样本间的相似性关系,在此过程中忽略了整体样本的聚类结构和原始空间的噪声的影响,使得聚类结果存在较大误差。为解决此问题,提出了一种基于聚类结构和局部相似性的多视图隐空间聚类方法(multi-view latent subspace clustering with cluster structure and local similarity,MLC2L),通过隐表示融合不同视图上的共享信息并抑制噪声的存在。此外,通过探索隐空间内样本间的局部相似性关系和整体的聚类结构促进样本达到同类聚合、异类远离的目的;最后引入一个交替方向迭代优化算法来快速求解目标函数。实验结果显示,在六个真实数据集的实验中,MLC2L在MSRC-v1、UCI以及100Leaves上的五个评价指标均为最优,在3Sources、WebKB和Prokaryotic等数据集上的五个指标有四个最优,大量的实验分析也证明了融合局部结构和整体聚类结构的MLC2L在多视图聚类任务上的有效性。
文摘提出了一种基于频繁子树模式的GML文档结构聚类算法GCFS(GML Clustering based on Frequent Subtree patterns),与其他相关算法不同,该算法首先挖掘GML文档集合中的最大与闭合频繁Induced子树,并将其作为聚类特征,根据频繁子树的大小赋予不同的权值,采用余弦函数定义相似度,利用K-Means算法对聚类特征进行聚类。实验结果表明算法GCFS是有效的,具有较高的聚类效率,性能优于其他同类算法。
文摘通过对XML结构聚类现状进行研究分析,提出了一种新的XML文档结构相似度度量方法DBTD(Density-Based of the Tree Distance),并在此基础上提出以基于密度的DBSCAN方法对XML文档进行结构聚类。实验表明:该方法能够对XML文档进行结构聚类,且其聚类结果充分展现了该方法的有效性。