标记分布学习是近年来提出的一种新的机器学习范式,它能很好地解决某些标记多义性的问题。现有的标记分布学习算法均利用条件概率建立参数模型,但未能充分利用特征和标记间的联系。本文考虑到特征相似的样本所对应的标记分布也应当相似...标记分布学习是近年来提出的一种新的机器学习范式,它能很好地解决某些标记多义性的问题。现有的标记分布学习算法均利用条件概率建立参数模型,但未能充分利用特征和标记间的联系。本文考虑到特征相似的样本所对应的标记分布也应当相似,利用原型聚类的k均值算法(k-means),将训练集的样本进行聚类,提出基于kmeans算法的标记分布学习(label distribution learning based on k-means algorithm,LDLKM)。首先通过聚类算法kmeans求得每一个簇的均值向量,然后分别求得对应标记分布的均值向量。最后将测试集和训练集的均值向量间的距离作为权重,应用到对测试集标记分布的预测上。在6个公开的数据集上进行实验,并与3种已有的标记分布学习算法在5种评价指标上进行比较,实验结果表明提出的LDLKM算法是有效的。展开更多
文摘标记分布学习是近年来提出的一种新的机器学习范式,它能很好地解决某些标记多义性的问题。现有的标记分布学习算法均利用条件概率建立参数模型,但未能充分利用特征和标记间的联系。本文考虑到特征相似的样本所对应的标记分布也应当相似,利用原型聚类的k均值算法(k-means),将训练集的样本进行聚类,提出基于kmeans算法的标记分布学习(label distribution learning based on k-means algorithm,LDLKM)。首先通过聚类算法kmeans求得每一个簇的均值向量,然后分别求得对应标记分布的均值向量。最后将测试集和训练集的均值向量间的距离作为权重,应用到对测试集标记分布的预测上。在6个公开的数据集上进行实验,并与3种已有的标记分布学习算法在5种评价指标上进行比较,实验结果表明提出的LDLKM算法是有效的。