对中文文本聚类进行了研究,将所改进的DMK算法应用于实际的中文文本聚类中。将百度百科数据集中的不同类型词条内容经过文本处理(分词、去停用词、特征选取、降维)后分别使用原始K-means聚类算法和DMK(Density-based and Max-min-distan...对中文文本聚类进行了研究,将所改进的DMK算法应用于实际的中文文本聚类中。将百度百科数据集中的不同类型词条内容经过文本处理(分词、去停用词、特征选取、降维)后分别使用原始K-means聚类算法和DMK(Density-based and Max-min-distance K-means)算法进行聚类,并选择F-measure值及RI值(Rand Index)等指标对聚类结果进行分析。结果表明,针对实验中使用的百度百科中文数据集,DMK算法的F-measure值较原始算法平均提高0.342%,RI值较原始算法平均提高9.34%,验证了所设计的DMK算法对实际中文文本聚类的实质性优化。展开更多
研究了聚类分析技术在网络推荐系统中的应用。由于k均值(k-means)聚类算法易受到局部最优与噪声点等因素的影响,文章结合DBSCAN(Density-based Spatial Clustering of Application with Noise)算法和MMD(Max-Min Distance)初始聚类中心...研究了聚类分析技术在网络推荐系统中的应用。由于k均值(k-means)聚类算法易受到局部最优与噪声点等因素的影响,文章结合DBSCAN(Density-based Spatial Clustering of Application with Noise)算法和MMD(Max-Min Distance)初始聚类中心选取算法,对原始k-means算法进行了改进,提出了DMK(Density-based and Max-min-distance K-means)算法。该算法使用DBSCAN选取高密度点作为第一个聚类中心点的备选范围,接着选择相距最远的K-1个点作为其余的K-1个聚类中心,然后用得到的这组初始聚类中心进行k-means聚类。仿真与实验结果表明,该算法选择的初始聚类中心比较分散且代表性好,聚类的迭代次数减少,聚类结果的纯度提高。展开更多
文摘对中文文本聚类进行了研究,将所改进的DMK算法应用于实际的中文文本聚类中。将百度百科数据集中的不同类型词条内容经过文本处理(分词、去停用词、特征选取、降维)后分别使用原始K-means聚类算法和DMK(Density-based and Max-min-distance K-means)算法进行聚类,并选择F-measure值及RI值(Rand Index)等指标对聚类结果进行分析。结果表明,针对实验中使用的百度百科中文数据集,DMK算法的F-measure值较原始算法平均提高0.342%,RI值较原始算法平均提高9.34%,验证了所设计的DMK算法对实际中文文本聚类的实质性优化。
文摘研究了聚类分析技术在网络推荐系统中的应用。由于k均值(k-means)聚类算法易受到局部最优与噪声点等因素的影响,文章结合DBSCAN(Density-based Spatial Clustering of Application with Noise)算法和MMD(Max-Min Distance)初始聚类中心选取算法,对原始k-means算法进行了改进,提出了DMK(Density-based and Max-min-distance K-means)算法。该算法使用DBSCAN选取高密度点作为第一个聚类中心点的备选范围,接着选择相距最远的K-1个点作为其余的K-1个聚类中心,然后用得到的这组初始聚类中心进行k-means聚类。仿真与实验结果表明,该算法选择的初始聚类中心比较分散且代表性好,聚类的迭代次数减少,聚类结果的纯度提高。