针对互联网舆情挖掘领域的特点,提出了一种基于向量空间模型VSM的文本聚类算法STCC(Similarity Threshold Control Clustering BasedVSM)。该算法按照层次聚类从下至上凝聚的策略,获取初始簇信息,然后根据K-means算法的思想以设置...针对互联网舆情挖掘领域的特点,提出了一种基于向量空间模型VSM的文本聚类算法STCC(Similarity Threshold Control Clustering BasedVSM)。该算法按照层次聚类从下至上凝聚的策略,获取初始簇信息,然后根据K-means算法的思想以设置的聚类相似度阈值作为度量来合并簇。该算法结合层次聚类和K-means算法的优点,克服其缺点。与层次聚类相比,每一次聚类时不需要比较所有簇之间的相似度,降低了时间复杂度,提高了聚类的效率;与K—means算法相比,不需要确定K值,灵活性更高。通过实验表明,该算法聚类效果好,实用性高,适合大规模的文本聚类。展开更多
文摘针对互联网舆情挖掘领域的特点,提出了一种基于向量空间模型VSM的文本聚类算法STCC(Similarity Threshold Control Clustering BasedVSM)。该算法按照层次聚类从下至上凝聚的策略,获取初始簇信息,然后根据K-means算法的思想以设置的聚类相似度阈值作为度量来合并簇。该算法结合层次聚类和K-means算法的优点,克服其缺点。与层次聚类相比,每一次聚类时不需要比较所有簇之间的相似度,降低了时间复杂度,提高了聚类的效率;与K—means算法相比,不需要确定K值,灵活性更高。通过实验表明,该算法聚类效果好,实用性高,适合大规模的文本聚类。