摘要
凝聚层次聚类算法是聚类算法实际应用的核心,算法简单效率高并能有效处理大数据集。本文利用数据挖掘技术文本凝聚层次聚类实现对中文文本的话题聚类,具体过程包括中文特征计算、文本分词、话题聚类以及结果展示,主要研究不同粒度中文文本话题聚类方法的实现,通过构建凝聚层次聚类模型(Hierarchical Agglomerative Cluster,HAC)进行文本话题聚类,采用模型参数的调控来改变聚类的粒度。不同粒度的文本话题聚类能展示不同层次的文本归并结果,有效实现定制式的个性化文本信息聚类。
出处
《通讯世界》
2015年第6期312-313,共2页
Telecom World
基金
国家自然科学基金(61202044)
四川省教育厅科研基金(12ZB326)
绵阳市网络融合工程实验室开放课题(12ZXWK04)
西南科技大学博士研究基金(12ZX7116)