-
题名基于高斯混合模型和自适应簇数的文本聚类
被引量:1
- 1
-
-
作者
程宏兵
王本安
陈友荣
张旭东
吴前锋
-
机构
浙江工业大学计算机科学与技术学院
浙江树人学院信息技术学院
浙江省经济信息中心
-
出处
《浙江工业大学学报》
北大核心
2023年第6期602-609,共8页
-
基金
浙江省公益应用研究资助项目(LGF22F020006)
浙江省科技厅“领雁”研发攻关计划资助项目(2022C03122)。
-
文摘
针对海量文本难以精准聚类问题,提出了一种基于高斯混合模型和自适应簇数的文本聚类算法(TCA)。首先,采用无意义符号去除、基于齐次马尔科夫假设的文本分词和停用词去除方法,实现数据分词和清洗;其次,提出权衡关键词频率和普适性的关键词权重,选择关键词和进行文本向量化;再次,在高斯混合模型的基础上,引入文本相似度,提出权衡条件概率和相似度的文本权重;最后,通过轮盘赌初始化聚类中心,更新多维高斯分布模型参数,实现分簇数量确定的文本聚类。同时,为了自适应文本分簇数量,在肘部法则的基础上确定最优分簇数量,从而提高聚类效果。仿真结果表明:TCA能自适应文本聚类数量和获得其分布,提高聚类的准确率和召回率,有助于更好地实现海量文本的精确聚类。
-
关键词
文本聚类
高斯混合模型
自适应簇数
相似度
条件概率
-
Keywords
text clustering
gaussian mixture model
self-adaptive number of clusters
similarity
conditional probability
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-