期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于高斯混合模型和自适应簇数的文本聚类 被引量:1
1
作者 程宏兵 王本安 +2 位作者 陈友荣 张旭东 吴前锋 《浙江工业大学学报》 北大核心 2023年第6期602-609,共8页
针对海量文本难以精准聚类问题,提出了一种基于高斯混合模型和自适应簇数的文本聚类算法(TCA)。首先,采用无意义符号去除、基于齐次马尔科夫假设的文本分词和停用词去除方法,实现数据分词和清洗;其次,提出权衡关键词频率和普适性的关键... 针对海量文本难以精准聚类问题,提出了一种基于高斯混合模型和自适应簇数的文本聚类算法(TCA)。首先,采用无意义符号去除、基于齐次马尔科夫假设的文本分词和停用词去除方法,实现数据分词和清洗;其次,提出权衡关键词频率和普适性的关键词权重,选择关键词和进行文本向量化;再次,在高斯混合模型的基础上,引入文本相似度,提出权衡条件概率和相似度的文本权重;最后,通过轮盘赌初始化聚类中心,更新多维高斯分布模型参数,实现分簇数量确定的文本聚类。同时,为了自适应文本分簇数量,在肘部法则的基础上确定最优分簇数量,从而提高聚类效果。仿真结果表明:TCA能自适应文本聚类数量和获得其分布,提高聚类的准确率和召回率,有助于更好地实现海量文本的精确聚类。 展开更多
关键词 文本聚类 高斯混合模型 自适应簇数 相似度 条件概率
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部