期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于DMA与特征划分的多源文本主题模型 被引量:2
1
作者 许伟佳 秦永彬 +1 位作者 黄瑞章 陈艳平 《计算机工程》 CAS CSCD 北大核心 2021年第7期59-66,共8页
针对传统主题模型在挖掘多源文本数据集信息时存在主题发现效果不佳的问题,设计一种基于狄利克雷多项式分配(DMA)与特征划分的多源文本主题模型。以DMA模型为基础,放宽对预先输入的主题数量的限制,为每个数据源分配专有的主题分布参数,... 针对传统主题模型在挖掘多源文本数据集信息时存在主题发现效果不佳的问题,设计一种基于狄利克雷多项式分配(DMA)与特征划分的多源文本主题模型。以DMA模型为基础,放宽对预先输入的主题数量的限制,为每个数据源分配专有的主题分布参数,使用Gibbs采样算法估计每个数据源的主题数量。同时,对每个数据源分配专有的噪音词分布参数以及主题-词分布参数,采用特征划分方法区分每个数据源的特征词和噪音词,并学习每个数据源的用词特征,避免噪音词集对模型聚类的干扰。实验结果表明,与传统主题模型相比,该模型能够保留每个数据源特有的词特征,具有更好的主题发现效果及鲁棒性。 展开更多
关键词 多源文本主题模型 文本聚类 狄利克雷多项分配 特征划分 GIBBS采样
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部