期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于词组主题建模的文本语义压缩算法 被引量:4
1
作者 王李冬 张引 吕明琪 《西南交通大学学报》 EI CSCD 北大核心 2015年第4期755-763,共9页
为了实现文本代表性语义词汇的抽取,提出一种基于词组主题建模的文本语义压缩算法SCPTM(semantic compression based on phrase topic modeling).该算法首先将代表性语义词汇抽取问题转化为最大化优化模型,并通过贪心搜索策略实现该... 为了实现文本代表性语义词汇的抽取,提出一种基于词组主题建模的文本语义压缩算法SCPTM(semantic compression based on phrase topic modeling).该算法首先将代表性语义词汇抽取问题转化为最大化优化模型,并通过贪心搜索策略实现该模型的近似求解.然后,利用词组挖掘模型LDACOL实现词组主题建模,得到SCPTM算法的输入参数;同时,针对该模型中词组的主题分配不稳定的问题进行改进,使得取得的代表性语义词汇更加符合人们对语义的认知习惯.最后,将改进LDACOL模型与LDA模型、LDACOL模型以及TNG模型的主题挖掘性能进行实验比较,并利用SCPTM算法针对不同语料库进行语义压缩,根据聚类结果评价其有效性.实验结果表明,在多数情况下,改进LDACOL模型的主题抽取效果优于其他3种模型;通过SCPTM算法抽取代表性语义词汇能达到70%~100%的精度,相比PCA、MDS、ISOMAP等传统降维算法能获得更高的聚类效果. 展开更多
关键词 主题模型 代表性语义词汇 文本挖掘 语义压缩 scptm
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部