-
题名Skip-Gram结构和词嵌入特性的文本主题建模
被引量:7
- 1
-
-
作者
夏家莉
曹中华
彭文忠
张守胜
-
机构
江西财经大学信息管理学院、财政大数据中心
江西师范大学软件学院
-
出处
《小型微型计算机系统》
CSCD
北大核心
2020年第7期1400-1405,共6页
-
基金
国家自然科学基金项目(41661083)资助
江西省教科基金项目(GJJ180199)资助。
-
文摘
常见词嵌入学习可以理解为是在分解词的点互信息值矩阵,主题一致性评价方法也使用了词的点互信息,二者存在紧密的联系,但是现今还缺少深入分析主题一致性评价标准和词嵌入之间联系,并将词嵌入的主题特性应用于主题建模的研究.先分析了主题一致性和常见词嵌入的联系,Softmax函数生成的主题-词项分布的特性;然后提出主题分布式假设,并引入SkipGram结构描述中心词的主题和相邻词之间的关联,从而充分使用词嵌入向量相似、关联特点挖掘文本主题.在3种公开数据集上的实验表明,该模型方法比较现有神经网络结构的主题模型,在主题一致性、主题词的专有性方面都有显著提高;同时模型的主题嵌入向量和主题代表词嵌入向量间具有很强的相似或关联特性.
-
关键词
主题模型
主题一致性
点互信息
主题分布式假设
-
Keywords
topic model
topic coherence
pmi
topical distribution hypothesis
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-