-
题名Skip-Gram结构和词嵌入特性的文本主题建模
被引量:7
- 1
-
-
作者
夏家莉
曹中华
彭文忠
张守胜
-
机构
江西财经大学信息管理学院、财政大数据中心
江西师范大学软件学院
-
出处
《小型微型计算机系统》
CSCD
北大核心
2020年第7期1400-1405,共6页
-
基金
国家自然科学基金项目(41661083)资助
江西省教科基金项目(GJJ180199)资助。
-
文摘
常见词嵌入学习可以理解为是在分解词的点互信息值矩阵,主题一致性评价方法也使用了词的点互信息,二者存在紧密的联系,但是现今还缺少深入分析主题一致性评价标准和词嵌入之间联系,并将词嵌入的主题特性应用于主题建模的研究.先分析了主题一致性和常见词嵌入的联系,Softmax函数生成的主题-词项分布的特性;然后提出主题分布式假设,并引入SkipGram结构描述中心词的主题和相邻词之间的关联,从而充分使用词嵌入向量相似、关联特点挖掘文本主题.在3种公开数据集上的实验表明,该模型方法比较现有神经网络结构的主题模型,在主题一致性、主题词的专有性方面都有显著提高;同时模型的主题嵌入向量和主题代表词嵌入向量间具有很强的相似或关联特性.
-
关键词
主题模型
主题一致性
点互信息
主题分布式假设
-
Keywords
topic model
topic coherence
pmi
topical distribution hypothesis
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名多原型词向量与文本主题联合学习模型
被引量:4
- 2
-
-
作者
曹中华
夏家莉
彭文忠
张志斌
-
机构
江西财经大学信息管理学院财政大数据中心
江西师范大学软件学院
-
出处
《中文信息学报》
CSCD
北大核心
2020年第3期64-71,106,共9页
-
基金
国家自然科学基金(41661083)。
-
文摘
常见的词嵌入向量模型存在每个词只具有一个词向量的问题,词的主题值是重要的多义性条件,可以作为获得多原型词向量的附加信息。在skip-gram(cbow)模型和文本主题结构基础上,该文研究了两种改进的多原型词向量方法和基于词与主题的嵌入向量表示的文本生成结构。该模型通过联合训练,能同时获得文本主题、词和主题的嵌入向量,实现了使用词的主题信息获得多原型词向量,和使用词和主题的嵌入式向量学习文本主题。实验表明,该文提出的方法不仅能够获得具有上下文语义的多原型词向量,也可以获得关联性更强的文本主题。
-
关键词
多原型词向量
多义词
主题模型
神经网络
-
Keywords
multi-prototype words embedding
polysemy words
topic model
neural network
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-