摘要
当前大部分的词向量模型针对一个单词只能生成一个向量,由于单词的多义性,使用同一个向量表达不同语境下的同一个单词是不准确的。对此,提出一种新的词向量模型。使用潜狄利克雷特分布和神经网络对单词进行训练,得到单词及其主题的向量,并对两者进行线性变换得到最终的词向量。实验结果表明,该模型的准确度高于现有多向量模型。
Currently,most word vector models can build only one vector for a single word.Due to word’s polysemy,it is incorrect to use one vector representing a same word under different context.This paper proposes a new word vector model.It uses latent dirichlet distribution and neural networks to train words to obtain word vectors and corresponding topic vectors.And then it applies linear transformations on them to build the final word vectors.Experimental results show that the accuracy of proposed model is high compared with current multi-vector models.
出处
《计算机工程》
CAS
CSCD
北大核心
2018年第2期233-237,270,共6页
Computer Engineering
基金
上海市自然科学基金"阵元互耦条件下基于空域稀疏的阵列测向方法研究"(15ZR1439800)
上海市科技创新行动计划项目(15DZ1100400
16511105300)
关键词
自然语言处理
词向量
主题模型
神经网络
哈夫曼树
natural language processing
word vector
topic model
neural network
Haffman tree