-
题名蒙古语词向量评测研究
被引量:1
- 1
-
-
作者
乌云塔那
王斯日古楞
-
机构
内蒙古师范大学计算机与信息工程学院
-
出处
《广西科学院学报》
2018年第1期68-71,共4页
-
基金
内蒙古自治区自然科学基金项目"基于条件随机场的蒙古文命名体识别研究"(2016MS0623)
国家自然科学基金项目"基于神经网络的蒙汉机器翻译研究"(61762072)资助
-
文摘
词向量具有良好的语义特性,可用于改善和简化许多自然语言信息处理应用。本研究利用CBOW和Skip-gram两种模型架构在不同数据和不同维度下训练蒙古语词向量,然后结合蒙古语特征设计一个语义语法综合测试集,并在此测试集上用语义和语法相似度来评测词向量质量。研究结果表明,蒙古语语义和语法相似性任务上,Skip-gram模型优于CBOW模型,Skip-gram模型的窗口大小为5的情况下,词向量质量最好,且随着词向量维度或训练数据的增大,词向量质量有明显的提高。
-
关键词
词向量
CBOW模型
Skip-gram模型
词向量质量
语义语法相似度
-
Keywords
word vectors
CBOW model
Skip-gram model
quality of the word vectors
semantic syntactic similarity
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-