摘要
词语向量表达(word vector representation)是众多自然语言处理(natural language processing,NLP)下游应用的基础。已有研究采用各种词汇分类体系提供的词汇语义约束,对海量语料训练得到的词向量进行修正,改善了词向量的语义表达能力。然而,人工编制或者半自动构建的词汇分类体系普遍存在语义约束可靠性不稳定的问题。该文基于词汇分类体系与词向量之间、以及异构词汇分类体系之间的交互确认,研究适用于词语向量表达修正的可靠词汇语义约束提炼方法。具体上,对于词汇分类体系提供的同义词语类,基于词语向量计算和评估类内词语的可靠性。在其基础上,通过剔除不可靠语义约束机制避免词语类划分潜在不够准确的词语的错误修正;通过不同词汇分类体系的交互确认恢复了部分误剔除的语义约束;并通过核心词约束传递机制避免原始词向量不够可靠的词语在词向量修正中的不良影响。该文采用NLPCC-ICCPOL 2016词语相似度测评比赛中的PKU 500数据集进行测评。在该数据集上,将该文提出的方法提炼的可靠词汇语义约束应用到两个轻量级后修正的研究进展方法,修正后的词向量都获得更好的词语相似度计算性能,取得了0.649 7的Spearman等级相关系数,比NLPCC-ICCPOL 2016词语相似度测评比赛第一名的方法的结果提高25.4%。
Word vector representation is the basis for various natural language processing(NLP)systems.Studies have shown that word vectors trained from large corpora can be refined by semantic constraints in various lexical taxonomies.Based on lexicon-vectors interaction and the heterogeneous taxonomies'interaction,we present the method of extracting reliable lexical semantic constraints to better refine word vectors representation.In this method,the word class knowledge from lexical taxonomies is assessed for reliability based on word vectors'calculation.Experimental results on PKU 500 from the NLPCC-ICCPOL 2016 shared task on Chinese word similarity measurement show that the proposed method outperforms in the word similarity calculation with a Spearman score 0.649 7,which gains 25.4%improvement comparing to the best result in the shared task.
作者
梁泳诗
黄沛杰
黄培松
杜泽峰
LIANG Yongshi;HUANG Peijie;HUANG Peisong;DU Zefeng(College of Malhenvilics and Infornjatics.South China Agricultural University.Guangzhou 510642.China)
出处
《中文信息学报》
CSCD
北大核心
2019年第1期56-67,共12页
Journal of Chinese Information Processing
基金
国家自然科学基金(71472068)
关键词
词语向量表达修正
可靠词汇语义约束
核心词约束传递
word vector representation refinement
reliable lexical semantic constraints
transmission mechanism of core words