期刊文献+

基于可靠词汇语义约束的词语向量表达修正研究 被引量:2

Refining Word Vector Representation with Reliable Lexical Semantic Constraints
下载PDF
导出
摘要 词语向量表达(word vector representation)是众多自然语言处理(natural language processing,NLP)下游应用的基础。已有研究采用各种词汇分类体系提供的词汇语义约束,对海量语料训练得到的词向量进行修正,改善了词向量的语义表达能力。然而,人工编制或者半自动构建的词汇分类体系普遍存在语义约束可靠性不稳定的问题。该文基于词汇分类体系与词向量之间、以及异构词汇分类体系之间的交互确认,研究适用于词语向量表达修正的可靠词汇语义约束提炼方法。具体上,对于词汇分类体系提供的同义词语类,基于词语向量计算和评估类内词语的可靠性。在其基础上,通过剔除不可靠语义约束机制避免词语类划分潜在不够准确的词语的错误修正;通过不同词汇分类体系的交互确认恢复了部分误剔除的语义约束;并通过核心词约束传递机制避免原始词向量不够可靠的词语在词向量修正中的不良影响。该文采用NLPCC-ICCPOL 2016词语相似度测评比赛中的PKU 500数据集进行测评。在该数据集上,将该文提出的方法提炼的可靠词汇语义约束应用到两个轻量级后修正的研究进展方法,修正后的词向量都获得更好的词语相似度计算性能,取得了0.649 7的Spearman等级相关系数,比NLPCC-ICCPOL 2016词语相似度测评比赛第一名的方法的结果提高25.4%。 Word vector representation is the basis for various natural language processing(NLP)systems.Studies have shown that word vectors trained from large corpora can be refined by semantic constraints in various lexical taxonomies.Based on lexicon-vectors interaction and the heterogeneous taxonomies'interaction,we present the method of extracting reliable lexical semantic constraints to better refine word vectors representation.In this method,the word class knowledge from lexical taxonomies is assessed for reliability based on word vectors'calculation.Experimental results on PKU 500 from the NLPCC-ICCPOL 2016 shared task on Chinese word similarity measurement show that the proposed method outperforms in the word similarity calculation with a Spearman score 0.649 7,which gains 25.4%improvement comparing to the best result in the shared task.
作者 梁泳诗 黄沛杰 黄培松 杜泽峰 LIANG Yongshi;HUANG Peijie;HUANG Peisong;DU Zefeng(College of Malhenvilics and Infornjatics.South China Agricultural University.Guangzhou 510642.China)
出处 《中文信息学报》 CSCD 北大核心 2019年第1期56-67,共12页 Journal of Chinese Information Processing
基金 国家自然科学基金(71472068)
关键词 词语向量表达修正 可靠词汇语义约束 核心词约束传递 word vector representation refinement reliable lexical semantic constraints transmission mechanism of core words
  • 相关文献

参考文献1

二级参考文献7

  • 1吴健,吴朝晖,李莹,邓水光.基于本体论和词汇语义相似度的Web服务发现[J].计算机学报,2005,28(4):595-602. 被引量:218
  • 2刘群 李素建.基于《知网》的词汇语义相似度的计算[A]..第三届汉语词汇语义学研讨会[C].台北,2002..
  • 3Eneko Agirre, German Rigau. A Proposal for Word Sense Disambiguation using Conceptual Distance [A].In: Proceedings of the First International Conference on Recent Advanced in NLP [C]. 1995.
  • 4Dekang Lin. An Information-Theoretic Definition of Similarity Semantic distance in WordNet [A]. In:Proceedings of the Fifteenth International Conference on Machine Learning [C]. 1998.
  • 5HowNet [R]. HowNet's Home Page. http://www.keenage. com.
  • 6BUDANITSKY, A. AND HIRST, G. Semantic distance in WordNet : An experimental, application-oriented evaluation of five measures [A]. In: Workshop on WordNet and Other Lexical Resources, Second meeting of the North American Chapter of the Association for Computational Linguistics[C]. 2001.
  • 7同义词词林[R].http://www.ir—lab.org/.

共引文献105

同被引文献25

引证文献2

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部