摘要
同义词挖掘是自然语言处理领域中的一个基础任务,而同义词对的判别是该任务的一个重要部分。传统两大类方法,基于分布式表示和基于模板的方法,分别利用了语料的全局统计信息和局部统计信息,只能在精确率和召回率中权衡。随着预训练词向量技术的发展,基于分布式表示的方法存在一种简单高效的方案,即直接对预训练好的词向量计算相似度,将此表示为语义相似度。然而,这样的思路并没有利用到现有的同义词对这一外部知识。该文提出基于《同义词词林》的词向量微调方法,利用同义词对信息,增强预训练词向量的语义表示。经过实验,该微调方法能很好地完成同义词对的判别。
Synonym discovery is a typical task in natural language processing,aiming at predicting whether a given word is a synonym of another word.With pre-trained word embedding appeared recently,a simple and effective distributional based approach is available by exploiting the similarity between word embeddings.To further augmenting external knowledge such as synonym tuples,this paper proposes a word embedding fine-tuning approach based on synonym tuples in Tongyi Cilin,so as to enhance the semantic representation of embedding.Our experiments show this approach is effective for predicting synonyms.
作者
佘琪星
王必聪
刘铭
秦兵
王莉峰
SHE Qixing;WANG Bicong;LIU Ming;QIN Bing;WANG Lifeng(Research Center for Social Computing and Information Retrieval,Harbin Institute of Technology,Harbin,Heilongjiang 150001,China;Peng Cheng Laboratory,Shenzhen,Guangdong 518055,China;Tencent Technology(Shenzhen)Co.,Ltd,Shenzhen,Guangdong 518000,China)
出处
《中文信息学报》
CSCD
北大核心
2020年第10期27-32,共6页
Journal of Chinese Information Processing
基金
国家自然科学基金(61772156,61976073)
黑龙江省自然科学基金(F2018013)。
关键词
同义词挖掘
预训练词向量
语义表示
微调
synonym discovery
pre-trained word embedding
semantic representation
fine-tuning