摘要
义原(Sememe)是构成《知网》(HowNet)概念描述的核心部件,新词概念描述义原的推荐是HowNet自动或半自动扩展中涉及的关键问题。面向新词义原推荐,该文提出一种融合义原注意力的预训练语言模型优化方法——SaBERT。在判别新词与HowNet词表词之间的语义相似性的过程中,该方法利用词表词已知概念描述义原序列的注意力分布,以相似性同构为目标,对基于BERT+CNN的相似性判别模型进行优化,从而为义原推荐任务提供相似概念集合。实验结果表明,采用SaBERT可以有效解决未登录词与词表词的相似性判别问题,准确率、召回率、F1值分别达到0.8314、0.8007和0.8158。在基于协同过滤框架的义原推荐任务上进行的实验表明,相似性同构程度与义原推荐效果正相关,说明该文方法能够有效解决候选义原选择问题。
Sememe is the core component that constitutes the conceptual description of words in HowNet,and the recommendation of sememes for describing new words or concepts is crucial for the automatic or semi-automatic extension of HowNet.Focusing on the sememe recommendation of new words,this paper proposes a sememe attention enhanced pre-training language model named SaBERT.To estimate the similarity between a new word and an in-vocabulary word of HowNet,we employ the existing concepts of the in-vocabulary word to describe the attention distribution of the sememe sequence,and optimize the BERT+CNN model with an objective of similarity isomorphism.Experimental results show that SaBERT achieves achieve 0.8314,0.8007 and 0.8158 for precision,recall and F 1 value,respectively.
作者
白宇
田雨
王之光
张桂平
BAI Yu;TIAN Yu;WANG Zhiguang;ZHANG Guiping(College of Computer Science and Technology,Nanjing University of Aeronautics and Astronautics,Nanjing,Jiangsu 210016,China;Research Center for HCI,Shenyang Aerospace University,Shenyang,Liaoning 110136,China)
出处
《中文信息学报》
CSCD
北大核心
2024年第1期36-44,共9页
Journal of Chinese Information Processing
基金
国家自然科学基金(U1908216)
辽宁省重点研发计划(2019JH2/10100020)。
关键词
义原推荐
相似性同构
知网
sememe recommendation
similarity isomorphism
HowNet