细粒度语义知识图谱增强的中文OOV词嵌入学习被引量：1

Fine-grained Semantic Knowledge Graph Enhanced Chinese OOV Word Embedding Learning

下载PDF

导出

摘要随着信息化领域的范围不断扩大,许多特定领域的文本语料开始涌现。这些特定领域,如医疗、通信等,由于受到安全性和敏感性的影响,其数据规模通常较小,传统的词嵌入学习模型难以获得有效的结果。另一方面,直接应用现有的预训练语言模型时会出现较多未登录词,这些词汇无法表示成向量,从而影响下游任务的性能表现。许多学者开始研究如何利用细粒度语义信息来得到较高质量的未登录词向量表示。然而,当前的未登录词嵌入学习模型大多针对英文语料,对中文词的细粒度语义信息只能进行简单的拼接或映射,难以在中文未登录词嵌入学习任务中得到有效的向量表示。针对上述问题,首先通过中文构字规则,即中文词所包含的汉字、汉字所包含的部件和拼音等,构建细粒度的知识图谱,使其不仅能涵盖汉字和单词之间的关联关系,还能对拼音和汉字、组件和汉字等细粒度语义信息之间的多元且复杂的关联关系进行表征。然后,在知识图谱上运行图卷积算法,从而对中文词的细粒度语义信息之间以及它们与词语义之间更深层次的关系进行建模。此外,文中通过在子图结构上构建图读出来进一步挖掘细粒度语义信息与词语义信息之间的组成关系,据此提升模型在未登录词嵌入推断中的精准度。实验结果表明,在面对未登录词占比较大的特定语料上的词配对、词相似任务,以及文本分类、命名实体识别等下游任务时,所提模型都取得了更好的性能。 With the expansion of the scope in informatization fields,lots of text corpora in specific fields continue to appear.Due to the impact of security and sensitivity,the text corpora in these specific fields(e.g.,medical records corpora and communication corpora)are often small-scaled.It is difficult for traditional word embedding learning methods to obtain high-quality embeddings on these corpora.On the other hand,there may exist many out-of-vocabulary words in these corpora when using the existing pre-training language models directly,for which,many words cannot be represented as vectors and the performance on downstream tasks are limited.Many researchers start to study how to infer the semantics of out-of-vocabulary words and obtain effective out-of-vocabulary word embeddings based on fine-grained semantic information.However,the current models utilizing fine-grained semantic information mainly focus on the English corpora and they only model the relationship among fine-grained semantic information by simple ways of concatenation or mapping,which leads to a poor model robustness.Aiming at addressing the above problems,this paper first proposes to construct a fine-grained knowledge graph by exploiting Chinese word formation rules,such as the characters contained in Chinese words,as well as the character components and pinyin of Chinese characters.The know-ledge graph not only captures the relationship between Chinese characters and Chinese words,but also represents the multiple and complex relationships between Pinyin and Chinese characters,components and Chinese characters,and other fine-grained semantic information.Next,the relational graph convolution operation is performed on the knowledge graph to model the deeper relationship between fine-grained semantics and word semantics.The method further mines the relationship between fine-grained semantics by the sub-graph readout,so as to effectively infer the semantic information of Chinese out-of-vocabulary words.Experimental results show that our model achieves better performance on specific corpora with a large proportion of out-of-vocabulary words when applying to tasks such as word analogy,word similarity,text classification,and named entity recognition.

作者陈姝睿梁子然饶洋辉 CHEN Shurui;LIANG Ziran;RAO Yanghui(School of Computer Science and Engineering,Sun Yat-sen University,Guangzhou 510006,China)

机构地区中山大学计算机学院

出处《计算机科学》 CSCD 北大核心 2023年第3期72-82,共11页 Computer Science

基金国家自然科学基金面上项目(61972426)。

关键词未登录词嵌入学习中文细粒度语义信息细粒度知识图谱图卷积网络学习 Out-of-vocabulary word embedding learning Chinese fine-grained semantic information Fine-grained knowledge graph Graph convolution network learning

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献5

1鲍闯,乔杰,李海斌,冯姣,李鹏.基于融合特征的长文本分类方法[J].重庆理工大学学报（自然科学）,2022,36(9):128-136. 被引量：3
2董丽丽,杨丹,张翔.基于深度学习的大规模语义文本重叠区域检索[J].吉林大学学报（工学版）,2021,51(5):1817-1822. 被引量：5
3杨泉.知识本体与词向量结合的词义相似度强化学习计算方法[J].重庆理工大学学报（自然科学）,2022,36(1):128-135. 被引量：1
4侯钰涛,阿布都克力木·阿布力孜,哈里旦木·阿布都克里木.中文预训练模型研究进展[J].计算机科学,2022,49(7):148-163. 被引量：8
5曹学飞,牛倩,王瑞波,王钰,李济洪.基于共现的汉语词的分布表示学习与改进[J].计算机科学,2021,48(6):222-226. 被引量：1

二级参考文献23

1田久乐,赵蔚.基于同义词词林的词语相似度计算方法[J].吉林大学学报（信息科学版）,2010,28(6):602-608. 被引量：175
2刘开瑛.汉语框架语义网构建及其应用技术研究[J].中文信息学报,2011,25(6):46-52. 被引量：23
3朱新华,马润聪,孙柳,陈宏朝.基于知网与词林的词语语义相似度计算[J].中文信息学报,2016,30(4):29-36. 被引量：63
4陈宏朝,李飞,朱新华,马润聪.基于路径与深度的同义词词林词语相似度计算[J].中文信息学报,2016,30(5):80-88. 被引量：28
5缪峰,贾华丁,熊于宁.基于服务相似度的移动用户近似邻居选取方法[J].计算机工程,2018,44(5):162-167. 被引量：1
6李志义,黄子风,许晓绵.基于表示学习的跨模态检索模型与特征抽取研究综述[J].情报学报,2018,37(4):422-435. 被引量：18
7车翔玖,王利,郭晓新.基于多尺度特征融合的边界检测算法[J].吉林大学学报（工学版）,2018,48(5):1621-1628. 被引量：6
8王松松,高伟勋,徐逸凡.基于路径与词林编码的词语相似度计算方法[J].计算机工程,2018,44(10):160-167. 被引量：8
9何涛,王桂芳,杨美妮,郭楷模.基于词嵌入语义的精准检索式构建方法[J].现代情报,2018,38(11):55-58. 被引量：10
10王永强,韩磊.基于文本驱动的动画素材自动检索系统设计[J].现代电子技术,2018,41(24):167-169. 被引量：3

共引文献13

1高燕超.基于深度学习的手写英文字体识别研究[J].粘接,2021(7):84-87. 被引量：1
2李晓英,杨名,全睿,谭保华.基于深度学习的不均衡文本分类方法[J].吉林大学学报（工学版）,2022,52(8):1889-1895. 被引量：2
3孙凯丽,罗旭东,罗有容.预训练语言模型的应用综述[J].计算机科学,2023,50(1):176-184. 被引量：4
4王文娟,何晓莲,胡峰,赵伟,钟淘淘.多注意力机制BERT分类模型及其在电力运维中的应用[J].重庆邮电大学学报（自然科学版）,2023,35(1):156-163. 被引量：1
5赵瑞雪,黄永文,马玮璐,董文佳,鲜国建,孙坦.ChatGPT对图书馆智能知识服务的启示与思考[J].农业图书情报学报,2023,35(1):29-38. 被引量：45
6冀汶莉,田忠,柴敬,张丁丁,王斌.多属性融合分布式光纤导水裂隙带高度预测方法[J].吉林大学学报（工学版）,2023,53(4):1200-1210.
7蔡子凡,蔚海燕.人工智能生成内容(AIGC)的演进历程及其图书馆智慧服务应用场景[J].图书馆杂志,2023,42(4):34-43. 被引量：40
8杨晔,裴雷,侯凤贞.基于中文医药文本的实体识别和图谱构建[J].中国药科大学学报,2023,54(3):363-371. 被引量：1
9林子洛.基于深度学习语言模型的心理学领域文本分类[J].软件,2023,44(7):112-118. 被引量：2
10王云艳,朱镇中,熊超.结合注意力机制与路径聚合的多视图三维重建[J].重庆理工大学学报（自然科学）,2023,37(10):127-135. 被引量：1

同被引文献4

1刘晓.一种基于Vue的云管理平台前端优化方法[J].冶金自动化,2022,46(S01):214-218. 被引量：2
2杨金锋,李凯涛,贾桂敏,师一华.基于DNN-HMM的陆空通话声学模型构建方法[J].中国民航大学学报,2019,37(4):36-40. 被引量：2
3孙颖馨.一种用于增强拼接图像成像质量的数据处理系统[J].现代电子技术,2019,42(24):88-91. 被引量：3
4余华,颜丙聪.基于CTC-RNN的语音情感识别方法[J].电子器件,2020,43(4):934-937. 被引量：5

引证文献1

1邵武,李岩,于蛟.刑事案件现场移动勘查系统研究[J].辽宁警察学院学报,2024,26(1):89-93.

1邹磊,高健,曹文涛.一种基于要素自动生成地理实体的方法[J].城市勘测,2022(6):84-87. 被引量：1
2孟令东,邱蓓琳,刘琼馨,陈康,张维.面向计量图的统一图计算编程模型设计与实现[J].中文科技期刊数据库（引文版）工程技术,2022(11):0045-0048.
3孙华.环境监测在大气污染治理中的作用及策略试析[J].中文科技期刊数据库（全文版）自然科学,2021(5):0043-0044.
4谭琪辉,周兰江,张建安.融合语义信息的汉老双语句子对齐方法[J].中文信息学报,2023,37(1):79-87.
5席宁丽,朱丽佳,王录通,陈俊,万晓容.一种Word2vec构建词向量模型的实现方法[J].电脑与信息技术,2023,31(1):43-46. 被引量：5
6Tie naming rights sponsor of Detroits Cobo Center,Chemica,Bank,has merged witi TCF BankAs part of tie merger,TCF Bank announced die renaming of Detroit's convention center to TCF Center"It is an exciting time for tie venue and city",said Caude Moinari,genera,manager SMG/TCF Center"This naming rights contract wi,hep deveop more business for tie faciity,wiich wi,mean more jobs for oca,residentsProviding jobs is criticay important to our mission".资讯行业[J].出展世界（中英文版）,2019(5):10-13.
7戴志辉,杨鑫,刘悦,杨辉,杨雨熹,吴道钰.基于增量学习优化的故障录波文件通道名称识别方法[J].电力系统保护与控制,2023,51(4):148-156. 被引量：2
8胡清丰,魏赟,邬春学.基于指针生成网络的中文对话文本摘要模型[J].计算机系统应用,2023,32(1):224-232.
9中共中央国务院关于构建数据基础制度更好发挥数据要素作用的意见(2022年12月2日)[J].电子政务,2023(1).
10魏晓俊,谭宗颖,苏娜平.语句层共被引关系内容抽取与分类及其应用研究——以Athar引用语料库为例[J].情报理论与实践,2023,46(2):201-209. 被引量：1

计算机科学

2023年第3期

浏览历史

内容加载中请稍等...

细粒度语义知识图谱增强的中文OOV词嵌入学习被引量：1

参考文献5

二级参考文献23

共引文献13

同被引文献4

引证文献1

相关作者

相关机构

相关主题

浏览历史

细粒度语义知识图谱增强的中文OOV词嵌入学习 被引量：1

参考文献5

二级参考文献23

共引文献13

同被引文献4

引证文献1

相关作者

相关机构

相关主题

浏览历史

细粒度语义知识图谱增强的中文OOV词嵌入学习被引量：1