基于对比学习与语言模型增强嵌入的知识图谱补全

Knowledge Graph Completion Based on Contrastive Learning and Language Model-Enhanced Embedding

下载PDF

导出

摘要知识图谱是由各种知识或数据单元经过抽取等处理而组成的一种结构化知识库,用于描述和表示实体、概念、事实和关系等信息。自然语言处理技术的限制和各种知识或信息单元文本本身的噪声都会使信息抽取的准确性受到一定程度的影响。现有的知识图谱补全方法通常只考虑单一结构信息或者文本语义信息,忽略了整个知识图谱中同时存在的结构信息与文本语义信息。针对此问题,提出一种基于语言模型增强嵌入与对比学习的知识图谱补全(KGC)模型。将输入的实体和关系通过预训练语言模型获取实体和关系的文本语义信息,利用翻译模型的距离打分函数捕获知识图谱中的结构信息,使用2种用于对比学习的负采样方法融合对比学习来训练模型以提高模型对正负样本的表征能力。实验结果表明,与基于来自Transformеr的双向编码器表示的知识图谱补全(KG-BERT)模型相比,在WN18RR和FB15K-237数据集上该模型链接预测的排名小于等于10的三元组的平均占比(Hits@10)分别提升了31%和23%,明显优于对比模型。 A knowledge graph is a structured knowledge base comprising various types of knowledge or data units obtained through extraction and other processes.It is used to describe and represent information,such as entities,concepts,facts,and relationships.The limitations of Natural Language Processing(NLP)technology and the presence of noise in the texts of various knowledge or information units affect the accuracy of information extraction.Existing Knowledge Graph Completion(KGC)methods typically account for only single structural information or text semantic information,whereas the structural and text semantic information in the entire knowledge graph is disregarded.Hence,a KGC model based on contrastive learning and language model-enhanced embedding is proposed.The input entities and relationships are obtained using a pretrained language model to obtain the textual semantic information of the entities and relationships.The distance scoring function of the translation model is used to capture the structured information in the knowledge graph.Two negative sampling methods for contrastive learning are used to fuse contrastive learning to train the model to improve its ability to represent positive and negative samples.Experimental results show that compared with the Bidirectional Encoder Representations from Transformers for Knowledge Graph completion(KG-BERT)model,this model improves the average proportion of triple with ranking less than or equal to 10(Hits@10)indicator by 31%and 23%on the WN18RR and FB15K-237 datasets,respectively,thus demonstrating its superiority over other similar models.

作者张洪程李林育杨莉伞晨峻尹春林颜冰于虹张璇 ZHANG Hongchen;LI Linyu;YANG Li;SAN Chenjun;YIN Chunlin;YAN Bing;YU Hong;ZHANG Xuan(Policy Research and Enterprise Management Department,Yunnan Power Grid Co.,Ltd.,Kunming 650032,Yunnan,China;School of Software,Yunnan University,Kunming 650091,Yunnan,China;Electric Power Research Institute,Yunnan Power Grid Co.,Ltd.,Kunming 650217,Yunnan,China;Key Laboratory of Software Engineering of Yunnan Province,Kunming 650091,Yunnan,China;Engineering Research Center of Cyberspace,Kunming 650091,Yunnan,China)

机构地区云南电网有限责任公司政企部云南大学软件学院云南电网有限责任公司电力科学研究院云南省软件工程重点实验室跨境网络空间安全教育部工程研究中心

出处《计算机工程》 CAS CSCD 北大核心 2024年第4期168-176,共9页 Computer Engineering

基金国家自然科学基金(61862063,61502413,61262025) 云南电网有限责任公司创新项目(YNKJXM20222254) 云南省中青年学术和技术带头人后备人才项目(202205AC160040) 云南省院士专家工作站项目(202205AF150006) 云南省科技计划重大专项计划项目(202202AE090066) 云南省教育厅科学研究基金(2023Y0256) 云南大学软件学院“知识驱动智能软件工程科研创新团队”项目。

关键词知识图谱补全知识图谱对比学习预训练语言模型链接预测 Knowledge Graph Completion(KGC) knowledge graph contrastive learning pretrained language model link prediction

分类号 TP399 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1赵博,王宇嘉,倪骥.知识图谱的增强CP分解链接预测方法[J].计算机应用研究,2023,40(5):1396-1401. 被引量：3
2孟小艳,蒋同海,周喜,韩云飞,马博.一种改进的自适应知识图谱嵌入式表示方法[J].计算机应用研究,2021,38(1):39-43. 被引量：9
3吴天波,周欣,程军军,朱晗,何小海.基于位置和注意力联合表示的知识图谱问答[J].计算机工程,2022,48(8):98-104. 被引量：3
4陶天一,王清钦,付聿炜,熊贇,俞枫,苑博.基于知识图谱的金融新闻个性化推荐算法[J].计算机工程,2021,47(6):98-103. 被引量：19
5王昊奋,丁军,胡芳槐,王鑫.大规模企业级知识图谱实践综述[J].计算机工程,2020,46(7):1-13. 被引量：43
6邹长龙,安敬民,李冠宇.基于邻域聚合与CNN的知识图谱实体类型补全[J].计算机工程,2023,49(3):134-141. 被引量：3

二级参考文献23

1刘知远,孙茂松,林衍凯,谢若冰.知识表示学习研究进展[J].计算机研究与发展,2016,53(2):247-261. 被引量：257
2林海伦,王元卓,贾岩涛,张鹏,王伟平.面向网络大数据的知识融合方法综述[J].计算机学报,2017,40(1):1-27. 被引量：87
3漆桂林,高桓,吴天星.知识图谱研究进展[J].情报工程,2017,3(1):4-25. 被引量：221
4方阳,赵翔,谭真,杨世宇,肖卫东.一种改进的基于翻译的知识图谱表示方法[J].计算机研究与发展,2018,55(1):139-150. 被引量：50
5鲍开放,顾君忠,杨静.基于结构与文本联合表示的知识图谱补全方法[J].计算机工程,2018,44(7):205-211. 被引量：10
6官赛萍,靳小龙,贾岩涛,王元卓,程学旗.面向知识图谱的知识推理研究进展[J].软件学报,2018,29(10):2966-2994. 被引量：168
7刘正铭,马宏,刘树新,杨奕卓,李星.一种融合节点文本属性信息的网络表示学习算法[J].计算机工程,2018,44(11):165-171. 被引量：11
8王鑫,邹磊,王朝坤,彭鹏,冯志勇.知识图谱数据管理研究综述[J].软件学报,2019,30(7):2139-2174. 被引量：145
9陈文杰,文奕,张鑫,杨宁,赵爽.一种改进的基于TransE知识图谱表示方法[J].计算机工程,2020,46(5):63-69. 被引量：13
10万美含,熊贇,朱扬勇.基于异质网络层次注意力机制的基因功能预测[J].计算机工程,2020,46(7):43-49. 被引量：1

共引文献74

1李华昱,付亚凤,闫阳,李家瑞.基于LEBERT的多模态领域知识图谱构建[J].计算机系统应用,2022,31(11):79-90. 被引量：2
2赵梓博,王昊,刘友华,张卫,孟镇.多任务环境下融合迁移学习的新冠疫情新闻要素识别研究[J].知识管理论坛,2021(1):2-13. 被引量：1
3田少磊,朱玲,王映辉,张竹绿,于琦,于彤,吴恙,郑婉婷,李敬华.面向基层医疗的云端智慧中医门诊系统构建与应用[J].世界科学技术-中医药现代化,2023,25(7):2287-2296. 被引量：1
4韩少恒,杨家荣.智能制造型企业知识图谱的构建[J].上海电气技术,2022,15(1):60-62.
5余晓蕾,朱笛,王立昊,林军,向剑文.基于知识图谱的嵌入式操作系统测试用例复用推荐模型[J].武汉大学学报（理学版）,2023,69(2):187-194. 被引量：3
6王永康,艾山·吾买尔,顾亚东,何江涛.TransREF:一种改进的基于邻域信息的知识表示模型[J].电子测量技术,2023,46(21):7-15.
7邹鼎杰.基于知识图谱和贝叶斯分类器的图书分类[J].计算机工程与设计,2020,41(6):1796-F0003. 被引量：14
8李悦,孙坦,赵瑞雪,李娇,黄永文,罗婷婷,鲜国建.大规模RDF三元组转换及存储工具比较研究[J].数字图书馆论坛,2020(11):2-12. 被引量：12
9陈亮,杜新宇.结构化数据的关系抽取系统的设计与实现[J].信息技术,2020,44(12):48-52. 被引量：2
10倪政林.基于知识图谱的模糊推理与应用研究[J].安徽职业技术学院学报,2020,19(4):14-18. 被引量：2

1黄智勇,刘昕宇,林仁明,余雅宁,张凤荔.基于知识图谱的网络攻击预测方法研究及应用[J].现代电子技术,2024,47(9):91-96.
2袁立宁,蒋萍,莫嘉颖,刘钊.基于二阶图卷积自编码器的图表示学习[J].计算机工程与应用,2024,60(10):180-187.
3殷浤益,熊友亮,孙全,刘海涛.基于改进YOLOv5的排水管网缺陷识别研究[J].电脑知识与技术,2024,20(10):41-45.
4生命中的永恒旋律[J].疯狂英语（新悦读）,2024(4):14-19.
5李思慧.基于结构及语义信息的知识图谱补全算法[J].长江信息通信,2024,37(4):77-79.
6张翔洲.基于自然语言处理的在线招聘管理系统[J].长江信息通信,2024,37(4):130-132.
7邵亚丽,何晓昀.小样本关系下的时序知识图谱推理[J].物联网技术,2024,14(5):102-106.
8李田芳,普园媛,赵征鹏,徐丹,钱文华.基于CLIP和双空间自适应归一化的图像翻译[J].计算机工程,2024,50(5):229-240.
9许智宏,张天润,王利琴,董永峰.融合图谱重构的时序知识图谱推理[J].计算机工程与应用,2024,60(9):181-187.
10张倩,江训柱,苏杨,赵阳,乔波涛.锐钛矿型TiO_(2)负载Ni单原子用于催化丙烷脱氢[J].Chinese Journal of Catalysis,2024,57(2):105-113.

计算机工程

2024年第4期

浏览历史

内容加载中请稍等...

基于对比学习与语言模型增强嵌入的知识图谱补全

参考文献6

二级参考文献23

共引文献74

相关作者

相关机构

相关主题

浏览历史