一种基于异构图网络的多模态实体识别方法

Multimodal Name Entity Recognition Method Based on Heterogeneous Graph Network

下载PDF

导出

摘要基于图像信息的辅助,提高从非结构化文本中识别命名实体的准确率,可以有效缓解社交媒体场景中因短文本语义信息不全而产生歧义,图片多却不能发挥作用的问题.尽管现有的研究通常采用跨模态注意力机制合并文本和图像的语义表示,但是大多不能建立一个一致的表示来融合两种模态之间的语义信息,且图像中的冗余信息往往会影响多模态实体识别(Multimodal Name Entity Recognition,MNER)的性能.为了解决这些问题,本文提出了一种基于异构图模型的MNER方法,可以有效利用文本和图像之间的交互信息.具体地,首先,构建了一个基于BERT-BiLSTM-CRF的实体识别模型,识别出文本中可能存在的实体;其次,以文本中可能存在的实体作为两个模态之间的桥梁,设计了一个由Token、实体和视觉对象组成的异构图网络,并定义了两种边来表示相互间的语义关系;最后,基于文本和图像组成的异构图,设计了一种多模态融合模型(MHGT),从而减轻了图像噪声的负面影响.在两个通用的MNER数据集上的实验结果表明,本文提出的多模态实体识别方法在Twitter2015和Twitter2017上分别获得了75.26%和86.51%的F1值,优于基线模型的性能. With the aid of image information,improving the accuracy of identifying entities from unstructured text can effectively alleviate the problem of ambiguity caused by incomplete semantic information in short text in social media scenarios,and solve the problem of too many images but not functioning.Although the existing research often used cross-modal attention mechanism to merge the semantic representations of text and images,most of them cannot establish a consistent representation to fuse the semantic information between the two modes,and the redundant information in images often affects the performance of multimodal name entity recognition(MNER).To address these problems,this paper proposes a MNER method based on heterogeneous graph network,which can effectively utilize the interactive information between text and images.Specifically,firstly,an entity recognition model(BERT-BiLSTM-CRF)is constructed to identify the possible entities in the text;Secondly,a heterogeneous graph network consisting of Tokens,entities and visual objects is designed using the possible entities in the text as a bridge between the two modalities,and two edges are defined to represent the semantic relationships between them;Finally,a multimodal fusion model(MHGT)was designed based on heterogeneous graph composed of text and images,thereby reducing the negative impact of image noise.Experimental results on two publicly MNER datasets show that the proposed MNER method achieved 75.26%F1 on Twitter2015 and 86.51%F1 on Twitter2017,respectively,which are superior to the performance of the baseline models.

作者李代祎张笑文严丽 LI Daiyi;ZHANG Xiaowen;YAN Li(College of Computer Science and Technology,Nanjing University of Aeronautics and Astronautics,Nanjing 211106,China;College of Computer Science and Technology,Zhengzhou University of Light Industry,Zhengzhou 450000,China)

机构地区南京航空航天大学计算机科学与技术学院郑州轻工业大学计算机科学与技术学院

出处《小型微型计算机系统》 CSCD 北大核心 2024年第9期2063-2070,共8页 Journal of Chinese Computer Systems

基金国家自然科学基金项目(62176121,61370075)资助江苏省基础研究计划项目(BK20191274)资助.

关键词多模态实体识别注意力机制异构图模型 BERT 条件随机场 multimodal entity recognition attention mechanism heterogeneous graph network BERT conditional random field

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1孙红,陈强越.融合BERT词嵌入和注意力机制的中文文本分类[J].小型微型计算机系统,2022,43(1):22-26. 被引量：19
2曹建军,聂子博,郑奇斌,吕国俊,曾志贤.跨模态数据实体分辨研究综述[J].软件学报,2023,34(12):5822-5847. 被引量：2

二级参考文献9

1曹建军,刁兴春,汪挺,王芳潇.领域无关数据清洗研究综述[J].计算机科学,2010,37(5):26-29. 被引量：27
2曹建军,刁兴春,杜鹢,王芳潇,张潇毅.基于蚁群特征选择的相似重复记录分类检测[J].兵工学报,2010,31(9):1222-1227. 被引量：8
3谭明超,刁兴春,曹建军.实体分辨研究综述[J].计算机科学,2014,41(4):9-12. 被引量：10
4樊花,陈华辉.基于哈希方法的跨模态检索研究进展[J].数据通信,2018(3):39-45. 被引量：4
5尚玉玲,曹建军,李红梅,郑奇斌.基于合作作者与隶属机构信息的同名排歧方法[J].计算机科学,2018,45(11):220-225. 被引量：6
6彭宇新,綦金玮,黄鑫.多媒体内容理解的研究现状与展望[J].计算机研究与发展,2019,56(1):183-208. 被引量：34
7杨朝强,邵党国,杨志豪,相艳,马磊.多特征融合的中文短文本分类模型[J].小型微型计算机系统,2020,41(7):1421-1426. 被引量：12
8俞荣华,田增平,周傲英.一种检测多语言文本相似重复记录的综合方法[J].计算机科学,2002,29(1):118-121. 被引量：26
9熊昊哲,谢良.面向Web图像检索的语义关联多模态哈希方法[J].武汉理工大学学报,2016,38(8):71-75. 被引量：3

共引文献19

1黄忠祥,李明.ALBERT结合双向网络的文本分类[J].计算机与现代化,2022(10):8-12.
2李代祎,李忠良,严丽.一种面向中文的实体关系联合抽取方法研究[J].小型微型计算机系统,2022,43(12):2479-2486. 被引量：5
3刘豪,卓广平,乔俊福,张光华.基于领域情感词典与字词特征融合的中文抑郁症文本分类方法[J].中北大学学报（自然科学版）,2022,43(6):522-529. 被引量：3
4黄学坚,刘雨飏,马廷淮.基于改进型图神经网络的学术论文分类模型[J].数据分析与知识发现,2022,6(10):93-102. 被引量：4
5汤英杰,刘媛华.基于预训练模型融合深层特征词向量的中文文本分类[J].上海理工大学学报,2023,45(2):189-197. 被引量：2
6胡文烨,许鸿奎,郭旭斌,赵京政.基于词嵌入和BiLCNN-Attention混合模型的政务文本分类方法[J].计算机时代,2023(6):92-95. 被引量：1
7赵悦阳,崔雷.文本嵌入技术的研究与应用进展[J].数据与计算发展前沿,2023,5(3):92-110. 被引量：2
8崔雨萌,王靖亚,刘晓文,闫尚义,陶知众.融合注意力和裁剪机制的通用文本分类模型[J].计算机应用,2023,43(8):2396-2405.
9原明君,江开忠.结合双预训练语言模型的中文文本分类模型[J].智能计算机与应用,2023,13(7):1-6.
10陈丽春.结合ERNIE2.0和多尺度网络的数字图书馆文本分类研究[J].电子设计工程,2023,31(19):1-5.

1张卓群,王荣波,黄孝喜.面向医疗领域的意图识别方法研究[J].软件工程,2024,27(9):1-5.
2张添植,周刚,刘洪波,刘铄,陈静.基于文本和图像门控融合机制的多模态方面级情感分析[J].计算机科学,2024,51(9):242-249.
3吴志强,梁靖,贾蔚怡,黑静好,张少涵,陈帆,徐浩文,范思琦,纪星桦.“城元宇宙”:元宇宙赋能未来城市设计[J].城市规划学刊,2024(4):11-17.
4程子源,王国栋.基于Transformer的不可知类计数方法[J].青岛大学学报（工程技术版）,2024,39(2):17-23.
5管允粽.基于SBAS-InSAR的夹岩水库大坝变形监测与分析[J].吉林水利,2024(9):41-44.
6孟伟伦,郭景峰,邢珂萱,魏宁,王巧梭,刘滨.基于字形特征的中文医学命名实体识别方法[J].电子学报,2024,52(6):1945-1954.
7Zhengjie Liu,Xingyuan Xu,Shuang Huang,Xinshuo Huang,Zhibo Liu,Chuanjie Yao,Mengyi He,Jiayi Chen,Hui-jiuan Chen,Jing Liu,Xi Xie.Multichannel microneedle dry electrode patches for minimally invasive transdermal recording of electrophysiological signals[J].Microsystems & Nanoengineering,2024,10(3):119-136.
8黄威,沈耀迪,陈松龄,傅湘玲.CFGT:一种基于词典的中文地址要素解析模型[J].计算机科学,2024,51(9):233-241.
9王鹏飞,谷林.电梯安全事故领域命名实体识别研究[J].计算机与数字工程,2024,52(6):1783-1787.
10王雅琦,俞婷,梁田,余振洋,陈鑫磊.基于兼容性感知的服务推荐方法研究[J].软件工程与应用,2024,13(4):447-454.

小型微型计算机系统

2024年第9期

浏览历史

内容加载中请稍等...

一种基于异构图网络的多模态实体识别方法

参考文献2

二级参考文献9

共引文献19

相关作者

相关机构

相关主题

浏览历史