基于多通道多步融合的生成式视觉对话模型

Multi-channel multi-step integration model for generative visual dialogue

下载PDF

导出

摘要当前视觉对话任务在多模态信息融合和推理方面取得了较大进展,但是,在回答一些涉及具有比较明确语义属性和位置空间关系的问题时,主流模型的能力依然有限。比较少的主流模型在正式响应之前能够显式地提供有关图像内容的、语义充分的细粒度表达。视觉特征表示与对话历史、当前问句等文本语义之间缺少必要的、缓解语义鸿沟的桥梁,因此提出一种基于多通道多步融合的视觉对话模型MCMI。该模型显式提供一组关于视觉内容的细粒度语义描述信息,并通过“视觉−语义−对话”历史三者相互作用和多步融合,能够丰富问题的语义表示,实现较为准确的答案解码。在VisDial v0.9/VisDial v1.0数据集中,MCMI模型较基准模型双通道多跳推理模型(DMRM),平均倒数排名(MRR)分别提升了1.95和2.12个百分点,召回率(R@1)分别提升了2.62和3.09个百分点,正确答案平均排名(Mean)分别提升了0.88和0.99;在VisDial v1.0数据集中,较最新模型UTC(Unified Transformer Contrastive learning model),MRR、R@1、Mean分别提升了0.06百分点,0.68百分点和1.47。为了进一步评估生成对话的质量,提出类图灵测试响应通过比例M1和对话质量分数(五分制)M2两个人工评价指标。在VisDial v0.9数据集中,相较于基准模型DMRM,MCMI模型的M1和M2指标分别提高了9.00百分点和0.70。 Visual dialogue task has made significant progress in multimodal information fusion and inference.However,the ability of mainstream models is still limited when answering questions that involve relatively clear semantic attributes and spatial relationships.A relatively few mainstream models can explicitly provide fine-grained semantic representation of image content before formal response.There is a lack of necessary bridges to the semantic gap between visual feature representation and text semantics such as dialogue history and current questions.Therefore,a visual dialogue model based on Multi-Channel and Multi-step Integration(MCMI)was proposed to explicitly provide a set of fine-grained semantic description information about visual content.Through the interactions and multi-step integration among vision,semantics and dialogue history,the semantic representation of questions was enriched and more accurate decoded answers were achieved.On VisDial v0.9/VisDial v1.0 datasets,compared to Dual-channel Multi-hop Reasoning Model(DMRM),the proposed MCMI model improved Mean Reciprocal Ranking(MRR)by 1.95 and 2.12 percentage points respectively,Recall Rate(R@1)by 2.62 and 3.09 percentage points respectively,and Mean ranking of correct answers(Mean)by 0.88 and 0.99 respectively;On VisDial v1.0 dataset,compared to the latest Unified Transformer Contrastive learning model(UTC),MCMI model improved the MRR,R@1,Mean by 0.06 percentage points,0.68 percentage points,and 1.47 respectively.In order to further evaluate the quality of generated dialogue,two subjective indicators are proposed.They are the Turing-test passing proportion M1 and the dialogue quality score(five point scale)M2.When compared with baseline model DMRM in the VisDial v0.9 dataset,MCMI model improved M1 by 9.00 percentage points and M2 by 0.70.

作者陈思航江爱文崔朝阳王明文 CHEN Sihang;JIANG Aiwen;CUI Zhaoyang;WANG Mingwen(School of Computer and Information Engineering,Jiangxi Normal University,Nanchang Jiangxi 330022,China)

机构地区江西师范大学计算机信息工程学院

出处《计算机应用》 CSCD 北大核心 2024年第1期39-46,共8页 journal of Computer Applications

基金国家自然科学基金资助项目(61966018)。

关键词视觉对话生成式任务视觉语义描述多步融合多通道融合 visual dialogue generative task visual semantic description multi-step integration multi-channel fusion

分类号 TP389.1 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献1

1魏忠钰,范智昊,王瑞泽,承怡菁,赵王榕,黄萱菁.从视觉到文本:图像描述生成的研究进展综述[J].中文信息学报,2020(7):19-29. 被引量：13

共引文献12

1李小瑞,谢诚,李宾,柳青,胡健龙.基于知识元模型的跨模态聊天卡通表情图像合成[J].图学学报,2021,42(6):908-916. 被引量：1
2侯丽君,倪建成,张素素.改进条件生成对抗网络的文本生成图像方法[J].曲阜师范大学学报（自然科学版）,2022,48(2):63-70.
3王宇航,张灿龙,李志欣,王智文.体现用户意图和风格的图像描述生成[J].广西师范大学学报（自然科学版）,2022,40(4):91-103.
4吴佩伦,蒋勇,高琳.融合视觉特征和语义关系特征的视觉故事生成方法[J].西南科技大学学报,2022,37(3):44-51.
5林椹尠,冯菲蓉.一种用于图像描述的高效编码方法[J].西安邮电大学学报,2022,27(3):77-83. 被引量：1
6武光利,郭振洲,李雷霆.融合自上而下和自下而上注意力的图像描述生成[J].科学技术与工程,2022,22(32):14313-14320. 被引量：3
7蔺泽浩,李国趸,曾祥极,邓悦,张寅,庄越挺.基于跨媒体解纠缠表示学习的风格化图像描述生成[J].计算机学报,2022,45(12):2510-2527. 被引量：1
8牛凯,王鹏.视觉-语言导航的研究进展与发展趋势[J].计算机辅助设计与图形学学报,2022,34(12):1815-1827. 被引量：1
9彭姣丽.基于深度学习的自动生成图像描述技术研究[J].中国新技术新产品,2023(7):12-14.
10朱翌,李秀.医学图像描述综述:编码、解码及最新进展[J].中国图象图形学报,2023,28(7):1990-2010.

1崔朝阳,江爱文,陈思航,刘长红,王明文.基于BERT模型的多层语义粒度视觉对话算法[J].中文信息学报,2023,37(11):120-130.
2葛同澳,李辉,郭颖,王俊印,周迪.基于双融合框架的多模态3D目标检测算法[J].电子学报,2023,51(11):3100-3110.
3梁丹,张默,马素文,卢洁.深度学习重建算法在磁共振颅脑增强中减少钆喷酸葡胺使用剂量的有效性研究[J].磁共振成像,2023,14(11):136-141.
4陈琪,郭涛,邹俊颖.基于双重视图耦合的自监督图表示学习模型[J].计算机工程与设计,2023,44(12):3738-3744.
5刘文赫,贺琦,高小科,张会生.机械自动装填系统多源异构数字孪生体集成方法[J].中国科技期刊数据库工业A,2024(1):0061-0065.
6张华卫,张文飞,蒋占军,廉敬,吴佰靖.引入上下文信息和Attention Gate的GUS-YOLO遥感目标检测算法[J].计算机科学与探索,2024,18(2):453-464. 被引量：1
7陈广义,谢丽响,胡春峰,王浩,董坤,张璟.多模型迭代重建算法对成人腹部不同实质脏器CT图像质量的影响[J].徐州医科大学学报,2023,43(12):926-930.
8田壮智,班新星,韩少星,段天旭,郑少冬,朱建辉.单晶SiC超精密加工研究进展[J].微纳电子技术,2024,61(1):35-49.
9崔少国,独潇,张宜浩.基于兴趣注意力网络的会话推荐算法[J].电子科技大学学报,2024,53(1):67-75.
10胡媛,邹小敏,谢守美.高校图书馆科研数据管理服务能力评价指标体系研究[J].图书馆理论与实践,2024(1):67-76.

计算机应用

2024年第1期

浏览历史

内容加载中请稍等...

基于多通道多步融合的生成式视觉对话模型

参考文献1

共引文献12

相关作者

相关机构

相关主题

浏览历史