-
题名跨模态视觉问答与推理研究进展
- 1
-
-
作者
张飞飞
张建庆
屈思佳
周琬婷
-
机构
天津理工大学计算机科学与工程学院
北京邮电大学人工智能学院
-
出处
《数据采集与处理》
CSCD
北大核心
2023年第1期1-20,共20页
-
基金
国家重点研发计划(2018AAA0102200)
国家自然科学基金(62036012,62002355,61832002,62072455,62102415,62106262,62006227)
北京自然科学基金(L201001)。
-
文摘
随着社交媒体和人机交互技术的快速发展,视频、图像以及文本等多模态数据在互联网中呈爆炸式增长,因此多模态智能研究受到关注。其中,视觉问答与推理任务是跨模态智能研究的一个重要组成部分,也是人类实现人工智能的重要基础,已成功应用于人机交互、智能医疗以及无人驾驶等领域。本文对视觉问答与推理的相关算法进行了全面概括和归类分析。首先,介绍了视觉问答与推理的定义,并简述了当前该任务面临的挑战;其次,从基于注意力机制、基于图网络、基于预训练、基于外部知识库和基于可解释推理机制5个方面对现有方法进行总结和归纳;然后,全面介绍了视觉问答与推理常用公开数据集,并对相关数据集上的已有算法进行详细分析;最后,对视觉问答与推理任务的未来方向进行了展望。
-
关键词
视觉问答
视觉常识推理
可解释推理
语义对齐
-
Keywords
visual question answering
visual commonsense reasoning
explainable reasoning
semantic alignment
-
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
-
-
题名以图像视频为中心的跨媒体分析与推理
被引量:1
- 2
-
-
作者
黄庆明
王树徽
许倩倩
李亮
蒋树强
-
机构
中国科学院大学计算机科学与技术学院
中国科学院计算技术研究所智能信息处理实验室
-
出处
《智能系统学报》
CSCD
北大核心
2021年第5期834-848,共15页
-
基金
科技创新2030-新一代人工智能重大项目(2018AAA0102000)
国家自然科学基金项目(62022083,61976202,61771457,61732007).
-
文摘
如何跨越从跨媒体数据到跨媒体知识所面临的“异构鸿沟”和“语义鸿沟”,对体量巨大的跨媒体数据进行有效管理与利用,是发展新一代人工智能亟待突破的瓶颈问题。针对以图像视频为代表的海量网络跨媒体内容,借鉴人类感知与认知机理,本文对跨媒体内容统一表征与符号化表征、跨媒体深度关联理解、类人跨媒体智能推理等关键技术开展研究。基于上述关键技术,着力于解决发展新一代人工智能的知识匮乏共性难题,开展大规模跨媒体知识图谱的构建及人机协同标注技术研究,为跨媒体感知进阶到认知提供关键支撑,进一步为跨媒体理解、检索、内容转换生成等跨媒体内容管理与服务热点应用领域提供了可行思路。
-
关键词
跨媒体
图像视频
统一表征
关联理解
可解释推理
人机协同
知识图谱
内容管理与服务
-
Keywords
cross-media
image video
unified representation
correlative understanding
explainable reasoning
Humancomputer collaboration
knowledge graph
content management and service
-
分类号
TP37
[自动化与计算机技术—计算机系统结构]
-
-
题名基于大规模语言模型的知识图谱可微规则抽取
被引量:1
- 3
-
-
作者
潘雨黛
张玲玲
蔡忠闽
赵天哲
魏笔凡
刘均
-
机构
西安交通大学计算机科学与技术学院
陕西省大数据知识工程重点实验室
西安交通大学系统工程研究所
-
出处
《计算机科学与探索》
CSCD
北大核心
2023年第10期2403-2412,共10页
-
基金
国家重点研发计划(2022YFC3303600)
国家自然科学基金(62137002,62293550,62293553,62293554,61937001,62250066,62176209,62176207,62106190,62192781,62250009)
+5 种基金
国家自然科学基金创新研究群体项目(61721002)
教育部创新团队项目(IRT_17R86)
国家科技重点实验室基金
陕西省自然科学基金(2023-JC-YB-593)
陕西省高校青年创新团队项目
中央高校基本科研业务费专项资金(xhj032021013-02)。
-
文摘
知识图谱上的推理是预测不完整三元组中缺失的实体或关系,对结构化知识进行补全,并用于不同下游任务的过程。不同于被普遍研究的黑盒方法,如基于表示学习的推理方法,基于规则抽取的推理方法通过从知识图谱中泛化出一阶逻辑规则,实现一种可解释的推理范式。为解决离散的符号空间与连续的嵌入空间之间的鸿沟,提出一种基于大规模预训练语言模型的知识图谱可微规则抽取方法DRaM,将离散的一阶逻辑规则与连续的向量空间进行融合。针对规则中的原子公式顺序对推理过程产生的影响,通过引入大规模预训练语言模型对推理过程进行编码来解决。融合一阶逻辑规则的可微推理方法DRaM,在三个知识图谱数据集Family、Kinship和UMLS上进行的链接预测任务获得了较好的结果,尤其针对链接预测指标Hits@10,DRaM获得了最佳的推理结果。实验结果表明,DRaM能够有效地解决知识图谱上可微推理存在的问题,并且可以从推理过程中抽取带有置信度的一阶逻辑规则。DRaM不仅通过一阶逻辑规则增强了推理效果,同时增强了方法的可解释性。
-
关键词
知识图谱上的推理
一阶逻辑规则
大规模语言模型(LLM)
可解释推理
-
Keywords
knowledge graph reasoning
first-order logic rule
large language model(LLM)
interpretable reasoning
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-