摘要
概述。早期人工智能领域的研究重点是计算机视觉和自然语言处理。这两个领域分别是以图像和文本为主的单模态研究对象,经过多年的发展,都有了丰富的研究成果。随着单模态的研究越发成熟,研究人员将研究重点转向了多模态的研究对象,视觉问答就是其中之一。视觉问答是以图像和文本形式的问题作为输入,首先分别采用计算机视觉和自然语言处理技术分别分析图像和文本得到相关特征,然后通过特征融合等技术从图像中提取与问题相关的信息,以文本形式输出答案。视觉问答任务主要是对图像进行理解和推理。
出处
《中国科技信息》
2024年第21期43-46,共4页
China Science and Technology Information