视觉问答领域专利现状

下载PDF

导出

摘要概述。早期人工智能领域的研究重点是计算机视觉和自然语言处理。这两个领域分别是以图像和文本为主的单模态研究对象,经过多年的发展,都有了丰富的研究成果。随着单模态的研究越发成熟,研究人员将研究重点转向了多模态的研究对象,视觉问答就是其中之一。视觉问答是以图像和文本形式的问题作为输入,首先分别采用计算机视觉和自然语言处理技术分别分析图像和文本得到相关特征,然后通过特征融合等技术从图像中提取与问题相关的信息,以文本形式输出答案。视觉问答任务主要是对图像进行理解和推理。

作者王琦瑶郝宁

机构地区国家知识产权局专利局专利审查协作北京中心

出处《中国科技信息》 2024年第21期43-46,共4页 China Science and Technology Information

关键词计算机视觉自然语言处理视觉问答特征融合人工智能文本形式多模态单模态

分类号 TP391.41 [自动化与计算机技术—计算机应用技术] TP391.1 [自动化与计算机技术—计算机应用技术] G255.53 [文化科学—图书馆学]

引文网络
相关文献

1曹子凡.说话中的众生之相——评贾平凹长篇小说《暂坐》[J].南腔北调,2024(10):88-91.
2陶鹏宇,姜芊叶,宋文琦,刘晅亚,李今保.动力学仿真技术在消防员火灾场景模拟训练中的设计与应用[J].今日消防,2024,9(8):35-37.
3文泽民.公路工程建设中的质量控制与安全风险管理研究[J].汽车周刊,2024(12):0174-0176.
4赵纪军.基于机器学习的材料设计[J].物理,2024,53(7):450-458.
5杨建旭.应用研发安全性评价体系探索[J].金融电子化,2024(19):74-76.
6胡琳娜,范发才,肖雅松,丁智聪,雷海同.基于网络药理学和分子对接技术分析消喘膏治疗支气管哮喘的潜在作用机制[J].中国民间疗法,2024,32(20):51-55.

中国科技信息

2024年第21期

浏览历史

内容加载中请稍等...

视觉问答领域专利现状

相关作者

相关机构

相关主题

浏览历史