期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
“三维视觉—语言”推理技术的前沿研究与最新趋势
1
作者
雷印杰
徐凯
+5 位作者
郭裕兰
杨鑫
武玉伟
胡玮
杨佳琪
汪汉云
《中国图象图形学报》
CSCD
北大核心
2024年第6期1747-1764,共18页
三维视觉推理的核心思想是对点云场景中的视觉主体间的关系进行理解。非专业用户难以向计算机传达自己的意图,从而限制了该技术的普及与推广。为此,研究人员以自然语言作为语义背景和查询条件反映用户意图,进而与点云的信息进行交互以...
三维视觉推理的核心思想是对点云场景中的视觉主体间的关系进行理解。非专业用户难以向计算机传达自己的意图,从而限制了该技术的普及与推广。为此,研究人员以自然语言作为语义背景和查询条件反映用户意图,进而与点云的信息进行交互以完成相应的任务。此种范式称做“三维视觉—语言”推理,在自动驾驶、机器人导航以及人机交互等众多领域广泛应用,已经成为计算机视觉领域中备受瞩目的研究方向。过去几年间,“三维视觉—语言”推理技术迅猛发展,呈现出百花齐放的趋势,但是目前依然缺乏对最新研究进展的全面总结。本文聚焦于两类最具代表性的研究工作,锚框预测和内容生成类的“三维视觉—语言”推理技术,系统性概括领域内研究的最新进展。首先,本文总结了“三维视觉—语言”推理的问题定义和现存挑战,同时概述了一些常见的骨干网络。其次,本文按照方法所关注的下游场景,对两类“三维视觉—语言”推理技术做了进一步细分,并深入探讨了各方法的优缺点。接下来,本文对比分析了各类方法在不同基准数据集上的性能。最后,本文展望了“三维视觉—语言”推理技术的未来发展前景,以期促进该领域的深入研究与广泛应用。
展开更多
关键词
深度学习
计算机视觉
“三维视觉—语言”推理
跨模态学习
视觉定位
密集字幕生成
视觉问答
场景生成
原文传递
题名
“三维视觉—语言”推理技术的前沿研究与最新趋势
1
作者
雷印杰
徐凯
郭裕兰
杨鑫
武玉伟
胡玮
杨佳琪
汪汉云
机构
四川
大学
电子
信息
学院
国防科技
大学
计算机
学院
国防科技
大学
电子科学
学院
大连理工
大学
计算机
科学与技术
学院
北京理工
大学
计算机
学院
北京
大学
王选
计算机
研究所
西北工业
大学
计算机
学院
信息工程大学计算机与大数据学院/软件学院
出处
《中国图象图形学报》
CSCD
北大核心
2024年第6期1747-1764,共18页
基金
国家自然科学基金项目(U23B2013,62276176)。
文摘
三维视觉推理的核心思想是对点云场景中的视觉主体间的关系进行理解。非专业用户难以向计算机传达自己的意图,从而限制了该技术的普及与推广。为此,研究人员以自然语言作为语义背景和查询条件反映用户意图,进而与点云的信息进行交互以完成相应的任务。此种范式称做“三维视觉—语言”推理,在自动驾驶、机器人导航以及人机交互等众多领域广泛应用,已经成为计算机视觉领域中备受瞩目的研究方向。过去几年间,“三维视觉—语言”推理技术迅猛发展,呈现出百花齐放的趋势,但是目前依然缺乏对最新研究进展的全面总结。本文聚焦于两类最具代表性的研究工作,锚框预测和内容生成类的“三维视觉—语言”推理技术,系统性概括领域内研究的最新进展。首先,本文总结了“三维视觉—语言”推理的问题定义和现存挑战,同时概述了一些常见的骨干网络。其次,本文按照方法所关注的下游场景,对两类“三维视觉—语言”推理技术做了进一步细分,并深入探讨了各方法的优缺点。接下来,本文对比分析了各类方法在不同基准数据集上的性能。最后,本文展望了“三维视觉—语言”推理技术的未来发展前景,以期促进该领域的深入研究与广泛应用。
关键词
深度学习
计算机视觉
“三维视觉—语言”推理
跨模态学习
视觉定位
密集字幕生成
视觉问答
场景生成
Keywords
deep learning
computer vision
3D visual-language understanding
cross-modal learning
visual grounding
dense captioning
visual question answering
scene generation
分类号
TP399 [自动化与计算机技术—计算机应用技术]
原文传递
题名
作者
出处
发文年
被引量
操作
1
“三维视觉—语言”推理技术的前沿研究与最新趋势
雷印杰
徐凯
郭裕兰
杨鑫
武玉伟
胡玮
杨佳琪
汪汉云
《中国图象图形学报》
CSCD
北大核心
2024
0
原文传递
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部