期刊文献+
共找到18篇文章
< 1 >
每页显示 20 50 100
面向多模态交互式融合与渐进式优化的三维视觉理解
1
作者 何鸿添 陈晗 +3 位作者 刘洋 周礼亮 张敏 雷印杰 《计算机应用研究》 CSCD 北大核心 2024年第5期1554-1561,共8页
三维视觉理解旨在智能地感知和解释三维场景,实现对物体、环境和动态变化的深入理解与分析。三维目标检测作为其核心技术,发挥着不可或缺的作用。针对当前的三维检测算法对于远距离目标和小目标检测精度较低的问题,提出了一种面向多模... 三维视觉理解旨在智能地感知和解释三维场景,实现对物体、环境和动态变化的深入理解与分析。三维目标检测作为其核心技术,发挥着不可或缺的作用。针对当前的三维检测算法对于远距离目标和小目标检测精度较低的问题,提出了一种面向多模态交互式融合与渐进式优化的三维目标检测方法MIFPR。在特征提取阶段,首先引入自适应门控信息融合模块。通过把点云的几何特征融入图像特征中,能够获取对光照变化更有辨别力的图像表示。随后提出基于体素质心的可变形跨模态注意力模块,以驱使图像中丰富的语义特征和上下文信息融合到点云特征中。在目标框优化阶段,提出渐进式注意力模块,通过学习、聚合不同阶段的特征,不断增强模型对于精细化特征的提取与建模能力,逐步优化目标框,以提升对于远距离、小目标的检测精度,进而提高对于视觉场景理解的能力。在KITTI数据集上,所提方法对于pedestrian和cyclist等小目标的检测精度较最优基线有明显提升,证实了该方法的有效性。 展开更多
关键词 三维视觉理解 多模态 交互式融合 渐进式注意力 目标检测
下载PDF
基于HMMs的人体姿态图像视觉理解研究 被引量:1
2
作者 唐轶峻 汤一平 隋成华 《激光与红外》 CAS CSCD 北大核心 2005年第10期791-793,共3页
利用隐马尔可夫模型(HMMs),对CCD摄像机采集的人体运动视频图像中的人体姿态识别问题进行了研究,主要内容包括选择新的特征向量抽取算法;设计HMM训练和识别算法。实验结果表明,该方法在实践中是可行的。在虚拟现实、视觉监控、感知接口... 利用隐马尔可夫模型(HMMs),对CCD摄像机采集的人体运动视频图像中的人体姿态识别问题进行了研究,主要内容包括选择新的特征向量抽取算法;设计HMM训练和识别算法。实验结果表明,该方法在实践中是可行的。在虚拟现实、视觉监控、感知接口等领域均有着广阔的应用前景。 展开更多
关键词 人的运动姿态 计算机视觉 视觉理解
下载PDF
一种基于视觉理解的交通流量统计算法 被引量:1
3
作者 王文华 王夏黎 袁绍欣 《微型机与应用》 2014年第18期35-38,44,共5页
传统的基于视频的交通流量统计算法需要对流量统计区域属性及换算参数进行设置,设置方法复杂繁琐,灵活性差,应用有局限性。针对这一问题,结合人类统计目标数目的思想,提出了一种基于视觉理解的交通流量统计算法,无需设定流量统计区域就... 传统的基于视频的交通流量统计算法需要对流量统计区域属性及换算参数进行设置,设置方法复杂繁琐,灵活性差,应用有局限性。针对这一问题,结合人类统计目标数目的思想,提出了一种基于视觉理解的交通流量统计算法,无需设定流量统计区域就能完成流量统计。该算法使用帧间差分法检测出动态目标,通过Camshift与Kalman滤波相结合的方式完成目标跟踪,再通过对跟踪目标运动的分析来对交通流数目进行校正更新,最后获得交通流量数据。实验表明,提出的算法具有较好的统计效果。 展开更多
关键词 图像处理 帧间差分 视觉理解 交通流量统计 目标跟踪
下载PDF
基于 DSP 通用处理板的 ALV 二维视觉理解系统
4
作者 刘高平 顾伟康 叶秀清 《浙江大学学报(自然科学版)》 CSCD 1998年第6期739-744,共6页
二维视觉理解是地面自主车(ALV)中关键技术之一.本文主要从体系结构方面介绍一种基于DSP通用处理板的ALV二维视觉理解系统.
关键词 视觉理解系统 通用处理板 智能机器人 DSP ALV
下载PDF
应用于艺术辅助设计的场景视觉理解算法研究 被引量:1
5
作者 陆凯 苗腾辉 《现代电子技术》 北大核心 2020年第9期37-40,共4页
针对原有艺术辅助设计中对已知视觉场景图像信息提取不准确,造成输出图像不清晰的问题,研究一种基于场景视觉理解算法的艺术辅助设计方法。对已知视觉场景图像按照设定阈值进行颜色分割,形态学处理分割后图像,减小噪声以及断裂影响获取... 针对原有艺术辅助设计中对已知视觉场景图像信息提取不准确,造成输出图像不清晰的问题,研究一种基于场景视觉理解算法的艺术辅助设计方法。对已知视觉场景图像按照设定阈值进行颜色分割,形态学处理分割后图像,减小噪声以及断裂影响获取的连通区域,制定提取规则筛选候选区域。采用致密采样的形式提取候选区域内更多的SIFT目标特征,匹配特征点,将已知图像信息坐标系整合成统一坐标系,输出设计图像,完成艺术辅助设计。仿真实验结果表明,基于场景视觉理解算法的艺术辅助设计方法较原有方法对已知图像的信息提取更准确,有助于解决输出图像清晰的问题,提高了图像的整体设计效果。 展开更多
关键词 视觉场景理解算法 目标分割 目标识别 计算机辅助设计 艺术设计 视觉场景提取 场景分类
下载PDF
基于计算机视觉的电力作业人员行为分析研究现状与展望
6
作者 闫云凤 陈汐 +3 位作者 金浩远 齐冬莲 储海东 汪金维 《高电压技术》 EI CAS CSCD 北大核心 2024年第5期1842-1854,共13页
电力作业人员的有效监管是保障电力安全生产的基础。该文对电力视频中作业人员的行为识别研究进行了归类总结,涵盖静态行为分析(穿戴分析、动作分析和组合分析)和动态行为分析(复杂动作、时序行为和行为预测等);详细综述了电力作业行为... 电力作业人员的有效监管是保障电力安全生产的基础。该文对电力视频中作业人员的行为识别研究进行了归类总结,涵盖静态行为分析(穿戴分析、动作分析和组合分析)和动态行为分析(复杂动作、时序行为和行为预测等);详细综述了电力作业行为分析中的核心算法模块,包括目标检测、姿态估计和视频跟踪等;论述了电力作业行为识别在算法高效性、鲁棒性、灵活性等方面所面临的应用难点和挑战,并展望了电力作业行为智能监控领域的未来发展方向,特别强调了在软硬件结合、通用大模型、生成式人工智能方面进行技术创新和改进所蕴含的潜在机会。 展开更多
关键词 行为分析 视觉理解 电力监控 目标检测 姿态估计 视频跟踪 行为预测
下载PDF
面向复杂场景的人物视觉理解技术 被引量:1
7
作者 马利庄 吴飞 +2 位作者 毛启容 王鹏杰 陈玉珑 《中国图象图形学报》 CSCD 北大核心 2022年第6期1723-1742,共20页
面向复杂场景的人物视觉理解技术能够提升社会智能化协作效率,加速社会治理智能化进程,并在服务人类社会的经济活动、建设智慧城市等方面展现出巨大活力,具有重大的社会效益和经济价值。人物视觉理解技术主要包括实时人物识别、个体行... 面向复杂场景的人物视觉理解技术能够提升社会智能化协作效率,加速社会治理智能化进程,并在服务人类社会的经济活动、建设智慧城市等方面展现出巨大活力,具有重大的社会效益和经济价值。人物视觉理解技术主要包括实时人物识别、个体行为分析与群体交互理解、人机协同学习、表情与语音情感识别和知识引导下视觉理解等,当环境处于复杂场景中,特别是考虑“人物—行为—场景”整体关联的视觉表达与理解,相关问题的研究更具有挑战性。其中,大规模复杂场景实时人物识别主要集中在人脸检测、人物特征理解以及场景分析等,是复杂场景下人物视觉理解技术的重要研究基础;个体行为分析与群体交互理解主要集中在视频行人重识别、视频动作识别、视频问答和视频对话等,是视觉理解的关键行为组成部分;同时,在个体行为分析和群体交互理解中,形成综合利用知识与先验的机器学习模式,包含视觉问答对话、视觉语言导航两个重点研究方向;情感的识别与合成主要集中在人脸表情识别、语音情感识别与合成以及知识引导下视觉分析等方面,是情感交互的核心技术。本文围绕上述核心关键技术,阐述复杂场景下人物视觉理解领域的研究热点与应用场景,总结国内外相关成果与进展,展望该领域的前沿技术与发展趋势。 展开更多
关键词 复杂场景 视觉理解 人物识别 深度学习 行为分析
原文传递
智能视觉感知与理解研究态势分析 被引量:8
8
作者 张迪 鲁宁 +2 位作者 李宜展 滕飞 王丽 《计算机工程与应用》 CSCD 北大核心 2018年第19期18-25,33,共9页
智能视觉感知与理解技术是人工智能、智慧城市、智慧交通、智能安防等领域的重要研究内容,具有重要的战略意义。介绍了各国智能视觉感知与理解相关政策规划,统计分析了中国国家自然科学基金相关规划项目;对大范围视频视觉感知与理解领... 智能视觉感知与理解技术是人工智能、智慧城市、智慧交通、智能安防等领域的重要研究内容,具有重要的战略意义。介绍了各国智能视觉感知与理解相关政策规划,统计分析了中国国家自然科学基金相关规划项目;对大范围视频视觉感知与理解领域以及无人平台视觉感知与理解领域的Web of Science数据库收录论文进行了分析,对IBM、Google、华为、百度等领域主要公司相关产品进行了调研;从学术和产业两个角度,分别总结了智能视觉感知与理解的研究热点和发展态势。 展开更多
关键词 视觉感知与理解 大范围 无人平台 政策规划 研究态势 产业应用
下载PDF
计算机视觉在球类机器人和行为理解研究中的应用与发展 被引量:2
9
作者 齐丙辰 大川善邦 《中国图象图形学报(A辑)》 CSCD 1998年第9期770-773,共4页
智能机器人是当今机器人研究的热点,并逐渐由制造领域向非制造领域发展。本文以几种国内外近年研制的新型球类运动机器人为例,介绍了计算机视觉在智能机器人研究中的应用情况。另外,有关人与机器人之间的视觉行为理解研究是计算机视... 智能机器人是当今机器人研究的热点,并逐渐由制造领域向非制造领域发展。本文以几种国内外近年研制的新型球类运动机器人为例,介绍了计算机视觉在智能机器人研究中的应用情况。另外,有关人与机器人之间的视觉行为理解研究是计算机视觉研究与智能机器人研究领域的新发展,本文对此也进行了介绍。 展开更多
关键词 计算机视觉 智能机器人 视觉行为理解
下载PDF
视觉场景理解综述 被引量:3
10
作者 王忠民 王星 +1 位作者 李刚 张福涛 《西安邮电大学学报》 2019年第1期1-15,共15页
视觉场景理解是机器视觉与自然语言处理相融合的热点问题,实现场景理解将有助于盲人辅助系统、智能机器人交互、以及无人驾驶等领域研究的发展。从视觉场景理解的基本概念出发,介绍了视觉场景理解技术的相关理论及最新研究成果,并对基... 视觉场景理解是机器视觉与自然语言处理相融合的热点问题,实现场景理解将有助于盲人辅助系统、智能机器人交互、以及无人驾驶等领域研究的发展。从视觉场景理解的基本概念出发,介绍了视觉场景理解技术的相关理论及最新研究成果,并对基于搜索的模型、基于模板匹配的模型和基于编码-解码框架的模型、以及基于注意力模型的模型进行详细描述与分析。讨论视觉场景理解的最新技术动态,分析视觉场景理解的发展趋势并指出未来研究方向。 展开更多
关键词 视觉场景理解 机器视觉 注意力模型
下载PDF
视觉语言导航研究进展 被引量:1
11
作者 司马双霖 黄岩 +3 位作者 何科技 安东 袁辉 王亮 《自动化学报》 EI CAS CSCD 北大核心 2023年第1期1-14,共14页
视觉语言导航,即在一个未知环境中,智能体从一个起始位置出发,结合指令和周围视觉环境进行分析,并动态响应生成一系列动作,最终导航到目标位置.视觉语言导航有着广泛的应用前景,该任务近年来在多模态研究领域受到了广泛关注.不同于视觉... 视觉语言导航,即在一个未知环境中,智能体从一个起始位置出发,结合指令和周围视觉环境进行分析,并动态响应生成一系列动作,最终导航到目标位置.视觉语言导航有着广泛的应用前景,该任务近年来在多模态研究领域受到了广泛关注.不同于视觉问答和图像描述生成等传统多模态任务,视觉语言导航在多模态融合和推理方面,更具有挑战性.然而由于传统模仿学习的缺陷和数据稀缺的现象,模型面临着泛化能力不足的问题.系统地回顾了视觉语言导航的研究进展,首先对于视觉语言导航的数据集和基础模型进行简要介绍;然后全面地介绍视觉语言导航任务中的代表性模型方法,包括数据增强、搜索策略、训练方法和动作空间四个方面;最后根据不同数据集下的实验,分析比较模型的优势和不足,并对未来可能的研究方向进行了展望. 展开更多
关键词 视觉语言导航 视觉语言理解 跨模态匹配 具身智能
下载PDF
恶劣场景下视觉感知与理解综述
12
作者 汪文靖 杨文瀚 +2 位作者 方玉明 黄华 刘家瑛 《中国图象图形学报》 CSCD 北大核心 2024年第6期1667-1684,共18页
恶劣场景下采集的图像与视频数据存在复杂的视觉降质,一方面降低视觉呈现与感知体验,另一方面也为视觉分析理解带来了很大困难。为此,系统地分析了国际国内近年恶劣场景下视觉感知与理解领域的重要研究进展,包括图像视频与降质建模、恶... 恶劣场景下采集的图像与视频数据存在复杂的视觉降质,一方面降低视觉呈现与感知体验,另一方面也为视觉分析理解带来了很大困难。为此,系统地分析了国际国内近年恶劣场景下视觉感知与理解领域的重要研究进展,包括图像视频与降质建模、恶劣场景视觉增强、恶劣场景下视觉分析理解等技术。其中,视觉数据与降质建模部分探讨了不同降质场景下的图像视频与降质过程建模方法,涵盖噪声建模、降采样建模、光照建模和雨雾建模。传统恶劣场景视觉增强部分探讨了早期非深度学习的视觉增强算法,包括直方图均衡化、视网膜大脑皮层理论和滤波方法等。基于深度学习模型的恶劣场景视觉增强部分则以模型架构创新的角度进行梳理,探讨了卷积神经网络、Transformer模型和扩散模型等架构。不同于传统视觉增强的目标为全面提升人眼对图像视频的视觉感知效果,新一代视觉增强及分析方法考虑降质场景下机器视觉对图像视频的理解性能。恶劣场景下视觉理解技术部分探讨了恶劣场景下视觉理解数据集和基于深度学习模型的恶劣场景视觉理解,以及恶劣场景下视觉增强与理解协同计算。论文详细综述了上述研究的挑战性,梳理了国内外技术发展脉络和前沿动态。最后,根据上述分析展望了恶劣场景下视觉感知与理解的发展方向。 展开更多
关键词 恶劣场景 视觉感知 视觉理解 图像视频增强 图像视频处理 深度学习
原文传递
浅谈计算机视觉技术进展及其新兴应用 被引量:18
13
作者 余京蕾 《北京联合大学学报》 CAS 2020年第1期63-69,共7页
针对人工智能领域的计算机视觉方向,分别从视觉感知和视觉生成两个维度分析计算机视觉技术的最新进展,包含但不限于表示学习、识别分类、目标检测、图像分割、像素级别的图像与视频生成以及视觉与语言等技术。在计算机视觉技术的新兴应... 针对人工智能领域的计算机视觉方向,分别从视觉感知和视觉生成两个维度分析计算机视觉技术的最新进展,包含但不限于表示学习、识别分类、目标检测、图像分割、像素级别的图像与视频生成以及视觉与语言等技术。在计算机视觉技术的新兴应用方面,分别论述了内容审核、拍照购物及搭配购物等方面的产品在电商领域的成功落地应用。 展开更多
关键词 人工智能 计算机视觉 视觉理解 视觉生成 电商
下载PDF
基于伪标签自细化的弱监督实例分割
14
作者 吴仕科 梁宇琦 《计算机应用研究》 CSCD 北大核心 2023年第6期1882-1887,共6页
大多数弱监督实例分割方法利用类激活图生成的伪标签以及多阶段的训练策略,在实例分割上取得了不错的性能,但这些方法在检出物体完整性上仍然面临许多挑战。针对上述问题,提出了一种基于伪标签自细化的弱监督实例分割方法(pseudo-label ... 大多数弱监督实例分割方法利用类激活图生成的伪标签以及多阶段的训练策略,在实例分割上取得了不错的性能,但这些方法在检出物体完整性上仍然面临许多挑战。针对上述问题,提出了一种基于伪标签自细化的弱监督实例分割方法(pseudo-label self-refinement,PLSR),即在训练过程不断地利用网络自身的结果筛选、聚合候选区域得到各分支的伪标签,保障并逐步提升伪标签的质量,最终提高实例分割的性能。在Pascal VOC2012和MS-COCO数据集上进行实验,与现有的弱监督实例分割方法进行对比,AP50分别提高了1.6%和1.9%。实验结果表明,伪标签自细化方法能够有效利用候选区域的形状信息以及网络自身的语义信息提升伪标签的质量并取得了良好的分割效果,最终提高了弱监督实例分割的性能。 展开更多
关键词 实例分割 弱监督学习 图像级别标注 视觉理解
下载PDF
基于视知觉理解性机制的老年界面图符设计可用性研究 被引量:1
15
作者 潘伟营 王一童 姜斌 《工业设计研究》 2018年第1期136-140,共5页
目前,中国的智能移动终端用户数已经超过十亿,随着老龄化进程的加剧,智能移动设备的老年用户数量逐年增多,但由于老年人的生理及认知差异与年轻人有所不同,随着老年人生活需求的提高,基于老年人理解认知的图符设计需求也逐渐增大。本文... 目前,中国的智能移动终端用户数已经超过十亿,随着老龄化进程的加剧,智能移动设备的老年用户数量逐年增多,但由于老年人的生理及认知差异与年轻人有所不同,随着老年人生活需求的提高,基于老年人理解认知的图符设计需求也逐渐增大。本文通过研究老年人视知觉理解的特征,探讨符合老年认知的图符设计策略,希望为老年用户界面中图符信息呈现数量的可用性设计提供理论参考。本文首先通过调研法研究目前老年智能移动设备中常用的12个功能,并基于图符设计中的差异性原则制作实验对象样本;然后通过控制变量的方法对老年被试者进行视知觉理解性实验,探究老年用户图符设计信息呈现数量的可用性;最后运用统计分析的相关方法分析老年用户图标信息设计的可用性策略。 展开更多
关键词 视知觉 图符设计 适老化设计 视觉理解
原文传递
重见光明后的视觉体验
16
作者 Michael Abrams 刘涛 《Newton-科学世界》 2003年第1期29-32,共4页
关键词 盲人 角膜 大脑 干细胞移植术 视觉理解力”
原文传递
Hybrid-augmented intelligence: collaboration and cognition 被引量:62
17
作者 Nan-ning ZHENG Zi-yi LIU +6 位作者 Peng-ju REN Yong-qiang MA Shi-tao CHEN Si-yu YU Jian-ru XUE Ba-dong CHEN Fei-yue WANG 《Frontiers of Information Technology & Electronic Engineering》 SCIE EI CSCD 2017年第2期153-179,共27页
人工智能追求的长期目标是使机器能像人一样学习和思考。由于人类面临的许多问题具有不确定性、脆弱性和开放性,任何智能程度的机器都无法完全取代人类,这就需要将人的作用或人的认知模型引入到人工智能系统中,形成混合-增强智能的形态... 人工智能追求的长期目标是使机器能像人一样学习和思考。由于人类面临的许多问题具有不确定性、脆弱性和开放性,任何智能程度的机器都无法完全取代人类,这就需要将人的作用或人的认知模型引入到人工智能系统中,形成混合-增强智能的形态,这种形态是人工智能或机器智能的可行的、重要的成长模式。混合-增强智能可以分为两类基本形式:一类是人在回路的人机协同混合增强智能,另一类是将认知模型嵌入机器学习系统中,形成基于认知计算的混合智能。本文讨论人机协同的混合-增强智能的基本框架,以及基于认知计算的混合-增强智能的基本要素:直觉推理与因果模型、记忆和知识演化;特别论述了直觉推理在复杂问题求解中的作用和基本原理,以及基于记忆与推理的视觉场景理解的认知学习网络;阐述了竞争-对抗式认知学习方法,并讨论了其在自动驾驶方面的应用;最后给出混合-增强智能在相关领域的典型应用。 展开更多
关键词 人-机协同 混合增强智能 认知计算 直觉推理 因果模型 认知映射 视觉场景理解 自主驾驶汽车
原文传递
An image-based approach to the reconstruction of ancient architectures by extracting and arranging 3D spatial components 被引量:2
18
作者 Divya Udayan J Hyung Seok KIM Jee-In KIM 《Frontiers of Information Technology & Electronic Engineering》 SCIE EI CSCD 2015年第1期12-27,共16页
目的:利用单一图像重建古建筑,简化从2D照片恢复3D几何结构方法中无穷解的情况。该方法可以应用于观光、游戏、娱乐业中的古迹恢复。创新:简化从2D照片恢复3D几何结构过程中无穷解的情况。对特定建筑风格生成的组件库可以应用于相同风... 目的:利用单一图像重建古建筑,简化从2D照片恢复3D几何结构方法中无穷解的情况。该方法可以应用于观光、游戏、娱乐业中的古迹恢复。创新:简化从2D照片恢复3D几何结构过程中无穷解的情况。对特定建筑风格生成的组件库可以应用于相同风格的其它古建筑的重建。方法:本文主要以泰姬陵为例分析。首先,沿边界多面体和多面体之间的邻近关系利用合适的局部平面基元自动重建初始模型。然后,利用建模软件人工推断装配并调整模型3D组件获取最终重建模型。以Mughal风格的三个著名古建筑为例,测试基于前视图的模型重建(图10-12)。结论:对图像组件的分层分析有助简化从2D照片恢复3D几何结构过程中无穷解的情况。对特定建筑风格生成的组件库可以应用于相同风格的其它古建筑的重建。对三个Mughal风格的三个古建筑进行模型重建,结果表明所提方法的有效性。 展开更多
关键词 数字重建 3D虚拟世界 3D空间组件 视觉场景理解
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部