期刊文献+
共找到479篇文章
< 1 2 24 >
每页显示 20 50 100
Exploiting SAR visual semantics in Tomo SAR for 3D modeling of buildings 被引量:1
1
作者 Wei Wang Haixia Wang +2 位作者 Liankun Yu Qiulei Dong Zhanyi Hu 《National Science Open》 2024年第5期6-25,共20页
Recently a new paradigm is emerging in synthetic aperture radar(SAR)three-dimensional(3D)imaging technology where the imaging performance is enhanced by exploiting SAR visual semantics.Here by“SAR visual semantics”,... Recently a new paradigm is emerging in synthetic aperture radar(SAR)three-dimensional(3D)imaging technology where the imaging performance is enhanced by exploiting SAR visual semantics.Here by“SAR visual semantics”,we mean primarily the scene conceptual structural information extracted directly from SAR images.Under this paradigm,a paramount open problem lies in what and how the SAR visual semantics could be extracted and used at different levels associated with different structural information.This work is a tentative attempt to tackle the above what-and-how problem,and it mainly consists of the following two parts.The first part is a sketchy description of how three-level(low,middle,and high)SAR visual semantics could be extracted and used in SAR Tomography(TomoSAR),including an extension of SAR visual semantics analysis(e.g.,facades and roofs)to sparse 3D points initially recovered via traditional TomoSAR methods.The second part is a case study on two open source TomoSAR datasets to illustrate and validate the effectiveness and efficiency of SAR visual semantics exploitation in TomoSAR for box-like 3D building modeling.Due to the space limit,only main steps of the involved methods are reported,and we hope,such neglects of technical details will not severely compromise the underlying key concepts and ideas. 展开更多
关键词 SAR visual semantics TomoSAR box-like building modeling
原文传递
Visualization Analysis of Multi-Domain Access Control Policy Integration Based on Tree-Maps and Semantic Substrates 被引量:2
2
作者 Li Pan Qian Xu 《Intelligent Information Management》 2012年第5期188-193,共6页
The complexity of multi-domain access control policy integration makes it difficult to understand and manage the policy conflict information. The policy information visualization technology can express the logical rel... The complexity of multi-domain access control policy integration makes it difficult to understand and manage the policy conflict information. The policy information visualization technology can express the logical relation of the complex information intuitively which can effectively improve the management ability of the multi-domain policy integration. Based on the role-based access control model, this paper proposed two policy analyzing methods on the separated domain statistical information of multi-domain policy integration conflicts and the policy element levels of inter-domain and element mapping of cross-domain respectively. In addition, the corresponding visualization tool is developed. We use the tree-maps algorithm to statistically analyze quantity and type of the policy integration conflicts. On that basis, the semantic substrates algorithm is applied to concretely analyze the policy element levels of inter-domain and role and permission mapping of cross-domain. Experimental result shows tree-maps and semantic substrates can effectively analyze the conflicts of multi-domain policy integration and have a good application value. 展开更多
关键词 Cross-Domain Information Exchange visualIZATION ANALYSIS Tree-Maps semantIC SUBSTRATES
下载PDF
Visual SLAM Based on Object Detection Network:A Review
3
作者 Jiansheng Peng Dunhua Chen +3 位作者 Qing Yang Chengjun Yang Yong Xu Yong Qin 《Computers, Materials & Continua》 SCIE EI 2023年第12期3209-3236,共28页
Visual simultaneous localization and mapping(SLAM)is crucial in robotics and autonomous driving.However,traditional visual SLAM faces challenges in dynamic environments.To address this issue,researchers have proposed ... Visual simultaneous localization and mapping(SLAM)is crucial in robotics and autonomous driving.However,traditional visual SLAM faces challenges in dynamic environments.To address this issue,researchers have proposed semantic SLAM,which combines object detection,semantic segmentation,instance segmentation,and visual SLAM.Despite the growing body of literature on semantic SLAM,there is currently a lack of comprehensive research on the integration of object detection and visual SLAM.Therefore,this study aims to gather information from multiple databases and review relevant literature using specific keywords.It focuses on visual SLAM based on object detection,covering different aspects.Firstly,it discusses the current research status and challenges in this field,highlighting methods for incorporating semantic information from object detection networks into mileage measurement,closed-loop detection,and map construction.It also compares the characteristics and performance of various visual SLAM object detection algorithms.Lastly,it provides an outlook on future research directions and emerging trends in visual SLAM.Research has shown that visual SLAM based on object detection has significant improvements compared to traditional SLAM in dynamic point removal,data association,point cloud segmentation,and other technologies.It can improve the robustness and accuracy of the entire SLAM system and can run in real time.With the continuous optimization of algorithms and the improvement of hardware level,object visual SLAM has great potential for development. 展开更多
关键词 Object detection visual SLAM visual odometry loop closure detection semantic map
下载PDF
基于路径规划特点的语义目标导航方法 被引量:2
4
作者 高宇 霍静 +3 位作者 李文斌 伍静 来煜坤 高阳 《智能系统学报》 CSCD 北大核心 2024年第1期217-227,共11页
为了解决语义目标导航任务中存在的探索效率低、深度不精准等问题,本文构建了一个解决语义目标导航任务的框架,在语义地图构建模块中引入了深度图边缘处理以及地图纠错机制;在探索模块中引入了覆盖范围最大化算法;在路径规划模块中引入... 为了解决语义目标导航任务中存在的探索效率低、深度不精准等问题,本文构建了一个解决语义目标导航任务的框架,在语义地图构建模块中引入了深度图边缘处理以及地图纠错机制;在探索模块中引入了覆盖范围最大化算法;在路径规划模块中引入了替代点机制。本文在一个3D仿真环境下进行了实验。实验结果表明,本文提出的解决方案明显提升了语义目标导航任务的性能。此外,本文所提方法成功应用到了四足机器人上,从而验证了其在现实场景下的泛化性。 展开更多
关键词 人工智能 视觉导航 语义目标导航 语义感知 语义探索 路径规划 机器学习 语义地图
下载PDF
基于深度学习的移动机器人语义SLAM方法研究 被引量:3
5
作者 王立鹏 张佳鹏 +2 位作者 张智 王学武 齐尧 《哈尔滨工程大学学报》 EI CAS CSCD 北大核心 2024年第2期306-313,共8页
为了给移动机器人提供细节丰富的三维语义地图,支撑机器人的精准定位,本文提出一种结合RGB-D信息与深度学习结果的机器人语义同步定位与建图方法。改进了ORB-SLAM2算法的框架,提出一种可以构建稠密点云地图的视觉同步定位与建图系统;将... 为了给移动机器人提供细节丰富的三维语义地图,支撑机器人的精准定位,本文提出一种结合RGB-D信息与深度学习结果的机器人语义同步定位与建图方法。改进了ORB-SLAM2算法的框架,提出一种可以构建稠密点云地图的视觉同步定位与建图系统;将深度学习的目标检测算法YOLO v5与视觉同步定位与建图系统融合,反映射为三维点云语义标签,结合点云分割完成数据关联和物体模型更新,并用八叉树的地图形式存储地图信息;基于移动机器人平台,在实验室环境下开展移动机器人三维语义同步定位与建图实验,实验结果验证了本文语义同步定位与建图算法的语义信息映射、点云分割与语义信息匹配以及三维语义地图构建的有效性。 展开更多
关键词 移动机器人 深度学习 视觉同步定位与建图 目标识别 点云分割 数据关联 八叉树 语义地图
下载PDF
图像语义信息在视觉SLAM中的应用研究进展
6
作者 郭迟 刘阳 +2 位作者 罗亚荣 刘经南 张全 《测绘学报》 EI CSCD 北大核心 2024年第6期1057-1076,共20页
视觉同步定位与建图(visual simultaneous localization and mapping,VSLAM)技术以相机为主要传感器采集图像数据,基于多视几何、状态估计等算法原理获取载体的位置和姿态,同时构建一张用于导航定位的地图。视觉SLAM是自动驾驶、AR(augm... 视觉同步定位与建图(visual simultaneous localization and mapping,VSLAM)技术以相机为主要传感器采集图像数据,基于多视几何、状态估计等算法原理获取载体的位置和姿态,同时构建一张用于导航定位的地图。视觉SLAM是自动驾驶、AR(augmented reality)、VR(virtual reality)、MR(mix reality)、智能机器人、无人机飞控中的关键技术。近年来,随着各个产业对智能导航定位的需求日渐增多,原本以几何测量为主的视觉SLAM逐渐融入对环境的语义理解。语义信息是指能够被人类直观感受和理解的概念,而图像语义信息是指图像中物体的轮廓、类别、显著性等信息。相比于图像中的几何特征,语义信息更具时空一致性,且更贴近人类感知的结果。将图像语义信息引入视觉SLAM,既能促进系统各个模块的性能,还能够提升视觉SLAM的智能感知能力,形成集几何测量、定位定姿、环境理解等多种功能的视觉语义SLAM。本文根据图像语义信息的应用方式,对视觉语义SLAM经典方案和最新研究进展进行归纳梳理。在此基础上,本文总结了视觉语义SLAM的现存问题与挑战,指出该领域未来的研究方向,以推动其面向智能导航定位进一步发展。 展开更多
关键词 视觉SLAM 视觉语义SLAM 深度学习 智能导航定位
下载PDF
微波视觉与SAR图像智能解译 被引量:2
7
作者 徐丰 金亚秋 《雷达学报(中英文)》 EI CSCD 北大核心 2024年第2期285-306,共22页
高分辨率雷达成像技术和人工智能、大数据技术的快速发展,有力促进了雷达图像智能解译技术的进步。由于雷达传感器本身的特殊性和电磁散射成像物理的复杂性,雷达图像的解译缺乏光学图像的直观性,准确迅速识别分类的需求对雷达图像解译... 高分辨率雷达成像技术和人工智能、大数据技术的快速发展,有力促进了雷达图像智能解译技术的进步。由于雷达传感器本身的特殊性和电磁散射成像物理的复杂性,雷达图像的解译缺乏光学图像的直观性,准确迅速识别分类的需求对雷达图像解译提出了迫切的挑战。在借鉴人脑光视觉感知机理和计算机视觉图像处理相关技术基础上,进一步融合电磁散射物理规律及其雷达成像机理,我们提出发展微波域雷达图像解译的“微波视觉”的新交叉领域研究。该文介绍微波视觉的概念与内涵,提出微波视觉认知模型,阐述其基础理论问题与技术路线,最后介绍了作者团队在相关问题上的初步研究进展。 展开更多
关键词 合成孔径雷达(SAR) 雷达成像 电磁散射 目标识别 微波视觉 语义电磁散射建模 物理智能 逆问题 视觉感知
下载PDF
基于视音互补语义清晰化的隐私视频动作识别方法
8
作者 李泽超 付孝德 +2 位作者 潘礼勇 严锐 唐金辉 《电子学报》 EI CAS CSCD 北大核心 2024年第7期2170-2182,共13页
视频隐私保护是当前社会面临的重要挑战之一,对视频进行模糊处理是保护人们隐私权益的重要手段.由于模糊视频天然缺失视觉模态的信息,主流的视频动作识别算法无法取得令人满意的效果.模糊视频作为多模态介质不仅仅只有视觉模态信息,同时... 视频隐私保护是当前社会面临的重要挑战之一,对视频进行模糊处理是保护人们隐私权益的重要手段.由于模糊视频天然缺失视觉模态的信息,主流的视频动作识别算法无法取得令人满意的效果.模糊视频作为多模态介质不仅仅只有视觉模态信息,同时,也含有丰富的音频模态信息,从人类的认知角度而言,音频也是获取信息的重要来源.本文提出一种基于多模态融合的隐私视频动作识别方法,在保证不侵犯使用者隐私的前提下进行人类动作行为识别.具体来说,使用音频-视觉特征融合模块将音频模态特征图融入到视觉模态中,充分融合音视频模态的深层语义信息.除此之外,模型还引入清晰视频帧图像作为标签,在模型训练阶段监督动作识别网络的参数更新,为隐私视频动作识别网络提供清晰的语义信息.在多组隐私行为数据集上,通过大量消融和对比实验验证了所提方法的有效性. 展开更多
关键词 音视频特征融合 语义清晰化 隐私保护
下载PDF
融合多时间维度视觉与语义信息的图像描述方法
9
作者 陈善学 王程 《数据采集与处理》 CSCD 北大核心 2024年第4期922-932,共11页
传统的图像描述方法仅使用当前时刻的视觉信息和语义信息来生成预测词,而没有考虑过去时刻的视觉信息和语义信息,从而导致模型输出的信息在时间维度上比较单一,因此生成的描述语句在准确性上有所欠缺。针对此问题,提出一种融合多时间维... 传统的图像描述方法仅使用当前时刻的视觉信息和语义信息来生成预测词,而没有考虑过去时刻的视觉信息和语义信息,从而导致模型输出的信息在时间维度上比较单一,因此生成的描述语句在准确性上有所欠缺。针对此问题,提出一种融合多时间维度视觉与语义信息的图像描述方法,有效地融合了过去时刻的视觉信息和语义信息,并设计一种门控机制动态地对两种信息进行选择利用。在MSCOCO数据集上进行实验验证,结果表明该方法能够更准确地生成描述语句,和当前最主流的图像描述方法进行对比,性能在各项评价指标上都得到了可观的提升。 展开更多
关键词 图像描述 视觉信息 语义信息 时间维度 门控机制
下载PDF
动态环境下基于深度学习的视觉SLAM研究综述
10
作者 罗元 沈吉祥 李方宇 《半导体光电》 CAS 北大核心 2024年第1期1-10,共10页
目前的同时定位与地图构建(Simultaneous Localization and Mapping,SLAM)研究大多是基于静态场景的假设,而实际生活中动态物体是不可避免的。在视觉SLAM系统中加入深度学习,可以协同剔除场景中的动态物体,有效提升视觉SLAM在动态环境... 目前的同时定位与地图构建(Simultaneous Localization and Mapping,SLAM)研究大多是基于静态场景的假设,而实际生活中动态物体是不可避免的。在视觉SLAM系统中加入深度学习,可以协同剔除场景中的动态物体,有效提升视觉SLAM在动态环境下的鲁棒性。文章首先介绍了动态环境下基于深度学习的视觉SLAM分类,然后详细介绍了基于目标检测、基于语义分割和基于实例分割的视觉SLAM,并对它们进行了分析比较。最后,结合近年来视觉SLAM的发展趋势,通过对动态环境下基于深度学习的视觉SLAM存在的主要问题进行分析,总结了未来可能的发展方向。 展开更多
关键词 视觉同时定位与地图构建 深度学习 动态环境 语义信息
下载PDF
长视频的超级帧切割视觉内容解释方法
11
作者 魏英姿 刘王杰 《北京工业大学学报》 CAS CSCD 北大核心 2024年第7期805-813,共9页
针对现有基于编码解码的视频描述方法存在的对视频较长、在视频场景切换频繁情况下视觉特征提取能力不足或关键性片段捕获能力不足等视频描述不佳的问题,提出一种基于超级帧切割长视频的视频字幕方法。首先,提出超级帧提取算法,计算关... 针对现有基于编码解码的视频描述方法存在的对视频较长、在视频场景切换频繁情况下视觉特征提取能力不足或关键性片段捕获能力不足等视频描述不佳的问题,提出一种基于超级帧切割长视频的视频字幕方法。首先,提出超级帧提取算法,计算关键视频时间占比率以满足视频浏览时长限制,缩短视频检索时间。然后,构建两层筛选模型以自适应提取超级帧,过滤冗余关键帧,执行多场景语义描述。将保留的关键帧嵌入周围帧,利用深层网络模型以及小卷积核池化采样域获取更多的视频特征,克服了经典视频标题方法不能直接用于处理长视频的困难。最后,通过用长短时记忆模型代替循环神经网络解码生成视频标题,给出视频内容的分段解释信息。在YouTube数据集视频、合成视频和监控长视频上进行测试,采用多种机器翻译评价指标评估了该方法的性能,均获得了不同程度的提升。实验结果表明,该方法在应对视频场景切换频繁、视频较长等挑战时,能够获得较好的片段描述。 展开更多
关键词 超级帧切割 时间占比率 多场景语义 视觉特征 长短时记忆模型 视频标题
下载PDF
基于语义分割的视觉SLAM算法研究
12
作者 刘振宇 李月 《计算机与数字工程》 2024年第9期2590-2593,共4页
目前大多数的视觉SLAM算法基于静态环境的假设,环境中的动态物体容易引起位姿估计的不准确。提出一种针对动态环境的改进算法。基于DS-SLAM方案进行改进,首先采用自适应阈值提取ORB特征点并通过改进四叉树算法将特征点均匀化;之后采用... 目前大多数的视觉SLAM算法基于静态环境的假设,环境中的动态物体容易引起位姿估计的不准确。提出一种针对动态环境的改进算法。基于DS-SLAM方案进行改进,首先采用自适应阈值提取ORB特征点并通过改进四叉树算法将特征点均匀化;之后采用稀疏光流法跟踪角点的运动,同时结合Segment语义分割线程的结果分割动态物体;最后采用几何约束滤除动态点,保留高质量的特征点进行位姿估计,完成定位和建图功能。利用TUM数据集进行精度评测,相比于DS-SLAM算法,改进算法的实时性提升了9.02%。动态环境中相机位姿误差缩小了38.94%。通过提高特征点的质量,结合光流法和语义分割的优势,提升了机器人系统的定位精度和实时性。 展开更多
关键词 视觉SLAM 动态环境 光流法 语义分割
下载PDF
动态场景下基于语义分割的视觉SLAM方法 被引量:1
13
作者 杜晓英 袁庆霓 +3 位作者 齐建友 王晨 杜飞龙 任澳 《计算机工程》 CAS CSCD 北大核心 2024年第3期242-249,共8页
针对在动态场景下视觉同步定位与建图(SLAM)鲁棒性差、定位与建图精度易受动态物体干扰的问题,设计一种基于改进DeepLabv3plus与多视图几何的语义视觉SLAM算法。以语义分割网络DeepLabv3plus为基础,采用轻量级卷积网络MobileNetV2进行... 针对在动态场景下视觉同步定位与建图(SLAM)鲁棒性差、定位与建图精度易受动态物体干扰的问题,设计一种基于改进DeepLabv3plus与多视图几何的语义视觉SLAM算法。以语义分割网络DeepLabv3plus为基础,采用轻量级卷积网络MobileNetV2进行特征提取,并使用深度可分离卷积代替空洞空间金字塔池化模块中的标准卷积,同时引入注意力机制,提出改进的语义分割网络DeepLabv3plus。将改进后的语义分割网络DeepLabv3plus与多视图几何结合,提出动态点检测方法,以提高视觉SLAM在动态场景下的鲁棒性。在此基础上,构建包含语义信息和几何信息的三维语义静态地图。在TUM数据集上的实验结果表明,与ORB-SLAM2相比,该算法在高动态序列下的绝对轨迹误差的均方根误差值和标准差(SD)值最高分别提升98%和97%。 展开更多
关键词 DeepLabv3plus网络 视觉同步定位与建图 多视图几何 动态场景 语义地图
下载PDF
基于眼动数据分析交通环境要素对驾驶员视觉负荷的影响
14
作者 白玉 冷帅 《交通工程》 2024年第5期120-128,共9页
研究旨在通过提出1种基于眼动数据得到的负荷评价指标—眼动离散程度,确定不同视觉负荷下眼动离散程度的划分阈值,并利用该指标探究交通环境要素对人工驾驶员视觉负荷影响的程度排序,进而为交通设计提供参考。研究方法为分析DADA2000数... 研究旨在通过提出1种基于眼动数据得到的负荷评价指标—眼动离散程度,确定不同视觉负荷下眼动离散程度的划分阈值,并利用该指标探究交通环境要素对人工驾驶员视觉负荷影响的程度排序,进而为交通设计提供参考。研究方法为分析DADA2000数据集,利用语义分割算法与眼动特征识别算法,建立眼动离散程度变化机制模型,并将事故前3s眼动点集中区域与语义分割得到的要素进行匹配,进而得到不同视觉负荷下眼动离散程度的划分阈值和交通环境要素对驾驶员视觉负荷的影响程度排序。研究结果发现,在不同道路条件下,驾驶员的眼动离散程度和视觉负荷水平会有所变化,但事故前较短时间内眼动离散程度会降低至原来的1/3,眼动点也会集中在碰撞物或事故主要责任要素上,可通过机器学习算法对各交通环境要素影响的重要程度进行排序。分析研究结果可得到结论:利用眼动离散程度区分驾驶员视觉负荷是否过大的方法具有可行性,并可进一步用于事故防范与预测;驾驶员视觉负荷主要来源的前3位要素是自行车参与者、路侧标志杆、路面状况,影响重要度分别达到0.395、0.137、0.124。 展开更多
关键词 交通运输工程 视觉负荷 语义分割 眼动特征识别 眼动离散程度 智能交通系统 交通设计
下载PDF
基于分层特征对齐网络的小样本马铃薯病害叶片检测 被引量:1
15
作者 牛玉霞 孙宙红 +2 位作者 任伟 陈林琳 陈莉莉 《中国农机化学报》 北大核心 2024年第2期250-258,共9页
针对传统马铃薯病害叶片检测方法过度依赖大量训练数据以及对未知病害识别泛化性不强的问题,提出一种基于分层特征对齐网络的小样本马铃薯病害叶片检测模型。首先,收集并整理包含多种病害类型的弱标注马铃薯病害叶片数据集。其次,在支... 针对传统马铃薯病害叶片检测方法过度依赖大量训练数据以及对未知病害识别泛化性不强的问题,提出一种基于分层特征对齐网络的小样本马铃薯病害叶片检测模型。首先,收集并整理包含多种病害类型的弱标注马铃薯病害叶片数据集。其次,在支持分支中建立文本语义和视觉语义的多模态双层特征语义表示,并利用预训练网络生成多个候选框。再次,利用卷积神经网络将候选框区域映射到深度特征空间,并借助无参数的度量方法实现文本语义与视觉语义的特征对齐。最后,将查询分支中的未知类病害图片与多模态视觉和文本语义关联集进行度量计算,根据相似度值快速给出待测图片中未知新类的病害类别。通过在自建的马铃薯病害叶片数据集和开源数据集上进行测试,所提出模型分别可以实现93.55%和96.35%的识别精度,在跨域数据集上可以实现95.15%和94.06%的识别精度,优于当前经典的目标检测模型,具有一定的实际应用价值。 展开更多
关键词 马铃薯病害 叶片检测 分层特征对齐网络 文本语义 视觉语义
下载PDF
基于改进SLAM框架的动态场景三维语义地图构建方法研究
16
作者 张鹏飞 李宏伟 +2 位作者 赵亚帅 张彭昱 冯彬彬 《计算机应用与软件》 北大核心 2024年第11期234-240,共7页
三维语义信息是智能机器理解世界的重要因素,是人工智能的重要一环。提出一种基于ORB-SLAM2改进的SLAM框架,可以更好地适应于动态复杂环境下低纹理和感知混叠等问题的处理。结合用于语义分割的卷积神经网络提供的语义信息,通过贝叶斯方... 三维语义信息是智能机器理解世界的重要因素,是人工智能的重要一环。提出一种基于ORB-SLAM2改进的SLAM框架,可以更好地适应于动态复杂环境下低纹理和感知混叠等问题的处理。结合用于语义分割的卷积神经网络提供的语义信息,通过贝叶斯方法进行语义关联,实现在Octomap中的优化定位与更新,构建一致的三维语义地图。基于公开数据集的测试结果表明,该方法在复杂环境下,整体建图精度和速度相较于传统视觉SLAM算法有一定提升,而且降低光照变换产生的影响,具有较高的应用价值。 展开更多
关键词 视觉SLAM 三维重建 语义分割 语义地图
下载PDF
基于多通道多步融合的生成式视觉对话模型
17
作者 陈思航 江爱文 +1 位作者 崔朝阳 王明文 《计算机应用》 CSCD 北大核心 2024年第1期39-46,共8页
当前视觉对话任务在多模态信息融合和推理方面取得了较大进展,但是,在回答一些涉及具有比较明确语义属性和位置空间关系的问题时,主流模型的能力依然有限。比较少的主流模型在正式响应之前能够显式地提供有关图像内容的、语义充分的细... 当前视觉对话任务在多模态信息融合和推理方面取得了较大进展,但是,在回答一些涉及具有比较明确语义属性和位置空间关系的问题时,主流模型的能力依然有限。比较少的主流模型在正式响应之前能够显式地提供有关图像内容的、语义充分的细粒度表达。视觉特征表示与对话历史、当前问句等文本语义之间缺少必要的、缓解语义鸿沟的桥梁,因此提出一种基于多通道多步融合的视觉对话模型MCMI。该模型显式提供一组关于视觉内容的细粒度语义描述信息,并通过“视觉−语义−对话”历史三者相互作用和多步融合,能够丰富问题的语义表示,实现较为准确的答案解码。在VisDial v0.9/VisDial v1.0数据集中,MCMI模型较基准模型双通道多跳推理模型(DMRM),平均倒数排名(MRR)分别提升了1.95和2.12个百分点,召回率(R@1)分别提升了2.62和3.09个百分点,正确答案平均排名(Mean)分别提升了0.88和0.99;在VisDial v1.0数据集中,较最新模型UTC(Unified Transformer Contrastive learning model),MRR、R@1、Mean分别提升了0.06百分点,0.68百分点和1.47。为了进一步评估生成对话的质量,提出类图灵测试响应通过比例M1和对话质量分数(五分制)M2两个人工评价指标。在VisDial v0.9数据集中,相较于基准模型DMRM,MCMI模型的M1和M2指标分别提高了9.00百分点和0.70。 展开更多
关键词 视觉对话 生成式任务 视觉语义描述 多步融合 多通道融合
下载PDF
选择性注意对无意识加工的调节作用及潜在机制
18
作者 吴禧芊 张西磊 +1 位作者 蒋毅 王亮 《生物化学与生物物理进展》 SCIE CAS CSCD 北大核心 2024年第9期2016-2027,共12页
意识和无意识经常被看作是动态转换的一体两面,理解意识与无意识相互转换的认知神经机制是当今科学的重大挑战。注意在这个转换过程中发挥关键作用。但是,过往研究主要关注注意对意识的影响,而注意对无意识过程的影响长久以来被忽略了... 意识和无意识经常被看作是动态转换的一体两面,理解意识与无意识相互转换的认知神经机制是当今科学的重大挑战。注意在这个转换过程中发挥关键作用。但是,过往研究主要关注注意对意识的影响,而注意对无意识过程的影响长久以来被忽略了。一个曾比较流行的观点认为无意识加工过程是自动化的,不受注意的调节。然而,该观点近来被逐渐抛弃。在视觉传递通路中,注意可以调节源眼信息、朝向信息的无意识加工过程;在语义系统中,注意能自上而下地增强目标关联性强的,并抑制目标关联性弱的无意识语义过程;在情绪系统中,除了目标关联性之外,由注意负荷操纵的注意供给水平也能调节意识下的情绪加工过程。这些研究有助于更充分理解注意与意识的关系。综合来看,注意既可能是产生意识的必要条件,也可能是(某些)无意识加工的必要条件。未来应深入研究注意调节无意识过程的认知和神经机制,尤其是这些机制在不同注意类型和不同感觉通道间的共性和个性。 展开更多
关键词 注意 无意识加工 视觉加工 语义加工 情绪 注意敏化模型
下载PDF
基于视觉惯性的动态环境下SLAM方法
19
作者 赵建成 王芳 黄树成 《江苏科技大学学报(自然科学版)》 CAS 2024年第5期51-56,共6页
针对传统视觉惯性SLAM在动态环境下则会出现鲁棒性差的问题,提出一种可用于室内的动态环境的视觉惯性SLAM方法.结合室内动态物体的特点,提出了一种基于先验假设的语义信息方法,利用Mask R-CNN现实潜在动态对象识别.为解决语义分割网络... 针对传统视觉惯性SLAM在动态环境下则会出现鲁棒性差的问题,提出一种可用于室内的动态环境的视觉惯性SLAM方法.结合室内动态物体的特点,提出了一种基于先验假设的语义信息方法,利用Mask R-CNN现实潜在动态对象识别.为解决语义分割网络短时间内分割图片有限的问题,融合光流估计对未分割图像进行分割预测.最后,通过动态特征点过滤算法实现动态特征点与静态特征点的分离.在基于OpenLORIS数据集进行实验表明,该方法在高动态环境下能够有效提高SLAM系统的定位精度及鲁棒性. 展开更多
关键词 视觉惯性 Mask R-CNN 语义分割 光流
下载PDF
一种特征点权重自适应优化的动态SLAM算法
20
作者 张岩 王红旗 +2 位作者 刘群坡 卜旭辉 赵怡佳 《导航定位学报》 CSCD 北大核心 2024年第3期165-175,共11页
针对传统的同步定位与地图构建(SLAM)在动态场景中位姿估计准确率低、鲁棒性差的问题,提出一种基于特征点权重自适应优化的动态视觉SLAM算法。首先,利用掩膜区域卷积神经网络(Mask R-CNN)对输入图像进行语义分割并获取动态特征点掩码,... 针对传统的同步定位与地图构建(SLAM)在动态场景中位姿估计准确率低、鲁棒性差的问题,提出一种基于特征点权重自适应优化的动态视觉SLAM算法。首先,利用掩膜区域卷积神经网络(Mask R-CNN)对输入图像进行语义分割并获取动态特征点掩码,在此基础上对静态特征点进行帧间匹配得到位姿变换初值;然后利用运动一致性检测算法和多视图几何算法处理图像并分别得到对应的动态特征点掩码,进而依据得到的3种动态特征点掩码信息构建特征点权重函数,利用最小化重投影误差自适应调整特征点对位姿优化的影响程度,降低场景中的动态目标对SLAM精度的影响;最后使用慕尼黑工业大学动态数据集进行仿真测试,在室内高动态场景中,绝对轨迹误差(ATE)的均方根误差值(RMSE)仅为尺度不变特征变换同步定位与地图构建(ORB-SLAM2)的3.1%。与DS-SLAM、DynaSLAM等动态SLAM系统相比,绝对轨迹误差分别为DS-SLAM的52%、DynaSLAM的86.1%。结果表明,该算法可以显著提高SLAM系统在高动态环境下的定位精度和鲁棒性。 展开更多
关键词 视觉SLAM 动态场景 语义分割 运动一致性检测 多视图几何 特征点权重
下载PDF
上一页 1 2 24 下一页 到第
使用帮助 返回顶部