期刊文献+
共找到2,971篇文章
< 1 2 149 >
每页显示 20 50 100
大模型时代:电力视觉技术新起点 被引量:4
1
作者 赵振兵 冯烁 +3 位作者 席悦 张靖梁 翟永杰 赵文清 《高电压技术》 EI CAS CSCD 北大核心 2024年第5期1813-1825,共13页
随着无人机、巡检机器人和远程监控系统在输电、变电、配电、安监等电力场景中的广泛应用,利用电力视觉技术完成对海量巡检图像的自动处理,能够进一步提升电力系统智能化运维水平,对我国源网荷储一体化进程的快速推进具有至关重要的作... 随着无人机、巡检机器人和远程监控系统在输电、变电、配电、安监等电力场景中的广泛应用,利用电力视觉技术完成对海量巡检图像的自动处理,能够进一步提升电力系统智能化运维水平,对我国源网荷储一体化进程的快速推进具有至关重要的作用。随着通用视觉大模型的兴起,电力视觉技术正处于从传统深度学习时代向大模型时代跨越的重要节点。该文首先综述了电力视觉技术和通用视觉大模型的最新研究进展,结合视觉大模型在多种公共场景的应用先例,探讨视觉大模型在电力视觉领域将面临的3重能力边界问题。从初步探索通用视觉大模型的潜力,到逐步构建电力视觉大模型的过程,提出4种模型应用范式以突破视觉大模型能力边界。最后分析了视觉大模型对电力视觉研究者的影响,并对大模型浪潮下电力视觉技术的发展方向进行了展望。 展开更多
关键词 电力视觉 视觉模型 目标检测 图像分割 深度学习 图像处理
下载PDF
文创创意要素的视觉特征模型 被引量:1
2
作者 王蓉 广颖业 《包装工程》 CAS 北大核心 2024年第6期150-157,共8页
目的为解决文创产品在设计过程中,创意要素的视觉形式表达难以规范化、体系化,以及较为主观的问题。方法以三星堆面具为例,利用索绪尔符号学理论对文物的视觉特征建立“所指”和“能指”的分类归纳点,将“所指”归纳为文化内涵、审美特... 目的为解决文创产品在设计过程中,创意要素的视觉形式表达难以规范化、体系化,以及较为主观的问题。方法以三星堆面具为例,利用索绪尔符号学理论对文物的视觉特征建立“所指”和“能指”的分类归纳点,将“所指”归纳为文化内涵、审美特质、社会背景;将“能指”归纳为形态特征、色彩特征、材质特征、肌理特征和纹样特征,提出视觉特征模型。结果建立对“能指”中五大特征的提取方法,构建文创创意的视觉特征模型与设计流程,使用KANO模型验证用户需求,并使用本文所提出的视觉特征模型进行三星堆面具系列文创的设计实践。结论本文中文创创意要素的视觉特征模型概括了文创产品的设计过程,将创意要素通过形态特征、色彩特征、材质特征、肌理特征和纹样特征进行概括、演绎和表达,并可将此模型作为后续文创产品设计过程中的设计方法,进而推动文化的传承。 展开更多
关键词 索绪尔符号学 文创产品 创意要素 视觉特征 模型构建
下载PDF
视觉深度学习模型压缩加速综述
3
作者 丁贵广 陈辉 +3 位作者 王澳 杨帆 熊翊哲 梁伊雯 《智能系统学报》 CSCD 北大核心 2024年第5期1072-1081,共10页
近年来,深度学习模型规模越来越大,在嵌入式设备等资源受限环境中,大规模视觉深度学习模型难以实现高效推理部署。模型压缩加速可以有效解决该挑战。尽管已经出现相关工作的综述,但相关工作集中在卷积神经网络的压缩加速,缺乏对视觉Tran... 近年来,深度学习模型规模越来越大,在嵌入式设备等资源受限环境中,大规模视觉深度学习模型难以实现高效推理部署。模型压缩加速可以有效解决该挑战。尽管已经出现相关工作的综述,但相关工作集中在卷积神经网络的压缩加速,缺乏对视觉Transformer模型压缩加速方法的整理和对比分析。因此,本文以视觉深度学习模型压缩技术为核心,对卷积神经网络和视觉Transformer模型2个最重要的视觉深度模型进行了相关技术手段的整理,并对技术热点和挑战进行了总结和分析。本文旨在为研究者提供一个全面了解模型压缩和加速领域的视角,促进深度学习模型压缩加速技术的发展。 展开更多
关键词 视觉深度学习 模型压缩 轻量化结构 模型剪枝 模型量化 模型蒸馏 TRANSFORMER 序列剪枝
下载PDF
基于车载视觉的端到端驾驶员疲劳检测模型
4
作者 高珍 陈超 +2 位作者 许靖宁 余荣杰 宗佳琪 《同济大学学报(自然科学版)》 EI CAS CSCD 北大核心 2024年第2期284-292,共9页
营运驾驶员长时间疲劳驾驶是导致事故发生的重要原因,为此,企业在营运车辆上安装相机采集驾驶员面部视频,基于模型和算法自动识别驾驶员的疲劳状态,通过语音提醒甚至启用远程护航进行疲劳干预,以此提高驾驶安全。现有的疲劳检测研究大... 营运驾驶员长时间疲劳驾驶是导致事故发生的重要原因,为此,企业在营运车辆上安装相机采集驾驶员面部视频,基于模型和算法自动识别驾驶员的疲劳状态,通过语音提醒甚至启用远程护航进行疲劳干预,以此提高驾驶安全。现有的疲劳检测研究大多数都是基于面部关键点检测的算法,该类算法对面部视频的质量要求严格。在真实的营运行车环境中,夜晚光线过差,相机位置安装不理想,驾驶员面部遮挡等均会造成关键点检测失效,从而影响模型的准确性。基于卷积神经网络(CNN)和长短时记忆神经网络(LSTM)设计了一种端到端营运驾驶员疲劳检测模型,该模型以相机采集的驾驶员面部视频作为输入,使用CNN网络提取视频单帧特征,在此基础上将时序单帧特征作为LSTM网络的输入来最终识别驾驶员的疲劳状态,实验表明,模型的接收者操作特征曲线下面积(AUC)为0.9,远优于现有的面部关键点模型。此外,为了提高该模型在实际行车环境中的鲁棒性,基于光线变化及相机变化的模拟操作在训练数据上进行了数据增强,通过模型重训练进一步提高了模型的精度及鲁棒性。实验结果表明,改进前,营运车辆行车环境下模型的AUC相比实验室模型下降37.3%,而改进后AUC仅下降9.7%,模型的鲁棒性得到改善,能够更好地适应复杂的营运车辆自然驾驶环境。 展开更多
关键词 车载视觉 疲劳检测 端到端模型 鲁棒性
下载PDF
基于RGB-D双目视觉的苗期玉米三维模型重构方法研究
5
作者 马志艳 万海迪 +2 位作者 陈学海 申阳 周明刚 《中国农机化学报》 北大核心 2024年第8期148-153,共6页
以玉米幼苗为对象,研究基于RGB-D双目视觉的苗期玉米三维模型重构方法,实现了部分重构参数的优化。首先,针对目标进行固定步距角环绕图像采集,依据RGB图像中目标区域分割结果,对深度图像进行目标区域深度数据分割,并采用改进后的均值滤... 以玉米幼苗为对象,研究基于RGB-D双目视觉的苗期玉米三维模型重构方法,实现了部分重构参数的优化。首先,针对目标进行固定步距角环绕图像采集,依据RGB图像中目标区域分割结果,对深度图像进行目标区域深度数据分割,并采用改进后的均值滤波对苗期玉米区域内深度数据孔洞进行自适应填充;其次,针对苗期玉米各角度的深度点云数据,采用先粗后精完成多角度点云配准与融合;最后,对比两种体素精简方法对点云的精简平滑效果,实现苗期玉米三维模型的重构。通过试验对比步距角对苗期玉米模型的重构效率与精度,结果表明:采用八叉树滤波精简效果较好,60°步距角建模误差最小,重构的模型与苗期玉米株高精度误差为4.4 mm,茎粗平均精度误差为0.62 mm,能满足苗期玉米的三维重构形态测量需求。 展开更多
关键词 玉米 双目视觉 苗期玉米模型 三维重构 孔洞填充 点云配准
下载PDF
基于视觉-语言预训练模型的零样本迁移学习方法综述
6
作者 孙仁科 许靖昊 +2 位作者 皇甫志宇 李仲年 许新征 《计算机工程》 CAS CSCD 北大核心 2024年第10期1-15,共15页
近年来随着人工智能(AI)技术在计算机视觉与自然语言处理等单模态领域表现出愈发优异的性能,多模态学习的重要性和必要性逐渐展现出来,其中基于视觉-语言预训练模型的零样本迁移(ZST)方法得到了国内外研究者的广泛关注。得益于预训练模... 近年来随着人工智能(AI)技术在计算机视觉与自然语言处理等单模态领域表现出愈发优异的性能,多模态学习的重要性和必要性逐渐展现出来,其中基于视觉-语言预训练模型的零样本迁移(ZST)方法得到了国内外研究者的广泛关注。得益于预训练模型强大的泛化性能,使用视觉-语言预训练模型不仅能提高零样本识别任务的准确率,而且能够解决部分传统方法无法解决的零样本下游任务问题。对基于视觉-语言预训练模型的ZST方法进行概述,首先介绍了零样本学习(FSL)的传统方法,并对其主要形式加以总结;然后阐述了基于视觉-语言预训练模型的ZST和FSL的区别及其可以解决的新任务;其次介绍了基于视觉-语言预训练模型的ZST方法在样本识别、目标检测、语义分割、跨模态生成等下游任务中的应用情况;最后对现有的基于视觉-语言预训练模型的ZST方法存在的问题进行分析并对未来的研究方向进行展望。 展开更多
关键词 零样本学习 视觉-语言预训练模型 零样本迁移 多模态 计算机视觉
下载PDF
基于计算机视觉的舰船模型三维重建方法
7
作者 王玉 孙红娟 《舰船科学技术》 北大核心 2024年第6期161-164,共4页
为保证舰船模型三维重建的完整性以及细节程度,提出基于计算机视觉的舰船模型三维重建方法。基于双目立体视觉计算全局舰船目标点云坐标,生成舰船全局的三维点云数据;多视角点云配准方法对该数据进行配准后,输入多尺度特征递归卷积的稠... 为保证舰船模型三维重建的完整性以及细节程度,提出基于计算机视觉的舰船模型三维重建方法。基于双目立体视觉计算全局舰船目标点云坐标,生成舰船全局的三维点云数据;多视角点云配准方法对该数据进行配准后,输入多尺度特征递归卷积的稠密点云重建网络模型中,通过该模型生成舰船模型三维深度图,在此基础上,利用运动结构法完成舰船深度图中的三维曲线重建,对舰船模型进行颜色渲染,输出舰船模型三维重建结果。测试结果显示,该方法能够完成不同图像之间对应点的可靠匹配,确定各点的坐标位置;三维重建后模型的空间偏差均在0.015以下;能够较好地完成舰船结构的重建,重建后舰船模型的完整性较好,清晰呈现舰船的结构细节。 展开更多
关键词 计算机视觉 舰船模型 三维重建 多视角 颜色渲染 三维曲线重建
下载PDF
基于S-O-R模型的视觉营销对消费者购买意愿的影响研究——以红色文创网店为例 被引量:1
8
作者 魏加兴 张婷婷 《市场周刊》 2024年第1期76-80,共5页
为提高红色文创网店的点击转化率,文章从消费者视角出发,研究影响消费者购买意愿的视觉因素。基于S-O-R模型理论,构建红色文创网店视觉营销对消费者购买意愿因素的理论模型。利用S-O-R模型分析了红色文创网店视觉营销中的商品形象、界... 为提高红色文创网店的点击转化率,文章从消费者视角出发,研究影响消费者购买意愿的视觉因素。基于S-O-R模型理论,构建红色文创网店视觉营销对消费者购买意愿因素的理论模型。利用S-O-R模型分析了红色文创网店视觉营销中的商品形象、界面形象以及品牌视觉形象对顾客感知价值及顾客购买意向的影响。通过设计量表和调查问卷进行实证研究,并结合结构方程模型加以论证,得出品牌视觉形象和界面形象是影响消费者购买意愿的关键因素,为设计师和红色文创品牌进行网店设计提供了一定的理论参考和建议。 展开更多
关键词 S-O-R模型 消费者购买意愿 红色文创产品 视觉营销
下载PDF
投影模型下全方位视觉图像畸变校正算法仿真
9
作者 孙海霞 胡永 《计算机仿真》 2024年第9期177-181,共5页
为提高全方位视觉图像内目标清晰度,强化边缘细节特征,调整畸变的几何比例结构,提出一种投影模型下图像畸变校正算法。构建图像畸变模型,明确畸变与原始图像间非线性变化关系,通过正交投影变换构建透视投影模型和平行透视投影模型,将平... 为提高全方位视觉图像内目标清晰度,强化边缘细节特征,调整畸变的几何比例结构,提出一种投影模型下图像畸变校正算法。构建图像畸变模型,明确畸变与原始图像间非线性变化关系,通过正交投影变换构建透视投影模型和平行透视投影模型,将平行透视投影近似看作为透视投影的一阶结果,计算二者仿射近似误差值,最后将畸变校正问题定义为畸变与理想点的位姿重合,令位姿校正转换为重合最小距离求解,使用齐次坐标获得校正的旋转和平移量,实现图像畸变校正。仿真结果表明,所提算法校正后图像边缘清晰,细节部分无锯齿现象,说明上述算法能够精准还原目标特征,具有较高的可应用价值。 展开更多
关键词 投影模型 视觉图像 畸变校正 弱透视投影 平行透视投影
下载PDF
以改进机器视觉算法构建纸张图像识别模型
10
作者 牟海荣 陆蕊 《造纸科学与技术》 2024年第2期60-62,81,共4页
为保障纸张生产加工质量,精准获取与识别纸张缺陷,以改进机器视觉算法构建了纸张图像识别模型。首先以由线阵CCD相机与双光源等构成的图像采集装备采集纸张缺陷图像,其次以改进机器视觉方法对纸张缺陷图像进行预处理分析,然后将预处理... 为保障纸张生产加工质量,精准获取与识别纸张缺陷,以改进机器视觉算法构建了纸张图像识别模型。首先以由线阵CCD相机与双光源等构成的图像采集装备采集纸张缺陷图像,其次以改进机器视觉方法对纸张缺陷图像进行预处理分析,然后将预处理后图案以可变形卷积神经网络输入进行训练,以此检测识别纸张所存在的缺陷类型。实验测试结果表明,基于改进机器视觉算法的纸张图像识别模型可高效且精准识别缺陷,准确率高达98.4%,拥有较高识别度,可广泛推广以投入实际运用。 展开更多
关键词 机器视觉 可变形卷积神经网络 纸张缺陷 图像识别 模型构建
下载PDF
视觉大模型SAM在医学图像分割中的应用综述
11
作者 孙兴 蔡肖红 +2 位作者 李明 张帅 马金刚 《计算机工程与应用》 CSCD 北大核心 2024年第17期1-16,共16页
随着大模型技术的不断发展,以分割一切模型(segment anything model,SAM)为代表的视觉大模型在图像分割领域取得重要突破。SAM通过提示驱动完成一系列下游分割任务,旨在统一解决所有的图像分割问题。因此,将SAM应用于医学图像分割具有... 随着大模型技术的不断发展,以分割一切模型(segment anything model,SAM)为代表的视觉大模型在图像分割领域取得重要突破。SAM通过提示驱动完成一系列下游分割任务,旨在统一解决所有的图像分割问题。因此,将SAM应用于医学图像分割具有重要意义,其泛化性能够适应多种医学图像,为医生提供更全面的解剖结构和病变信息。介绍了图像分割常用的数据集;对SAM的网络结构和泛化性进行细致阐述;重点对SAM应用在全切片成像、磁共振成像、计算机断层扫描、超声和多模态图像的五大类医学图像进行梳理分析,总结优缺点和相应的改进方法;结合当前医学图像分割领域中存在的实际问题,讨论并展望了SAM未来的发展方向。 展开更多
关键词 视觉模型 分割一切模型(SAM) 医学图像 图像分割
下载PDF
基于预训练模型自适应匹配的视觉故事生成算法
12
作者 宁铭 江爱文 +2 位作者 崔朝阳 刘长红 王明文 《中文信息学报》 CSCD 北大核心 2024年第5期155-166,共12页
视觉故事生成任务是为一组图像序列生成具有表现力和连贯性的、能准确描述所涉及视觉内容的语句段落,是当前计算机视觉和自然语言处理交叉领域中一个有趣而又快速发展的多模态研究方向。随着预训练模型在各种下游任务的成功,基于预训练... 视觉故事生成任务是为一组图像序列生成具有表现力和连贯性的、能准确描述所涉及视觉内容的语句段落,是当前计算机视觉和自然语言处理交叉领域中一个有趣而又快速发展的多模态研究方向。随着预训练模型在各种下游任务的成功,基于预训练模型的视觉故事生成算法也被广泛研究。但因为数据模态的差异和语义鸿沟的存在,预训练模型在微调学习过程中会产生灾难性遗忘问题。如何协调视觉和语言两种模态数据的预训练模型,是当前多模态预训练模型研究的主要目标之一。该文提出基于预训练模型自适应匹配的视觉故事生成算法,一方面综合挖掘图像流的视觉、关系、序列等多样化互补信息,弥补语义差异;同时,另一方面用适应性损失对图文两种模态数据进行特征对齐,以及对图像流数据进行连续信息对齐,取得了较好的效果。算法在目前已公开的视觉故事生成数据集(VIST)上与近年的先进算法进行实验比较。评测结果表明,该文算法在生成故事的图文相关性、文本多样性、内容逻辑连贯性等指标上取得了具有竞争力的结果。 展开更多
关键词 视觉故事 适应匹配损失 预训练模型 多模态特征 图像序列
下载PDF
基于视觉自注意力模型的苗期玉米与杂草检测方法
13
作者 唐伯青 赵大勇 +1 位作者 熊锋 李德强 《南京农业大学学报》 CAS CSCD 北大核心 2024年第4期772-781,共10页
[目的]识别作物和杂草是农业智能化中自动除草的关键步骤。本文旨在解决作物与杂草识别精度低、检测模型实时性和鲁棒性差等问题。[方法]以叶龄处于3~8叶期的玉米及其伴生杂草为研究对象,提出一种高效准确的玉米苗与杂草的检测方法。该... [目的]识别作物和杂草是农业智能化中自动除草的关键步骤。本文旨在解决作物与杂草识别精度低、检测模型实时性和鲁棒性差等问题。[方法]以叶龄处于3~8叶期的玉米及其伴生杂草为研究对象,提出一种高效准确的玉米苗与杂草的检测方法。该方法以实时端到端目标检测视觉自注意力模型为基础框架,用小尺度卷积等效替代大尺度深度卷积的思想,以较小的精度损失降低推理耗时。引入一种包含上下文信息的自顶向下注意力机制,强化模型对小目标的检测效果。应用组合图像增强策略,提升模型精度与泛化能力。[结果]改进后模型的平均检测精度为90.11%,推理阶段单张图片耗时33.67 ms,模型参数量44.86 MB。改进后的模型比主流目标检测模型总体精度更高,且推理速度快。[结论]所提方法对于玉米苗与伴生杂草的整体检测性能优秀,能够提高杂草识别的准确性和效率。 展开更多
关键词 玉米 杂草 检测 实时视觉自注意力模型 等效卷积 图像增强
下载PDF
基于对比性视觉-文本模型的光场图像质量评估
14
作者 王汉灵 柯逍 +1 位作者 江澳鑫 郭文忠 《电子学报》 EI CAS CSCD 北大核心 2024年第10期3562-3577,共16页
光场图像作为一种能够捕获场景每个位置光线信息的图像类型,在电子成像、医学影像和虚拟现实等领域具有广泛的应用前景.光场图像质量评估(Light Field Image Quality Assessment,LFIQA)旨在衡量此类图像的质量,但当前方法面临视觉效果... 光场图像作为一种能够捕获场景每个位置光线信息的图像类型,在电子成像、医学影像和虚拟现实等领域具有广泛的应用前景.光场图像质量评估(Light Field Image Quality Assessment,LFIQA)旨在衡量此类图像的质量,但当前方法面临视觉效果与文本模态间异构性的重要挑战.为解决上述问题,本文提出了一种基于文本-视觉的多模态光场图像质量评估模型.具体来说,在视觉模态方面,我们设计了多任务模型,结合边缘自动阈值算法有效丰富了光场图像的关键表示特征.在文本模态方面,基于输入噪声特征与预测噪声特征的对比,准确识别光场图像的噪声类别,并验证了噪声预测对优化视觉表示的重要性.基于上述研究,进一步提出了一种优化的通用噪声文本配置方法,并结合边缘增强策略,显著提升了基线模型在光场图像质量评估中的准确性和泛化能力.此外,通过消融实验,评估了各组件对整体模型性能的贡献,验证了本文方法的有效性和稳健性.实验结果表明,该方法不仅在公开数据集Win5-LID和NBU-LF1.0的实验中表现出色,还在融合数据集中展示出优秀的实验结果,与现有最优算法相比,本文所提方法在两个数据库中的性能分别提升了2%和6%.本文提出的噪声验证策略和配置方法不仅为图像质量评估中的噪声预测任务提供了有价值的参考,也可用于其它噪声预测类型的辅助任务. 展开更多
关键词 图像质量评估 光场图像 视觉-文本模型 多任务模式 噪声预测 图像增强
下载PDF
基于大语言模型与视觉语言模型的多模态事实核查
15
作者 张芃芃 彭勃 +1 位作者 董晶 程皓楠 《中国传媒大学学报(自然科学版)》 2024年第4期30-37,54,共9页
多模态事实核查旨在联合多种模态的媒体内容以抽取有效信息来检测社交媒体背景下的虚假信息。针对已有研究对事实核查领域专用数据集过于依赖以及在图像理解和语义相似度计算方面可解释性弱的问题,提出了一种全新的基于预训练大模型的... 多模态事实核查旨在联合多种模态的媒体内容以抽取有效信息来检测社交媒体背景下的虚假信息。针对已有研究对事实核查领域专用数据集过于依赖以及在图像理解和语义相似度计算方面可解释性弱的问题,提出了一种全新的基于预训练大模型的多模态事实核查自动化方法,并在公开数据集COSMOS上进行了实验。结果表明该方法达到了0.859的正确率,且在每次核查时都能提供清晰的理由,相较于传统的基线方法具有更高的准确性和更强的可解释性。此外,还深入分析了不同的方法变体,以及数据集中各种虚假信息的判别场景,验证了本方法凭借在多模态信息语义理解方面的强大能力,可以灵活应对不同情境下的脱离上下文检测。本文方法为社交网络中多模态媒体内容的事实核查工作提供有力的技术支持和新的思考方向。 展开更多
关键词 深度学习 大语言模型 视觉语言模型 多模态 事实核查
下载PDF
基于深度学习的机理模型与数据混合驱动的视觉转角测量方法
16
作者 陈武超 俞翔栋 +2 位作者 陈洪宇 柯瑞庭 陶建峰 《仪表技术与传感器》 CSCD 北大核心 2024年第6期121-126,共6页
为克服基于视觉的转角测量方法容易受到系统干扰的局限性,提出了一种基于深度学习的机理模型和数据混合驱动的视觉转角测量方法。从数学原理上验证了采用等腰三角形作为轴上花纹的合理性和有效性,构建三角花纹转角计算机理数学模型。引... 为克服基于视觉的转角测量方法容易受到系统干扰的局限性,提出了一种基于深度学习的机理模型和数据混合驱动的视觉转角测量方法。从数学原理上验证了采用等腰三角形作为轴上花纹的合理性和有效性,构建三角花纹转角计算机理数学模型。引入基于YOLOv8的深度学习模型,采用线性组合将两者结合构建成混合转角测量模型。实验结果显示,这种混合模型在测量准度上有显著提升,相比仅用机理模型,其平均误差降低1.125°,均方根误差降低10.05°,在不同环境测试集上仍保持高效性能。该模型充分利用了深度学习模型对图像随机干扰的学习能力,同时保持了数学模型的约束和稳定性,提高了视觉角度测量的准确性,而且增强了其对环境变化以及系统干扰的适应性。 展开更多
关键词 转角测量 机器视觉 深度学习 混合模型
下载PDF
基于大语言模型的PTCR外部知识型视觉问答框架
17
作者 薛迪 李欣 刘明帅 《计算机科学与探索》 CSCD 北大核心 2024年第11期2912-2924,共13页
针对外部知识型视觉问答(VQA)模型输入信息不足、推理性能差的问题,构建了一种基于大语言模型(LLM)的PTCR外部知识型VQA框架。该框架由答案候选生成、针对性图像描述、自主式思维链构建、提示LLM推理四部分构成。PTCR框架使用LLM指导多... 针对外部知识型视觉问答(VQA)模型输入信息不足、推理性能差的问题,构建了一种基于大语言模型(LLM)的PTCR外部知识型VQA框架。该框架由答案候选生成、针对性图像描述、自主式思维链构建、提示LLM推理四部分构成。PTCR框架使用LLM指导多模态大模型生成针对性的图像描述,解决了以往图像标题覆盖不全面的问题;通过LLM自主生成思维链,并在推理过程中提供相似问题的思考过程,提高了模型的推理能力;在推理过程引入选项重排技术消除LLM的选择位置偏见,通过多数投票的方式降低了推理的随机性误差。实验结果表明,经PTCR框架增强的CogVLM模型,其准确率在OK-VQA、A-OKVQA数据集上分别提升了16.7个百分点、13.3个百分点。同时,与Prophet相比,PTCR框架在OK-VQA、A-OKVQA数据集上准确率分别提升了3.4个百分点、5.0个百分点。消融实验的结果证明,所使用的针对性图像描述、自主式思维链等方法对准确率均有提升效果。可见PTCR框架在改进外部知识型VQA任务性能方面有所提升。 展开更多
关键词 视觉问答 提示工程 大语言模型 跨模态
下载PDF
一种改进的视觉词包模型的船舶识别方法 被引量:1
18
作者 李连民 孙立功 孙士保 《河南科技大学学报(自然科学版)》 CAS 北大核心 2024年第4期10-16,M0002,M0003,共9页
船舶识别在船舶贸易和军事活动中具有重要意义。目前的研究主要依赖于深度学习的方法,但这类方法对数据集规模和硬件要求较高,通常需要GPU等高性能硬件,限制了其在实际应用中的推广。针对这一挑战,提出了一种改进的视觉词包模型,用于快... 船舶识别在船舶贸易和军事活动中具有重要意义。目前的研究主要依赖于深度学习的方法,但这类方法对数据集规模和硬件要求较高,通常需要GPU等高性能硬件,限制了其在实际应用中的推广。针对这一挑战,提出了一种改进的视觉词包模型,用于快速识别船舶目标。首先利用SIFT和SURF方法提取船舶图像的局部特征,并将两种特征进行快速匹配和融合。随后,采用基于图论的方法确定图像的感兴趣区域(ROI),以减少背景的影响。接着,通过聚类算法将ROI区域内的特征转换为视觉单词,并构建视觉词典,从而用视觉单词直方图描述每幅图像。该方法还采用空间金字塔核式模型描述图像特征之间的空间关系,并通过支持向量机进行有监督的学习分类。在模型中,视觉词典的大小和分辨率水平是关键参数,通过实验对其进行了深入研究。当视觉词典大小设置为300,分辨率水平设置为2时,模型的准确率、精确率超过了96%,实验结果验证了该模型的有效性。 展开更多
关键词 视觉词包模型 局部特征 特征融合 船舶图像 识别
下载PDF
基于视觉语义与提示学习的多模态情感分析模型
19
作者 莫书渊 蒙祖强 《计算机科学》 CSCD 北大核心 2024年第9期250-257,共8页
随着深度学习技术的发展,多模态情感分析已成为研究热点之一。然而,大多数多模态情感分析模型或从不同模态中提取特征向量并简单地进行加权求和,导致数据无法准确地映射到统一的多模态向量空间中,或依赖图像描述模型将图像转化为文本,... 随着深度学习技术的发展,多模态情感分析已成为研究热点之一。然而,大多数多模态情感分析模型或从不同模态中提取特征向量并简单地进行加权求和,导致数据无法准确地映射到统一的多模态向量空间中,或依赖图像描述模型将图像转化为文本,导致提取到过多不包含情感信息的视觉语义,造成信息冗余,最终影响模型的性能。为了解决这些问题,提出了一种基于视觉语义与提示学习的多模态情感分析模型VSPL。该模型将图像转化为精确简短、蕴含情感信息的视觉语义词汇,从而缓解信息冗余的问题;并基于提示学习的方法,将得到的视觉语义词汇与针对情感分类任务而提前设计好的提示模板组合成新文本,实现模态融合,这样做既避免了由加权求和导致的特征空间映射不准确的问题,又能借助提示学习的方法激发预训练语言模型的潜在性能。对多模态情感分析任务进行了对比实验,结果表明所提模型VSPL在3个公开数据集上的性能超越了先进的基准模型。此外,还进行了消融实验、特征可视化和样例分析,验证了VSPL的有效性。 展开更多
关键词 多模态 视觉语义 提示学习 情感分析 预训练语言模型
下载PDF
交互式多模型算法改进视觉惯性定位技术
20
作者 陈锐锋 赵立业 《导航定位学报》 CSCD 北大核心 2024年第5期80-88,共9页
针对目前使用优化方法构建的视觉惯性数据融合模型尚未充分考虑实际复杂性,导致无法准确模拟复杂的实际状态的问题,提出一种交互式多模型(IMM)算法改进视觉惯性定位技术:指出相较于传统滤波方法,优化的视觉惯性融合定位技术具有更高的... 针对目前使用优化方法构建的视觉惯性数据融合模型尚未充分考虑实际复杂性,导致无法准确模拟复杂的实际状态的问题,提出一种交互式多模型(IMM)算法改进视觉惯性定位技术:指出相较于传统滤波方法,优化的视觉惯性融合定位技术具有更高的估计精度,并且在计算效率上能够与滤波方法媲美,这得益于雅可比矩阵和海塞矩阵的稀疏性特征;然后给出将交互式多模型算法与优化算法相结合的方法,利用IMM能够有效模拟单个目标在多种情景下的状态的特点,通过模型概率实时分配惯性数据和视觉数据的置信度,改进优化算法,从而提高位姿估计精度。实验结果表明,相比基于旋转不变特征点的实时定位构图系统第三代(ORB-SLAM 3)算法,该方法对定位精度的均方根(RMS)误差性能可提升17%。 展开更多
关键词 交互式多模型算法 组合导航 优化 融合定位 视觉定位 惯导
下载PDF
上一页 1 2 149 下一页 到第
使用帮助 返回顶部