期刊文献+
共找到15篇文章
< 1 >
每页显示 20 50 100
基于视觉提示学习的天气退化图像恢复
1
作者 文渊博 高涛 +2 位作者 安毅生 李子琦 陈婷 《计算机学报》 EI CAS CSCD 北大核心 2024年第10期2401-2416,共16页
尽管现有的天气退化图像恢复方法在单一天气去除任务上已经取得良好表现,但其无法适应真实场景下多变的天气类型.为此,本文提出一种基于视觉提示学习的天气退化图像恢复算法,其是预训练语言图像模型与天气退化图像恢复任务结合的新范式... 尽管现有的天气退化图像恢复方法在单一天气去除任务上已经取得良好表现,但其无法适应真实场景下多变的天气类型.为此,本文提出一种基于视觉提示学习的天气退化图像恢复算法,其是预训练语言图像模型与天气退化图像恢复任务结合的新范式.该算法首先设计一个查询提示约束网络(Query Prompt Contrained Network,QPC-Net),其利用对比语言图像预训练模型中的文本编码器和图像编码器来根据给定的退化图像直接编码其对应真实背景的潜在描述特征.同时,该算法还包括一个示例提示引导网络(Example Prompt Guided Network,EPG-Net),其利用给定的示例图像来引导预训练扩散模型去除查询图像上对应的天气退化.相比类似设定的现有算法,本文算法在8个天气退化数据集上平均改善峰值信噪比2.11 dB,平均改善结构相似性4.74%. 展开更多
关键词 计算机视觉 视觉提示学习 情境学习 图像恢复 扩散模型
下载PDF
视觉提示学习综述
2
作者 廖宁 曹敏 严骏驰 《计算机学报》 EI CAS CSCD 北大核心 2024年第4期790-820,共31页
近年来,随着提示学习方法在自然语言处理领域被提出,其日益受到研究人员广泛关注,它通过将各类下游任务重构成预训练任务的形式,以参数高效和数据高效的方式将大规模预训练模型应用在各类自然语言相关下游任务中.其中以GPT系列为代表的... 近年来,随着提示学习方法在自然语言处理领域被提出,其日益受到研究人员广泛关注,它通过将各类下游任务重构成预训练任务的形式,以参数高效和数据高效的方式将大规模预训练模型应用在各类自然语言相关下游任务中.其中以GPT系列为代表的模型通过提示学习在对话生成和多模态图文理解等任务上取得了巨大的成功.然而,这类模型及方法还不能解决视觉中的稠密任务.受此启发,一些研究人员逐渐将提示学习广泛应用到视觉相关的各类任务当中,如图像识别、目标检测、图像分割、领域适应、持续学习等.由于目前还没有提示学习应用在视觉相关领域中的综述,本文将对视觉单模态领域以及视觉语言多模态领域的提示学习方法展开全面论述和分析.作为回顾,我们首先简要介绍自然语言处理领域的预训练模型,并对提示学习的基本概念、下游应用形式以及提示模板类型进行阐述和分类.其次,我们分别介绍视觉单模态领域以及视觉语言多模态领域里提示学习方法适配的预训练模型和任务.再次,我们分别介绍视觉单模态领域以及视觉语言多模态领域的提示学习方法.在自然语言处理领域,提示学习方法以继承预训练形式实现多任务统一为主要目的;与此不同,在视觉相关领域,提示学习方法侧重于面向特定下游任务进行设计.为此,我们将从方法设计上进行简单分类,然后从应用任务角度详细介绍视觉单模态提示学习和视觉语言多模态提示学习方法.最后,我们对比分析了自然语言处理领域和视觉相关领域提示学习研究的进展,并对未来研究路线给出了展望。 展开更多
关键词 大规模预训练模型 自然语言处理 视觉单模态提示学习 视觉语言多模态提示学习
下载PDF
基于视觉语义与提示学习的多模态情感分析模型
3
作者 莫书渊 蒙祖强 《计算机科学》 CSCD 北大核心 2024年第9期250-257,共8页
随着深度学习技术的发展,多模态情感分析已成为研究热点之一。然而,大多数多模态情感分析模型或从不同模态中提取特征向量并简单地进行加权求和,导致数据无法准确地映射到统一的多模态向量空间中,或依赖图像描述模型将图像转化为文本,... 随着深度学习技术的发展,多模态情感分析已成为研究热点之一。然而,大多数多模态情感分析模型或从不同模态中提取特征向量并简单地进行加权求和,导致数据无法准确地映射到统一的多模态向量空间中,或依赖图像描述模型将图像转化为文本,导致提取到过多不包含情感信息的视觉语义,造成信息冗余,最终影响模型的性能。为了解决这些问题,提出了一种基于视觉语义与提示学习的多模态情感分析模型VSPL。该模型将图像转化为精确简短、蕴含情感信息的视觉语义词汇,从而缓解信息冗余的问题;并基于提示学习的方法,将得到的视觉语义词汇与针对情感分类任务而提前设计好的提示模板组合成新文本,实现模态融合,这样做既避免了由加权求和导致的特征空间映射不准确的问题,又能借助提示学习的方法激发预训练语言模型的潜在性能。对多模态情感分析任务进行了对比实验,结果表明所提模型VSPL在3个公开数据集上的性能超越了先进的基准模型。此外,还进行了消融实验、特征可视化和样例分析,验证了VSPL的有效性。 展开更多
关键词 多模态 视觉语义 提示学习 情感分析 预训练语言模型
下载PDF
基于大语言模型的PTCR外部知识型视觉问答框架
4
作者 薛迪 李欣 刘明帅 《计算机科学与探索》 CSCD 北大核心 2024年第11期2912-2924,共13页
针对外部知识型视觉问答(VQA)模型输入信息不足、推理性能差的问题,构建了一种基于大语言模型(LLM)的PTCR外部知识型VQA框架。该框架由答案候选生成、针对性图像描述、自主式思维链构建、提示LLM推理四部分构成。PTCR框架使用LLM指导多... 针对外部知识型视觉问答(VQA)模型输入信息不足、推理性能差的问题,构建了一种基于大语言模型(LLM)的PTCR外部知识型VQA框架。该框架由答案候选生成、针对性图像描述、自主式思维链构建、提示LLM推理四部分构成。PTCR框架使用LLM指导多模态大模型生成针对性的图像描述,解决了以往图像标题覆盖不全面的问题;通过LLM自主生成思维链,并在推理过程中提供相似问题的思考过程,提高了模型的推理能力;在推理过程引入选项重排技术消除LLM的选择位置偏见,通过多数投票的方式降低了推理的随机性误差。实验结果表明,经PTCR框架增强的CogVLM模型,其准确率在OK-VQA、A-OKVQA数据集上分别提升了16.7个百分点、13.3个百分点。同时,与Prophet相比,PTCR框架在OK-VQA、A-OKVQA数据集上准确率分别提升了3.4个百分点、5.0个百分点。消融实验的结果证明,所使用的针对性图像描述、自主式思维链等方法对准确率均有提升效果。可见PTCR框架在改进外部知识型VQA任务性能方面有所提升。 展开更多
关键词 视觉问答 提示工程 大语言模型 跨模态
下载PDF
多传感器信息融合智能导盲手杖设计 被引量:1
5
作者 王柄云 王柄翔 谢印忠 《日用电器》 2024年第6期77-81,共5页
为了帮助盲人出行安全便利,解决传统导盲手杖性能局限性,利用多传感器组合智能系统设计了一款导盲手杖,该系统以STM32嵌入式单片机为核心,结合了先进的信号处理算法、多传感器技术,使用时可以测量道路障碍、积水、盲道及斑马线指引、语... 为了帮助盲人出行安全便利,解决传统导盲手杖性能局限性,利用多传感器组合智能系统设计了一款导盲手杖,该系统以STM32嵌入式单片机为核心,结合了先进的信号处理算法、多传感器技术,使用时可以测量道路障碍、积水、盲道及斑马线指引、语音或蓝牙播报引导等功能,实现了盲人单独出行时可以依靠导盲手杖辅助下安全行走。 展开更多
关键词 盲人安全 智能 传感器 语音提示
下载PDF
基于语言-视觉对比学习的多模态视频行为识别方法 被引量:1
6
作者 张颖 张冰冰 +3 位作者 董微 安峰民 张建新 张强 《自动化学报》 EI CAS CSCD 北大核心 2024年第2期417-430,共14页
以对比语言-图像预训练(Contrastive language-image pre-training, CLIP)模型为基础,提出一种面向视频行为识别的多模态模型,该模型从视觉编码器的时序建模和行为类别语言描述的提示学习两个方面对CLIP模型进行拓展,可更好地学习多模... 以对比语言-图像预训练(Contrastive language-image pre-training, CLIP)模型为基础,提出一种面向视频行为识别的多模态模型,该模型从视觉编码器的时序建模和行为类别语言描述的提示学习两个方面对CLIP模型进行拓展,可更好地学习多模态视频表达.具体地,在视觉编码器中设计虚拟帧交互模块(Virtual-frame interaction module, VIM),首先,由视频采样帧的类别分词做线性变换得到虚拟帧分词;然后,对其进行基于时序卷积和虚拟帧分词移位的时序建模操作,有效建模视频中的时空变化信息;最后,在语言分支上设计视觉强化提示模块(Visual-reinforcement prompt module,VPM),通过注意力机制融合视觉编码器末端输出的类别分词和视觉分词所带有的视觉信息来获得经过视觉信息强化的语言表达.在4个公开视频数据集上的全监督实验和2个视频数据集上的小样本、零样本实验结果,验证了该多模态模型的有效性和泛化性. 展开更多
关键词 视频行为识别 语言-视觉对比学习 多模态模型 时序建模 提示学习
下载PDF
视觉-语言多模态下的多任务人脸年龄估计
7
作者 何江 池静 +1 位作者 池佳稷 高松 《现代电子技术》 北大核心 2024年第14期171-176,共6页
现有的年龄估计方法仅基于人脸图像,无法充分利用图像背后的语言背景信息。此外,这些方法通常专注于单一年龄估计任务的优化,忽略了相近任务带来的提高模型性能的信息。针对上述问题,提出一种基于视觉-语言多模态的多任务人脸年龄估计... 现有的年龄估计方法仅基于人脸图像,无法充分利用图像背后的语言背景信息。此外,这些方法通常专注于单一年龄估计任务的优化,忽略了相近任务带来的提高模型性能的信息。针对上述问题,提出一种基于视觉-语言多模态的多任务人脸年龄估计方法。该方法利用提示文本信息为年龄估计提供更丰富、更准确的图像理解和先验知识。同时,引入多任务学习方法,利用任务间的互补性将年龄分类任务与序数回归任务相结合,以获得更好的性能。最后,为了获得可靠的预测结果,研究了加权平均法和任务回归法两种多任务结果融合方法,并对加权平均法的权重系数进行了消融实验,以期找到一组合适的权重系数。结果表明:与其他先进方法相比,所提方法在UTK-FACE数据集上的平均绝对误差(MAE)降低了7.32%,在MorphⅡ数据集上的MAE降低了1.20%,累积分数(CS)提升了0.11%。 展开更多
关键词 年龄估计 视觉-语言多模态 多任务学习 加权平均法 提示文本 任务回归器
下载PDF
Prompt learning in computer vision: a survey 被引量:1
8
作者 Yiming LEI Jingqi LI +2 位作者 Zilong LI Yuan CAO Hongming SHAN 《Frontiers of Information Technology & Electronic Engineering》 SCIE EI CSCD 2024年第1期42-63,共22页
Prompt learning has attracted broad attention in computer vision since the large pre-trained visionlanguagemodels (VLMs) exploded. Based on the close relationship between vision and language information builtby VLM, p... Prompt learning has attracted broad attention in computer vision since the large pre-trained visionlanguagemodels (VLMs) exploded. Based on the close relationship between vision and language information builtby VLM, prompt learning becomes a crucial technique in many important applications such as artificial intelligencegenerated content (AIGC). In this survey, we provide a progressive and comprehensive review of visual promptlearning as related to AIGC. We begin by introducing VLM, the foundation of visual prompt learning. Then, wereview the vision prompt learning methods and prompt-guided generative models, and discuss how to improve theefficiency of adapting AIGC models to specific downstream tasks. Finally, we provide some promising researchdirections concerning prompt learning. 展开更多
关键词 prompt learning visual prompt tuning(VPT) Image generation Image classification Artificial intelligence generated content(AIGC)
原文传递
微光环境下基于MR的装设备智能提示辅助技术研究
9
作者 朱野山 王崴 +3 位作者 邱盎 瞿珏 陈同 焦浩洋 《兵器装备工程学报》 CAS CSCD 北大核心 2023年第S01期51-60,共10页
针对微光低照度难以感知物体精确位置信息这一问题,基于MR的智能提示辅助技术,以典型吊装作业为研究对象,分析了吊装作业在吊机转位、吊姿调整、点位对准3个典型阶段的信息感知与操作特点,基于混合现实环境下深度线索、听觉线索等人机... 针对微光低照度难以感知物体精确位置信息这一问题,基于MR的智能提示辅助技术,以典型吊装作业为研究对象,分析了吊装作业在吊机转位、吊姿调整、点位对准3个典型阶段的信息感知与操作特点,基于混合现实环境下深度线索、听觉线索等人机交互理论,设计了针对3个典型阶段的混合现实信息辅助方案,进行了人机工效实验,结果表明:精细调整部件位姿阶段,迅速吊装场景和高精度吊装场景最佳使用方案不同;精确对准点位阶段,时间压力不大的情况下,使用闪烁光标和颜色变化的辅助直线是最合适的提示方案。对于经典吊装任务全过程,当吊装精度要求较高但时间压力不大时,最佳的智能提示辅助方案为精细调整部件位姿阶段添加移动式轮廓、辅助直线颜色变化,提高深度感知。 展开更多
关键词 混合现实 深度线索 视觉线索 吊装 智能提示
下载PDF
现场音响效果的录音评价 被引量:1
10
作者 仝欣 齐娜 《演艺科技》 2015年第10期29-32,共4页
采用符合中国人平均生理参数的声学头模进行双耳录音评价是现场音响效果评价的一种行之有效的方法,分析基于声学头模的录音评价方法,以及与现场评价方法相比的优势及存在的问题,从而给出提高录音评价准确度的建议方法。
关键词 声学头模 主观评价 录音评价 现场音响效果 视觉提示
下载PDF
患者复查随访提示程序设计及实现 被引量:3
11
作者 王坤亮 高宏 +2 位作者 高云 胡静 张蓥坤 《医疗卫生装备》 CAS 2018年第3期46-49,共4页
目的:提高随访工作效率,便于医生掌握患者院外病情发展情况,及时提醒患者复查,为患者康复打好基础。方法:利用微软Visual Basic 6.0程序编辑软件作为设计基础,配合微软Access数据库完成程序开发。程序主要实现增加、删除、查询、提示4... 目的:提高随访工作效率,便于医生掌握患者院外病情发展情况,及时提醒患者复查,为患者康复打好基础。方法:利用微软Visual Basic 6.0程序编辑软件作为设计基础,配合微软Access数据库完成程序开发。程序主要实现增加、删除、查询、提示4项基本功能,并实现开机自动运行、后台备份当日回访患者、优秀病理备注等与工作紧密相关的功能。结果:经测试,程序运行安全稳定。使用后随访率达到98%以上,不仅让医生更加了解患者院外病情发展情况,更能让患者了解到出院后的护理知识和复查信息。结论:使用患者复查随访提示程序,解决了患者疗程中容易被疏忽的随访环节,同时大大提高了使用者的工作效率。 展开更多
关键词 复查 随访 提示 ACCESS数据库 visual Basic 6.0
下载PDF
显示器画面排布和信息提示对监控效率的影响
12
作者 李若玉 罗楠 +2 位作者 余忠伟 王馨 陈青兰 《厦门理工学院学报》 2021年第1期53-60,共8页
基于眼动跟踪技术,通过实验操控和设计,记录被试在监控显示器分画面有无间隙下以及分画面的不同排布序列下的眼动数据。并结合调查问卷分析视觉搜索效率,探讨监控管理流程中是否给予监控人员提示对监控效率的影响。结果表明,采用有间隙... 基于眼动跟踪技术,通过实验操控和设计,记录被试在监控显示器分画面有无间隙下以及分画面的不同排布序列下的眼动数据。并结合调查问卷分析视觉搜索效率,探讨监控管理流程中是否给予监控人员提示对监控效率的影响。结果表明,采用有间隙的、水平序列的监控分画面排布时,监控人员发现问题画面的效率更高,被试对有间隙监控界面的平均注视时长(42183 ms)显著小于无间隙界面的(53480 ms),对水平序列监控界面的平均注视时长(2689.9 ms)显著小于无间隙界面的(5492.5 ms);在给予监控人员信息提示下,监控效率显著提高。建议企业从3方面优化监控管理流程:在监控界面各分界面之间留有间隙;监控界面的各分画面的序列方式采取水平向序列;监控管理流程中应对监控人员给予合适的提示。 展开更多
关键词 监控显示器 画面排布 信息提示 监控效率 视觉搜索 眼动跟踪技术
下载PDF
沉浸式环境中多场景视觉提示信息可视化方法综述 被引量:2
13
作者 任洋甫 李志强 张松海 《中国图象图形学报》 CSCD 北大核心 2024年第1期1-21,共21页
沉浸式环境是通过虚拟现实(virtual reality,VR)等技术为用户呈现趋近于真实的环境体验。虚拟现实是通过计算机生成现实世界的模拟环境,可以为用户提供丰富的沉浸感、交互性和想象力体验。用户在虚拟现实场景中,通过视觉可以快速熟悉环... 沉浸式环境是通过虚拟现实(virtual reality,VR)等技术为用户呈现趋近于真实的环境体验。虚拟现实是通过计算机生成现实世界的模拟环境,可以为用户提供丰富的沉浸感、交互性和想象力体验。用户在虚拟现实场景中,通过视觉可以快速熟悉环境,获取场景内外的信息,还可以通过视觉完成与场景的交互,增强用户的感知。增强现实(augmented reality,AR)会将虚拟信息放置在真实场景中,用户可以与真实场景中的虚拟信息进行交互。为了充分了解视觉提示信息在虚拟现实等不同沉浸式场景中的研究,探究视觉信息提示方法的本源,本文按照信息提示位置的不同、功能和应用的不同进行区分,首先综述近年来在普通二维场景中的方法,通过技术对比和改进深入讨论了在三维虚拟现实或增强现实环境下对视觉提示信息可视化方法的研究。分析在虚拟现实或增强现实环境下与普通二维场景中显示的异同,同时展开视觉提示信息在多场景下对用户注意力等使用功能方面的研究介绍,以及全景视频观看等实际场景中的应用研究说明。本文通过对二维和三维场景视野外、场景中标签布局和注意力引导,以及全景视频观看等实际应用中的讨论,可以更详细地展示视觉提示信息在沉浸式环境和多场景中的研究前景与发展方向。 展开更多
关键词 沉浸式环境 虚拟现实(VR) 增强现实(AR) 多场景 视觉提示信息 全景视频 注意力引导
原文传递
基于视觉语言提示学习的少样本图像分类方法
14
作者 李宝安 王欣宇 +1 位作者 滕尚志 吕学强 《北京邮电大学学报》 EI CAS CSCD 北大核心 2024年第2期11-17,共7页
为了提高少样本图像分类的性能和泛化能力,充分利用大规模视觉语言预训练模型,提出了一种高效处理少样本图像分类问题的方法。首先,在文本编码部分,整合多个可学习的文本提示,充分挖掘图像类别标签在提示语句中不同位置对模型泛化性能... 为了提高少样本图像分类的性能和泛化能力,充分利用大规模视觉语言预训练模型,提出了一种高效处理少样本图像分类问题的方法。首先,在文本编码部分,整合多个可学习的文本提示,充分挖掘图像类别标签在提示语句中不同位置对模型泛化性能的影响;其次,在图像编码部分,引入可学习的视觉提示,使图像预训练参数能更好地表征少样本图像;最后,在图像和文本特征编码器后添加特征适配器,并在图像分类数据集上微调网络,以提升网络在少样本图像分类数据集上的性能。在10个公开数据集上进行了大量实验,结果表明,相较于现有方法,所提方法在单样本分类的平均准确度上提高了2.9%。 展开更多
关键词 提示学习 视觉语言模型 少样本学习 图像分类 预训练模型
原文传递
视听觉感知下的智能空间提示音意象设计研究
15
作者 孙依明 王毅 冯渲茗 《包装与设计》 2022年第6期106-107,共2页
为了更好地满足用户对于智能空间的听觉需求,本文对声音给用户带来的听觉意象进行了分析,通过语义差异量表的方法将声音意象需求进行层次化梳理。在此基础上,本文以高速路口智慧便民服务亭提示音设计为例,将舒适度感知作为声音意象设计... 为了更好地满足用户对于智能空间的听觉需求,本文对声音给用户带来的听觉意象进行了分析,通过语义差异量表的方法将声音意象需求进行层次化梳理。在此基础上,本文以高速路口智慧便民服务亭提示音设计为例,将舒适度感知作为声音意象设计的首要需求,将“科技感”与“智能感”作为声音意象风格感知的次要需求,并完成智慧便民服务亭提示音的意象设计,从而清晰地映射了用户对于声音的感知需求,以期为智能空间的声音意象设计研究提供一定的参考。 展开更多
关键词 视听感知 智能空间 提示音 声音意象 联觉
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部