期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
基于CLIP和交叉注意力的多模态情感分析模型
1
作者 陈燕 赖宇斌 +2 位作者 肖澳 廖宇翔 陈宁江 《郑州大学学报(工学版)》 CAS 北大核心 2024年第2期42-50,共9页
针对多模态情感分析中存在的标注数据量少、模态间融合不充分以及信息冗余等问题,提出了一种基于对比语言-图片训练(CLIP)和交叉注意力(CA)的多模态情感分析(MSA)模型CLIP-CA-MSA。首先,该模型使用CLIP预训练的BERT模型、PIFT模型来提... 针对多模态情感分析中存在的标注数据量少、模态间融合不充分以及信息冗余等问题,提出了一种基于对比语言-图片训练(CLIP)和交叉注意力(CA)的多模态情感分析(MSA)模型CLIP-CA-MSA。首先,该模型使用CLIP预训练的BERT模型、PIFT模型来提取视频特征向量与文本特征;其次,使用交叉注意力机制将图像特征向量和文本特征向量进行交互,以加强不同模态之间的信息传递;最后,利用不确定性损失特征融合后计算输出最终的情感分类结果。实验结果表明:该模型比其他多模态模型准确率提高5百分点至14百分点,F1值提高3百分点至12百分点,验证了该模型的优越性,并使用消融实验验证该模型各模块的有效性。该模型能够有效地利用多模态数据的互补性和相关性,同时利用不确定性损失来提高模型的鲁棒性和泛化能力。 展开更多
关键词 情感分析 多模态学习 交叉注意力 clip模型 TRANSFORMER 特征融合
下载PDF
单通道实现三级Clipped模型的光学神经网络系统 被引量:1
2
作者 路明哲 战元龄 +1 位作者 王许明 母国光 《光学学报》 EI CAS CSCD 北大核心 1992年第7期631-636,共6页
提出并采用单通道光学系统实现了三级Clipped模型的神经网络,并用统计方法计算了三级Clipped模型的存储容量,和Clipped模型相比,三级Clippdd模型有更强的存储与寻址能力.
关键词 三级 clipped模型 光学神经网络
原文传递
基于CLIP模型的多元回归边缘检测
3
作者 赵景秀 林毓材 杨秀国 《计算机工程与应用》 CSCD 北大核心 2004年第4期48-50,55,共4页
20世纪80年代中期由Jourlin和Pinoli提出的对数图像处理LIP模型颇具特色,该模型中的方法对低亮度图像敏感,并且对灰度有界图像的加法运算是封闭的,在边缘检测等方面有着其他方法所不具备的优点。该文基于灰度图像的对数图像处理LIP模型... 20世纪80年代中期由Jourlin和Pinoli提出的对数图像处理LIP模型颇具特色,该模型中的方法对低亮度图像敏感,并且对灰度有界图像的加法运算是封闭的,在边缘检测等方面有着其他方法所不具备的优点。该文基于灰度图像的对数图像处理LIP模型,建立了彩色图像的对数图像处理CLIP模型,并在此模型上进行了对彩色图像边缘检测技术的系统研究。首先,文章在彩色图像的红、绿、蓝、色彩、饱和度、明度以及灰度等各分量场上进行了CLIP模型上的边缘检测的研究,然后,在人机交互的边缘像素采样的基础上,用多元回归的方法,得出了对各分量进行加权组合时各分量的权重系数,再将其用于不同类型样品图像的边缘检测,得到了更理想的结果。 展开更多
关键词 彩色图像 边缘检测 clip模型 多元回归
下载PDF
基于CLIP生成多事件表示的视频文本检索方法 被引量:1
4
作者 涂荣成 毛先领 +4 位作者 孔伟杰 蔡成飞 赵文哲 王红法 黄河燕 《计算机研究与发展》 EI CSCD 北大核心 2023年第9期2169-2179,共11页
视频-文本检索作为一项被广泛应用于现实生活中的多模态检索技术受到越来越多的研究者的关注.近来,大部分视频文本工作通过利用大规模预训练模型中所学到的视觉与语言之间的匹配关系来提升文本视频间跨模态检索效果.然而,这些方法忽略... 视频-文本检索作为一项被广泛应用于现实生活中的多模态检索技术受到越来越多的研究者的关注.近来,大部分视频文本工作通过利用大规模预训练模型中所学到的视觉与语言之间的匹配关系来提升文本视频间跨模态检索效果.然而,这些方法忽略了视频、文本数据都是由一个个事件组合而成.倘若能捕捉视频事件与文本事件之间的细粒度相似性关系,将能帮助模型计算出更准确的文本与视频之间的语义相似性关系,进而提升文本视频间跨模态检索效果.因此,提出了一种基于CLIP生成多事件表示的视频文本检索方法(CLIP based multi-event representation generation for video-text retrieval,CLIPMERG).首先,通过利用大规模图文预训练模型CLIP的视频编码器(ViT)以及文本编码器(Tansformer)分别将视频、文本数据转换成视频帧token序列以及文本的单词token序列;然后,通过视频事件生成器(文本事件生成器)将视频帧token序列(单词token序列)转换成k个视频事件表示(k个文本事件表示);最后,通过挖掘视频事件表示与文本事件表示之间的细粒度关系以定义视频、文本间的语义相似性关系.在3个常用的公开视频文本检索数据集MSR-VTT,DiDeMo,LSMDC上的实验结果表明所提的CLIPMERG优于现有的视频文本检索方法. 展开更多
关键词 预训练模型 视频文本检索 事件表示 clip模型 Transformer模型
下载PDF
基于CLIP模型的军事领域图片资源多模态搜索工具研究 被引量:1
5
作者 赵晋巍 刘晓鹏 +3 位作者 罗威 程瑾 毛彬 宋宇 《中华医学图书情报杂志》 CAS 2022年第8期14-20,共7页
深入调研梳理了OpenAI CLIP多模态模型和相关应用研究。借助CLIP模型,通过大规模军事相关图片数据集开展实验,设计开发了具有以文搜图和以图搜图功能的多模态搜索工具,且在实际测试中表现良好,可以为后续围绕军事相关图片的事件分类、... 深入调研梳理了OpenAI CLIP多模态模型和相关应用研究。借助CLIP模型,通过大规模军事相关图片数据集开展实验,设计开发了具有以文搜图和以图搜图功能的多模态搜索工具,且在实际测试中表现良好,可以为后续围绕军事相关图片的事件分类、目标检测、任务轨迹跟踪等方面的分析研究奠定基础。 展开更多
关键词 clip模型 多模态 图文检索 以图搜图
下载PDF
基于多模态知识图谱的水稻施肥期判别方法
6
作者 袁立存 周俊 +1 位作者 戈为溪 郑彭元 《农业机械学报》 EI CAS CSCD 北大核心 2024年第9期163-173,共11页
目前水稻施肥时间的确定依赖于传统经验与人工巡田观察的综合判断,难以满足当前农业智能化的发展。为此,提出了一种基于多模态知识图谱的水稻施肥期判别方法,综合利用了文本形式的经验信息和图像形式的视觉信息进行施肥期确定。首先构... 目前水稻施肥时间的确定依赖于传统经验与人工巡田观察的综合判断,难以满足当前农业智能化的发展。为此,提出了一种基于多模态知识图谱的水稻施肥期判别方法,综合利用了文本形式的经验信息和图像形式的视觉信息进行施肥期确定。首先构建单模态水稻施肥知识图谱,利用依存句法分析提取返青肥、分蘖肥、穗肥、粒肥4个施肥期对应的跨模态特征短语,结合Chinese CLIP模型得到它们与图像的匹配度以及与施肥期节点的权重后组成新的带有跨模态节点的三元组,完成多模态水稻施肥知识图谱的构建;然后基于多模态知识图谱计算输入信息的综合匹配度,使用大田采集的图像进行交叉验证,综合评估判别方法的准确性和稳定性确定各施肥期的判定阈值,实现对该输入的施肥期判别。以实际采集的各施肥期当日及前、后5 d的600幅图像测试判别方法的准确率,结果表明,基于多模态知识图谱的水稻施肥期判别方法总体准确率达到86.2%,其中粒肥时期判别准确率最高,为90.1%。该施肥期判别方法同时利用文本、图像两种模态的信息,提高了信息利用率,在真实场景下具有判别能力,为水稻施肥期自动确定提供参考。 展开更多
关键词 水稻 施肥期 多模态 知识图谱 clip模型
下载PDF
智能AI相册软件的设计与实现
7
作者 乔一鸣 王烨炜 +3 位作者 王银平 文靖铭 高广银 叶志鹏 《电脑知识与技术》 2024年第22期48-52,56,共6页
当前,大多数人的移动设备中都存储有大量图片,这些图片来源于相机拍摄、网络下载或是朋友同事分享等,而管理这些大量图片则往往是一项烦琐的任务。传统的相册应用通常只能按照时间或手动标签进行排序,用户在如此大量的图片中要找到目标... 当前,大多数人的移动设备中都存储有大量图片,这些图片来源于相机拍摄、网络下载或是朋友同事分享等,而管理这些大量图片则往往是一项烦琐的任务。传统的相册应用通常只能按照时间或手动标签进行排序,用户在如此大量的图片中要找到目标图片非常困难。文章基于Kivy框架,设计并开发了一款智能AI相册软件,该软件集成了K-Means算法和CLIP模型,可实现图片的智能聚类、分类和语义检索,同时还具有个性化收藏和隐私保护功能,为用户提供了一种更智能、更便捷的照片管理方式。 展开更多
关键词 AI相册 K-MEANS算法 clip模型 语义检索
下载PDF
基于SC-Attention机制的多模态讽刺检测研究
8
作者 陈圆圆 马静 《数据分析与知识发现》 CSSCI CSCD 北大核心 2022年第9期40-51,共12页
【目的】针对现有多模态讽刺检测模型中存在预测准确率不高、多模态特征难以融合等问题,设计一种SC-Attention融合机制。【方法】采用CLIP和RoBERTa模型分别提取图像、图像属性和文本三种模态特征,经由SENet的注意力机制和Co-Attention... 【目的】针对现有多模态讽刺检测模型中存在预测准确率不高、多模态特征难以融合等问题,设计一种SC-Attention融合机制。【方法】采用CLIP和RoBERTa模型分别提取图像、图像属性和文本三种模态特征,经由SENet的注意力机制和Co-Attention机制结合构成的SC-Attention机制将多模态特征进行融合,以原始模态特征为引导,合理分配特征权重,最后输入全连接层进行讽刺检测。【结果】实验结果表明,基于SC-Attention机制的多模态讽刺检测的准确率为93.71%,F1值为91.68%,与基准模型相比,准确率提升10.27个百分点,F1值提升11.50个百分点。【局限】模型的泛化性需要在更多数据集上体现出来。【结论】SCAttention机制减少信息冗余和特征损失,有效提高多模态讽刺检测的准确率。 展开更多
关键词 多模态 讽刺检测 SC-Attention机制 clip模型
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部