期刊文献+
共找到55篇文章
< 1 2 3 >
每页显示 20 50 100
基于Transformer的时序多模态融合特征的异常网络流量检测方法 被引量:2
1
作者 唐永旺 刘会景 +1 位作者 靳彦青 王刚 《信息工程大学学报》 2023年第4期468-474,共7页
针对当前卷积和循环神经网络相结合的模型无法有效表征网络流量的问题,提出一种基于Tansformer的时序多模态融合特征的异常网络流量检测方法。首先,以会话为单位切分网络流量,将会话中流量记录的统计特征分组。其次,利用多模态注意力编... 针对当前卷积和循环神经网络相结合的模型无法有效表征网络流量的问题,提出一种基于Tansformer的时序多模态融合特征的异常网络流量检测方法。首先,以会话为单位切分网络流量,将会话中流量记录的统计特征分组。其次,利用多模态注意力编码器计算特征分组的融合特征,进而利用注意力机制对一个会话的所有流量记录并行建模,挖掘流量记录的时序多模态融合特征。最后,利用全连接层和softmax层对该特征进行线性变换和概率计算。在CIC-ToN-IoT数据集上的实验结果表明该方法切实可行,相较于对比方法,在取得较高的准确率和精度的同时,保持了最低的误报率。 展开更多
关键词 深度学习 时序多模态融合特征 多模态编码器 注意力机制 异常流量
下载PDF
一种多尺度特征融合的多模态三维点云配准模型
2
作者 韩建栋 李晓蕊 《微电子学与计算机》 2024年第11期31-38,共8页
针对三维点云配准中现有描述符提取方法可能导致点云结构信息不显著以及点云数据细节丢失的问题,提出了一种多尺度特征融合的多模态三维点云配准模型(Multi-scale Feature Fusion,MSFNet)。首先,在编码器中采用基于稀疏卷积的通道注意... 针对三维点云配准中现有描述符提取方法可能导致点云结构信息不显著以及点云数据细节丢失的问题,提出了一种多尺度特征融合的多模态三维点云配准模型(Multi-scale Feature Fusion,MSFNet)。首先,在编码器中采用基于稀疏卷积的通道注意力模块(Channel Attention Module Based On Sparse Convolution,SCCAM)使得该模型能够自适应地关注点云的特征结构;然后,利用多尺度空间点云编码结构(Multi-scale Spatial Point Cloud Encoding,MSPCE)提取并有效融合不同尺度下的点云特征,从而增加点云描述符的感受野;最后,利用多模态特征融合模块对编码器提取的点云特征与图片特征进行融合,并将其送入解码器进行监督训练,以生成最终的点云描述符。采用特征匹配召回率(Feature-Match Recall,FMR)作为评价指标,在数据集3DMatch上进行实验。实验结果表明MSFNet网络其召回率精度达到了98.4%,与IMFNet(Interpretable Multimodal Fusion)网络相比,提升了0.8%。 展开更多
关键词 三维点云配准 多尺度点云编码 注意力机制 多模态特征融合 多尺度特征融合
下载PDF
基于SEFusion-MPOR的多模态特征融合舆情表征算法
3
作者 郭小宇 马静 《情报理论与实践》 CSSCI 北大核心 2024年第7期181-189,共9页
[目的/意义]多模态舆情表征是多模态舆情计算与分析的基础。文章探索了一种赋予不同模态特征动态权重的舆情表征算法,可以更精准地捕捉到模态之间的依赖关系,极大降低多模态舆情表征复杂度,减少算力资源消耗。[方法/过程]SEFusion-MPOR... [目的/意义]多模态舆情表征是多模态舆情计算与分析的基础。文章探索了一种赋予不同模态特征动态权重的舆情表征算法,可以更精准地捕捉到模态之间的依赖关系,极大降低多模态舆情表征复杂度,减少算力资源消耗。[方法/过程]SEFusion-MPOR算法在预训练模型特征的基础上,通过全连接层、门控机制与激活函数构建了压缩与激活算子,获取各模态的动态权重,使用矩阵相乘将动态权重作用于相应模态,进而构建了多模态特征融合的网络舆情表征算法。[结果/结论]在Memotion 3与MVSA-multiple两个公开的多模态舆情数据集上进行实验,与基线模型的对比表明,文章提出的表征方法在多个子任务中取得了最优结果。该方法仅通过简单操作,就达到了复杂表征算法的效果,且具有可解释性与外推性。其高效和准确的表征方法不仅适用于舆情情报处理,也适合情报分析工作中的通用多模态信息基础表征。[局限]研究验证仅限于双模态数据集,未涉及更广泛模态的数据集。 展开更多
关键词 多模态舆情 多模态特征融合 舆情表征 预训练模型 SEFusion-MPOR
下载PDF
基于多模态特征融合的旅游体验质量反馈系统设计
4
作者 文斌 胡辉 《通讯世界》 2024年第9期184-186,共3页
针对现有旅游体验质量的评价方法主要依赖于文本评论,存在主观性强、信息不完整等问题,设计了一种基于多模态特征融合的旅游体验质量反馈系统,充分利用多源异构数据,提高评价的客观性和全面性。采用分布式架构设计基于多模态特征融合的... 针对现有旅游体验质量的评价方法主要依赖于文本评论,存在主观性强、信息不完整等问题,设计了一种基于多模态特征融合的旅游体验质量反馈系统,充分利用多源异构数据,提高评价的客观性和全面性。采用分布式架构设计基于多模态特征融合的旅游体验质量反馈系统,主要包括数据采集层、数据传输层、数据处理层和用户交互层,在此基础上,通过硬件和软件实现旅游体验质量反馈。与单一模态方法相比,该系统能够更准确地评价旅游体验质量,及时提供有价值的反馈信息,体现了多模态融合的优势。 展开更多
关键词 多模态特征融合 人工智能 旅游体验 系统设计
下载PDF
多模态特征融合与多任务学习的特种视频分类 被引量:5
5
作者 吴晓雨 顾超男 王生进 《光学精密工程》 EI CAS CSCD 北大核心 2020年第5期1177-1186,共10页
特种视频(本文特指暴力视频)的智能分类技术有助于实现网络信息内容安全的智能监控。针对现有特种视频多模态特征融合时未考虑语义一致性等问题,本文提出了一种基于音视频多模态特征融合与多任务学习的特种视频识别方法。首先,提取特种... 特种视频(本文特指暴力视频)的智能分类技术有助于实现网络信息内容安全的智能监控。针对现有特种视频多模态特征融合时未考虑语义一致性等问题,本文提出了一种基于音视频多模态特征融合与多任务学习的特种视频识别方法。首先,提取特种视频的表观信息和运动信息随时空变化的视觉语义特征及音频信息语义特征;然后,构建具有语义保持的共享特征子空间,以实现音视频多种模态特征的融合;最后,提出基于音视频特征的语义一致性度量和特种视频分类的多任务学习特种视频分类理论框架,设计了对应的损失函数,实现了端到端的特种视频智能识别。实验结果表明,本文提出的算法在Violent Flow和MediaEval VSD 2015两个数据集上平均精度分别为97.97%和39.76%,优于已有研究。结果证明了该算法的有效性,有助于提升特种视频监控的智能化水平。 展开更多
关键词 特种视频识别 特征提取 多模态特征融合 语义一致性度量 多任务学习
下载PDF
基于多模态特征融合的行人穿越意图预测方法
6
作者 陈龙 杨晨 +2 位作者 蔡英凤 王海 李祎承 《汽车工程》 EI CSCD 北大核心 2023年第10期1779-1790,共12页
行人行为预测是城市环境智能汽车决策规划系统面临的主要挑战之一,提升行人穿越意图的预测准确率对于行车安全意义重大。针对现有方法过度依赖行人的边界框位置信息,且很少考虑交通场景中环境信息及交通对象间的交互关系等问题,本文提... 行人行为预测是城市环境智能汽车决策规划系统面临的主要挑战之一,提升行人穿越意图的预测准确率对于行车安全意义重大。针对现有方法过度依赖行人的边界框位置信息,且很少考虑交通场景中环境信息及交通对象间的交互关系等问题,本文提出一种基于多模态特征融合的行人过街意图预测方法。首先结合多种注意力机制构建了一种新型全局场景上下文信息提取模块和局部场景时空特征提取模块来增强其提取车辆周边场景时空特征的能力,并依赖场景的语义解析结果来捕获行人与其周围环境之间的交互关系,解决了交通环境上下文信息与交通对象之间的交互信息应用不充分的问题。此外,本文设计了一种基于混合融合策略的多模态特征融合模块,根据不同信息源的复杂程度实现了对视觉特征和运动特征的联合推理,为行人穿越意图预测模块提供可靠信息。基于JAAD数据集的测试表明,所提出方法的预测Accuracy为0.84,较基线方法提升了10.5%,相比于现有的同类型模型,所提出方法的综合性能最佳,且具有更广泛的应用场景。 展开更多
关键词 自动驾驶汽车 行人意图预测 多模态特征融合 注意力机制
下载PDF
融合多模态特征的社会多媒体谣言检测技术研究 被引量:9
7
作者 金志威 曹娟 +2 位作者 王博 王蕊 张勇东 《南京信息工程大学学报(自然科学版)》 CAS 2017年第6期583-592,共10页
以微博为代表的社会媒体的蓬勃发展在加速信息交流的同时,也促使虚假谣言信息迅速在社会网络上传播,造成严重的后果.自动谣言检测问题受到了国内外学术界、产业界的广泛关注.围绕社会多媒体谣言检测这一问题,本文总结了融合多模态特征... 以微博为代表的社会媒体的蓬勃发展在加速信息交流的同时,也促使虚假谣言信息迅速在社会网络上传播,造成严重的后果.自动谣言检测问题受到了国内外学术界、产业界的广泛关注.围绕社会多媒体谣言检测这一问题,本文总结了融合多模态特征的谣言检测相关技术.首先从基本概念出发,阐述了谣言的定义和社会多媒体的特点,给出了社会多媒体谣言检测问题的定义.针对谣言检测面临的多模态特征抽取和模型构建两大难点,分别总结和归纳了各种类型的特征及其提取方法和不同的机器学习检测模型.这些特征和算法是检测谣言的基本手段,也是接下来研究的基础,可为进一步谣言检测的研究提供参考. 展开更多
关键词 谣言检测 社会媒体计算 多媒体计算 深度学习 多模态特征融合 新闻认证
下载PDF
一种基于多模态深度特征融合的视觉问答模型 被引量:4
8
作者 邹芸竹 杜圣东 +1 位作者 滕飞 李天瑞 《计算机科学》 CSCD 北大核心 2023年第2期123-129,共7页
大数据时代,随着多源异构数据的爆炸式增长,多模态数据融合问题备受研究者的关注,其中视觉问答因需要图文协同处理而成为当前多模态数据融合研究的热点。视觉问答任务主要是对图像和文本两类模态数据进行特征关联与融合表示,最后进行推... 大数据时代,随着多源异构数据的爆炸式增长,多模态数据融合问题备受研究者的关注,其中视觉问答因需要图文协同处理而成为当前多模态数据融合研究的热点。视觉问答任务主要是对图像和文本两类模态数据进行特征关联与融合表示,最后进行推理学习给出结论。传统的视觉问答模型在特征融合时容易缺失模态关键信息,且大多数方法停留在数据之间浅层的特征关联表示学习,较少考虑深层的语义特征融合。针对上述问题,提出了一种基于图文特征跨模态深度交互的视觉问答模型。该模型利用卷积神经网络和长短时记忆网络分别获取图像和文本两种模态数据特征,然后利用元注意力单元组合建立的新型深度注意力学习网络,实现图文模态内部与模态之间的注意力特征交互式学习,最后对学习特征进行多模态融合表示并进行推理预测输出。在VQA-v2.0数据集上进行了模型实验和测试,结果表明,与基线模型相比,所提模型的性能有明显提升。 展开更多
关键词 视觉问答 多模态特征融合 注意力机制 深度学习 数据融合
下载PDF
基于多模态特征融合嵌入的相似广告检索方法 被引量:2
9
作者 冯奕 周晓松 +5 位作者 李传艺 王挺 葛季栋 胡雨成 张小鹏 骆斌 《计算机学报》 EI CAS CSCD 北大核心 2022年第7期1500-1516,共17页
随着互联网人工智能技术的飞速发展,学习用户特征并精准投放广告能够显著提升广告的点击率(Click-Through-Rate,CTR)与转化率(Conversion Rate,CVR).人群智能定向是解决广告投放问题中极其重要的一环,其业界主流方法是使用转化用户和非... 随着互联网人工智能技术的飞速发展,学习用户特征并精准投放广告能够显著提升广告的点击率(Click-Through-Rate,CTR)与转化率(Conversion Rate,CVR).人群智能定向是解决广告投放问题中极其重要的一环,其业界主流方法是使用转化用户和非转化用户训练基于用户特征的判断其是否会成为转化用户的分类模型.这个分类器的优劣依赖广告的实际转化人群规模,规模越大,越能准确判断.但在实际应用中通常面临某些广告转化人群不足的问题,本文利用在学术与工业场景占据重要研究地位的基于内容的检索技术来扩充相似广告集合,从而扩充对应转化人群.现有的单模态检索方案只关注于单个模态的特征(文本/图像),忽视了不同模态间的内在共有联系,使得挖掘出的广告特征不全且包含大量噪声,最终导致相似广告的检索结果质量不高,从而导致相似转化人群的扩充质量低下.而近年来兴起的跨模态检索方案主要关注以文搜图或以图搜文,并且没有考虑到通用目标检测器并不适用于特定领域图像数据这一事实.为解决这些问题,本文提出一种以广告分类为基本训练目标的多模态商品广告特征融合建模方法,以提升相似广告检索的效果.具体来说,本文使用Transformer模型提取文本语义特征,使用目标检测YOLO模型挖掘图像中细粒度的视觉特征,并结合文本注意力机制识别图像中与商品相关的目标,以降低无关目标给广告特征带来的噪声影响.同时,本文提出了一种多模态融合注意力机制,以高效融合广告文本和图像特征.该模型命名为ToTYEmb(Text oriented Transformer-Yolo fusion Embedding).另外,本文还提出了一种算法框架,将相似广告扩充、转化人群扩充加入到现有的人群智能定向工作流中.实验结果表明,较多个基线模型,本文方案有效提升了相似商品广告的检索质量,避免了很多由单模态信息带来的错误.同时离线人群定向更新实验表明本文提出的利用相似广告扩充转化人群确实能在很大程度上优化现有的人群智能定向算法. 展开更多
关键词 多模态特征融合 相似广告检索 TRANSFORMER 注意力机制
下载PDF
基于多模态特征融合的轻量级人脸活体检测方法 被引量:7
10
作者 皮家甜 杨杰之 +5 位作者 杨琳希 彭明杰 邓雄 赵立军 唐万梅 吴至友 《计算机应用》 CSCD 北大核心 2020年第12期3658-3665,共8页
人脸活体检测是人脸识别过程中的一个重要环节,对于身份验证的安全性尤为重要。针对人脸识别过程存在照片、视频、面具、头套、头模等欺骗手段,通过Intel Realsense相机采集人脸RGB图和深度图信息,并在MobileNetV3的基础上提出了特征融... 人脸活体检测是人脸识别过程中的一个重要环节,对于身份验证的安全性尤为重要。针对人脸识别过程存在照片、视频、面具、头套、头模等欺骗手段,通过Intel Realsense相机采集人脸RGB图和深度图信息,并在MobileNetV3的基础上提出了特征融合的轻量级活体检测网络,将深度图与RGB图的特征融合起来并且进行端到端的训练。而为了解决深度学习中参数量较大以及网络尾部对于权重区域的区分的问题,提出在网络尾部采用Streaming Module以减少网络参数量并且对权重区域进行区分。在CASIA-SURF数据集以及所制作的CQNU-LN数据集上进行仿真实验,结果表明所提方法在两个数据集上均于TPR@FPR=10E-4的级别上达到了95%的精度,相较对比方法中精度最高的ShuffleNet分别提高了0.1%和0.05%;在所制作的CQNU-3Dmask数据集上,所提方法于TPR@FPR=10E-4的级别达到了95.2%的精度,比仅训练RGB图或仅训练深度图的方法分别提升了0.9%和6.5%,并且,模型的参数文件的大小仅为1.8 MB,每秒浮点数运算量(FLOPs)仅为1.5×10^6。该方法能够在实际应用中对提取到的人脸进行准确的实时检测。 展开更多
关键词 计算机视觉 卷积神经网络 人脸活体检测 多模态特征融合 轻量级网络
下载PDF
面向电力多模态融合的语义差异性和感知能力差异性分析方法
11
作者 王红霞 王波 +3 位作者 董旭柱 姚良忠 张嘉鑫 马恒瑞 《高电压技术》 EI CAS CSCD 北大核心 2024年第9期4037-4047,I0021,共12页
多模态融合是实现电力系统数字化的重要技术手段,但多模态特征间的差异性限制了融合感知效果。因此,首先对电力多模态数据融合中的语义差异性和感知能力差异性现象进行了深入分析,对差异性产生的特征同化和权重决策问题进行了剖析。然后... 多模态融合是实现电力系统数字化的重要技术手段,但多模态特征间的差异性限制了融合感知效果。因此,首先对电力多模态数据融合中的语义差异性和感知能力差异性现象进行了深入分析,对差异性产生的特征同化和权重决策问题进行了剖析。然后,针对语义差异性问题,使用角度差对多模态语义差异进行表征,并基于此寻找联合表征空间,实现电力多模态特征同化;其次,针对感知能力差异性问题,使用交叉损失熵对电力多模态感知能力进行表征,并基于此构建权重决策模块,实现多模态特征融合权重计算。最后,以前期所提融合框架为基础,提出了针对多模态差异性问题的高容错性特征融合模型。仿真以输变电线路应急抢修场景为例,基于所提分阶段训练策略进行模型训练,并从融合感知、特征同化以及权重决策机制3个方面验证了所提方法的有效性。 展开更多
关键词 多模态特征融合 语义差异性 感知能力差异性 特征同化 权重决策
下载PDF
基于多模态对齐融合的车厢部件语义分割算法
12
作者 赵梓云 高晓蓉 罗林 《现代电子技术》 北大核心 2024年第16期150-156,共7页
车厢部件的定期情况监测是列车安全运行的重要保证之一,基于深度学习的语义分割方法可以用于相关部件的位置形态确定,以便后续进行螺栓和管线是否松动或变形的检查,但这对分割精度有较高的要求。另外,仅基于普通图像的纹理特征难以应对... 车厢部件的定期情况监测是列车安全运行的重要保证之一,基于深度学习的语义分割方法可以用于相关部件的位置形态确定,以便后续进行螺栓和管线是否松动或变形的检查,但这对分割精度有较高的要求。另外,仅基于普通图像的纹理特征难以应对各种实际复杂场景,会出现分割不连续、边缘轮廓不清晰的问题。为此,提出一种基于多模态数据对齐融合的语义分割算法,额外引入车厢深度图来补充普通图像中缺失的几何特征信息,再将两种模态的特征对齐后作为互补的特征融合学习,最终达到准确分割部件的目的。通过车厢部件的RGBD语义分割数据集的建立,对所提算法在实际应用场景下的效果进行验证,得到97.2%的召回率以及87.4%的平均交并比。同时,所设计模型在NYUDV2数据集上达到了53.5%的平均交并比,与同类型算法相比处于先进水平。这些结果表明,所提算法在有挑战性的车厢部件分割任务中,可以达到良好的分割效果,也具有较好的泛化性,有助于提升车厢部件检测的自动化水平,减轻人工压力。 展开更多
关键词 RGBD语义分割 车厢部件 多模态特征融合 特征对齐 螺栓 管线 注意力机制
下载PDF
多模态特征融合的长视频行为识别方法 被引量:3
13
作者 王婷 刘光辉 +2 位作者 张钰敏 孟月波 徐胜军 《计算机测量与控制》 2021年第11期165-170,175,共7页
行为识别技术在视频检索具有重要的应用价值;针对基于卷积神经网络的行为识别方法存在的长时序行为识别能力不足、尺度特征提取困难、光照变化及复杂背景干扰等问题,提出一种多模态特征融合的长视频行为识别方法;首先,考虑到长时序行为... 行为识别技术在视频检索具有重要的应用价值;针对基于卷积神经网络的行为识别方法存在的长时序行为识别能力不足、尺度特征提取困难、光照变化及复杂背景干扰等问题,提出一种多模态特征融合的长视频行为识别方法;首先,考虑到长时序行为帧间差距较小,易造成视频帧的冗余,基于此,通过均匀稀疏采样策略完成全视频段的时域建模,在降低视频帧冗余度的前提下实现长时序信息的充分保留;其次,通过多列卷积获取多尺度时空特征,弱化视角变化对视频图像带来的干扰;后引入光流数据信息,通过空间注意力机制引导的特征提取网络获取光流数据的深层次特征,进而利用不同数据模式之间的优势互补,提高网络在不同场景下的准确性和鲁棒性;最后,将获取的多尺度时空特征和光流信息在网络的全连接层进行融合,实现了端到端的长视频行为识别;实验结果表明,所提方法在UCF101和HMDB51数据集上平均精度分别为97.2%和72.8%,优于其他对比方法,实验结果证明了该方法的有效性。 展开更多
关键词 深度学习 行为识别 特征提取 多模态特征融合
下载PDF
基于多模态特征融合的自主驾驶车辆低辨识目标检测方法 被引量:7
14
作者 邹伟 殷国栋 +4 位作者 刘昊吉 耿可可 黄文涵 吴愿 薛宏伟 《中国机械工程》 EI CAS CSCD 北大核心 2021年第9期1114-1125,共12页
针对自主驾驶车辆在真实驾驶环境下对低辨识目标的识别问题,提出了基于多模态特征融合的目标检测方法。基于Faster R-CNN算法设计多模态深度卷积神经网络,融合彩色图像、偏振图像、红外图像特征,提高对低辨识目标的检测性能;开发多模态(... 针对自主驾驶车辆在真实驾驶环境下对低辨识目标的识别问题,提出了基于多模态特征融合的目标检测方法。基于Faster R-CNN算法设计多模态深度卷积神经网络,融合彩色图像、偏振图像、红外图像特征,提高对低辨识目标的检测性能;开发多模态(3种)图像低辨识度目标实时检测系统,探索多模态图像特征融合在自动驾驶智能感知系统中的应用。建立了人工标注过的多模态(3种)图像低辨识目标数据集,对深度学习神经网络进行训练,优化内部参数,使得该系统适用于复杂环境下对行人、车辆目标的检测和识别。实验结果表明,相对于传统的单模态目标检测算法,基于多模态特征融合的深度卷积神经网络对复杂环境下的低辨识目标具有更好的检测和识别性能。 展开更多
关键词 自主驾驶 多模态特征融合 深度卷积神经网络 低辨识目标 智能感知
下载PDF
基于注意力机制和多模态特征融合的猕猴脑磁共振图像全脑分割 被引量:1
15
作者 吴雪扬 张煜 +1 位作者 张华 钟涛 《南方医科大学学报》 CAS CSCD 北大核心 2023年第12期2118-2125,共8页
目的提出并探讨一种新的基于注意力机制和多模态特征融合的深度学习算法(DDAM),实现对猕猴脑MRI图像的全脑分割。方法共收集68例年龄分布在13~36月的多模态猕猴脑MRI图像数据,且均包含对应的真实标签。针对多模态数据信息复杂且互补的特... 目的提出并探讨一种新的基于注意力机制和多模态特征融合的深度学习算法(DDAM),实现对猕猴脑MRI图像的全脑分割。方法共收集68例年龄分布在13~36月的多模态猕猴脑MRI图像数据,且均包含对应的真实标签。针对多模态数据信息复杂且互补的特点,采用多编码器结构分别适应不同模态并进行特征提取。在解码器部分引入注意力机制构建多模态特征融合模块(AMFF),利用模态间信息丰富且互补的特点,充分融合不同尺度和复杂度的多模态特征,进而提升分割性能。另外,进行消融实验分析并对结果进行统计学检验。结果多编码器结构以及注意力机制的引入能够有效地提升模型对多模态特征的融合能力,使得猕猴数据的全脑分割平均DSC达到0.904,ASD低至0.131(P<0.05)。消融实验结果验证了DDAM方法各组成部分的有效性。结论本文针对多模态数据特点构建深度学习算法模型,提出的DDAM方法,能够更有效地提取并融合多模态特征,从而实现全脑分割精度的显著提高。 展开更多
关键词 猕猴大脑 磁共振全脑分割 深度学习 注意力机制 多模态特征融合
下载PDF
基于多模态特征融合的井下人员不安全行为识别 被引量:5
16
作者 王宇 于春华 +1 位作者 陈晓青 宋家威 《工矿自动化》 CSCD 北大核心 2023年第11期138-144,共7页
采用人工智能技术对井下人员的行为进行实时识别,对保证矿井安全生产具有重要意义。针对基于RGB模态的行为识别方法易受视频图像背景噪声影响、基于骨骼模态的行为识别方法缺乏人与物体的外观特征信息的问题,将2种方法进行融合,提出了... 采用人工智能技术对井下人员的行为进行实时识别,对保证矿井安全生产具有重要意义。针对基于RGB模态的行为识别方法易受视频图像背景噪声影响、基于骨骼模态的行为识别方法缺乏人与物体的外观特征信息的问题,将2种方法进行融合,提出了一种基于多模态特征融合的井下人员不安全行为识别方法。通过SlowOnly网络对RGB模态特征进行提取;使用YOLOX与Lite-HRNet网络获取骨骼模态数据,采用PoseC3D网络对骨骼模态特征进行提取;对RGB模态特征与骨骼模态特征进行早期融合与晚期融合,最后得到井下人员不安全行为识别结果。在X-Sub标准下的NTU60 RGB+D公开数据集上的实验结果表明:在基于单一骨骼模态的行为识别模型中,PoseC3D拥有比GCN(图卷积网络)类方法更高的识别准确率,达到93.1%;基于多模态特征融合的行为识别模型对比基于单一骨骼模态的识别模型拥有更高的识别准确率,达到95.4%。在自制井下不安全行为数据集上的实验结果表明:基于多模态特征融合的行为识别模型在井下复杂环境下识别准确率仍最高,达到93.3%,对相似不安全行为与多人不安全行为均能准确识别。 展开更多
关键词 智能矿山 行为识别 目标检测 姿态估计 多模态特征融合 RGB模态 骨骼模态 YOLOX
下载PDF
基于多模态特征融合的个性化视频推荐方法 被引量:2
17
作者 谭晓 孙全明 曲志坚 《智能计算机与应用》 2020年第12期209-213,共5页
为了充分利用用户历史行为数据的结构化特征,提高视频个性化推荐效果,本文提出了一种基于多模态特征融合的视频个性化推荐方法。通过Word2Vec提取视频的词向量特征,并将视频数据从高维空间映射到低维稠密空间;提取视频图像特征以及文本... 为了充分利用用户历史行为数据的结构化特征,提高视频个性化推荐效果,本文提出了一种基于多模态特征融合的视频个性化推荐方法。通过Word2Vec提取视频的词向量特征,并将视频数据从高维空间映射到低维稠密空间;提取视频图像特征以及文本特征并与结构化特征进行融合,共同完成视频推荐任务。通过融合LightGBM和DeepFM构建推荐模型,该融合模型既具有在连续特征上的学习能力,也拥有高阶特征组合的泛化能力。该方法能够更好的挖掘用户偏好,提高模型推荐的准确性。 展开更多
关键词 多模态特征融合 视频推荐 词向量 用户偏好
下载PDF
基于多模态特征融合的人脸物理对抗样本性能预测算法
18
作者 周风帆 凌贺飞 +3 位作者 张锦元 夏紫薇 史宇轩 李平 《计算机科学》 CSCD 北大核心 2023年第8期280-285,共6页
人脸物理对抗样本攻击(Facial Physical Adversarial Attack,FPAA)指攻击者通过粘贴或佩戴物理对抗样本,如打印的眼镜、纸片等,在摄像头下被识别成特定目标的人脸,或者让人脸识别系统无法识别的攻击方式。已有FPAA的性能评测会受到多种... 人脸物理对抗样本攻击(Facial Physical Adversarial Attack,FPAA)指攻击者通过粘贴或佩戴物理对抗样本,如打印的眼镜、纸片等,在摄像头下被识别成特定目标的人脸,或者让人脸识别系统无法识别的攻击方式。已有FPAA的性能评测会受到多种环境因素的影响,且需要多个人工操作的环节,导致性能评测效率非常低下。为了减少人脸物理对抗样本性能评测方面的工作量,结合数字图片和环境因素之间的多模态性,提出了多模态特征融合预测算法(Multimodal Feature Fusion Prediction Algorithm,MFFP)。具体地,使用不同的网络提取攻击者人脸图片、受害者人脸图片和人脸数字对抗样本图片的特征,使用环境特征网络来提取环境因素中的特征,然后使用一个多模态特征融合网络对这些特征进行融合,多模态特征融合网络的输出即为所预测的人脸物理对抗样本图片和受害者图片之间的余弦相似度。MFFP算法在未知环境、未知FPAA算法的实验场景下取得了0.003的回归均方误差,其性能优于对比算法,验证了MFFP算法对FPAA性能预测的准确性,可以对FPAA性能进行快速评估,同时大幅降低人工操作的工作量。 展开更多
关键词 人工智能安全 对抗样本 人脸物理对抗样本攻击 性能预测 多模态特征融合
下载PDF
融合多模态特征的新闻短视频分类模型 被引量:3
19
作者 曾祥玖 刘达维 +3 位作者 刘逸凡 赵志滨 柳秀梅 任酉贵 《计算机工程与应用》 CSCD 北大核心 2023年第14期107-113,共7页
视频分类是理解、归纳和检索视频数据的一个重要环节。新闻短视频具有音频信息比图像信息更能完整地描述新闻事件的特点,但传统视频分类模型常常只考虑图像信息或融合了音频和图像的多模态信息,并没有考虑模态信息之间的主辅关系。针对... 视频分类是理解、归纳和检索视频数据的一个重要环节。新闻短视频具有音频信息比图像信息更能完整地描述新闻事件的特点,但传统视频分类模型常常只考虑图像信息或融合了音频和图像的多模态信息,并没有考虑模态信息之间的主辅关系。针对上述问题,采用以音频模态为主,图像模态为辅的融合机制,提出了融合多模态特征的新闻短视频分类模型。为进一步利用音频为主的特点,采用两阶段训练方式,使用音频模态单独训练,音频和图像模态联合训练,利用图像信息修正分类结果,提升新闻短视频分类的准确率。为训练和评价模型,采集了10304个新闻联播短视频作为实验数据集,总时长约为240 h。实验结果表明,所提模型的分类效果优于传统的新闻短视频分类模型。 展开更多
关键词 音画关系 多模态特征融合 新闻短视频分类
下载PDF
基于多模态融合的视频自动剪辑算法的设计与研究
20
作者 王焕祥 《电脑知识与技术》 2024年第25期40-43,共4页
视频剪辑可以从时间跨度长的原视频中提取关键的一小段视频,剪辑出的简短的视频,在一定程度上概括了视频主要内容并能减少观看者的浏览时间。为了解决准确率不高的问题,提出了一种基于多模态特征融合自动剪辑算法(MMFAC),以编码器-解码... 视频剪辑可以从时间跨度长的原视频中提取关键的一小段视频,剪辑出的简短的视频,在一定程度上概括了视频主要内容并能减少观看者的浏览时间。为了解决准确率不高的问题,提出了一种基于多模态特征融合自动剪辑算法(MMFAC),以编码器-解码器为基础框架和Transformer为基础模型,加入跨模态交互模块,多个模态得到有机融合进而得到多模态特征。在解码阶段,采用预测头模块计算出损失值来判断关键视频片段。在QVHightLight和TvSum两个数据集上运用现有的方法进行比较和消融实验,证明所提方法优于现有同类的摘要算法。 展开更多
关键词 视频自动剪辑 多模态特征融合 TRANSFORMER 自注意力机制
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部