期刊文献+
共找到164篇文章
< 1 2 9 >
每页显示 20 50 100
一种基于多模态特征提取的医学视觉问答方法 被引量:1
1
作者 吴松泽 刘利军 +3 位作者 黄青松 孔凡彦 刘骊 付晓东 《小型微型计算机系统》 CSCD 北大核心 2024年第3期676-683,共8页
随着深度学习在医疗领域的快速发展,医学视觉问答(Med-VQA)吸引了研究人员的广泛关注.现有的Med-VQA方法大都使用权重参数共享的同一特征提取网络对多模态医学影像进行特征提取,在一定程度上忽略了不同模态医学影像的差异性特征,导致对... 随着深度学习在医疗领域的快速发展,医学视觉问答(Med-VQA)吸引了研究人员的广泛关注.现有的Med-VQA方法大都使用权重参数共享的同一特征提取网络对多模态医学影像进行特征提取,在一定程度上忽略了不同模态医学影像的差异性特征,导致对特定模态特征提取时引入其它模态的噪声特征,使得模型难以关注到不同模态医学影像中的关键特征.针对上述问题,本文提出一种基于多模态特征提取的医学视觉问答方法.首先,对医学影像进行模态识别,根据模态标签指导输入参数不共享的特征提取网络以获得不同模态影像的差异性特征;然后,设计了一种面向Med-VQA的卷积降噪模块以降低医学影像不同模态特征的噪声信息;最后,采用空间与通道注意力模块进一步增强不同模态差异性特征的关注度.在Med-VQA公共数据集Slake上得到的实验结果表明,本文提出方法能有效提高Med-VQA的准确率. 展开更多
关键词 医学视觉问答 多模态特征提取 卷积神经网络 注意力机制
下载PDF
多模态特征分析的帕金森病辅助诊断方法
2
作者 强薇 杜宇 +5 位作者 李信金 范向民 苏闻 陈海波 孙伟 田丰 《软件学报》 EI CSCD 北大核心 2024年第5期2192-2207,共16页
帕金森病是一种常见的神经退行性疾病,会逐步破坏患者运动功能和部分认知功能,且发病隐匿、不可治愈,为患者及家人带来沉重负担.然而,帕金森病的临床诊断通常依赖主观评估量表,会同时受到评估者主观性、被评估者回忆偏差的影响.目前,有... 帕金森病是一种常见的神经退行性疾病,会逐步破坏患者运动功能和部分认知功能,且发病隐匿、不可治愈,为患者及家人带来沉重负担.然而,帕金森病的临床诊断通常依赖主观评估量表,会同时受到评估者主观性、被评估者回忆偏差的影响.目前,有大量研究从各个模态探索了帕金森病的生理特征,并借此提供了客观量化辅助诊断方法.但是,神经退行性疾病种类繁多、影响类似,从帕金森病表征出发的单模态方法特异性问题仍有待解决.为此,搭建一套包含帕金森病异常诱发范式的多模态辅助诊断系统.首先,根据正态分布检验结果进行特征的参数检验,构建具有统计学意义的特征集(p<0.05);其次,在临床环境中收集38例带有MDS-UPDRS评分量表的多模态数据;最后,基于步态和眼动模态,分析不同特征组合方式评估帕金森病的显著性;验证虚拟现实场景下高沉浸诱发型任务范式和多模态帕金森病辅助诊断系统的有效性;其中步态与眼动模态综合使用,只需要进行2–4个任务,平均AUC和平均准确率就分别能达到0.97和0.92. 展开更多
关键词 多模态特征分析 帕金森病辅助诊断 步态 眼动
下载PDF
基于SEFusion-MPOR的多模态特征融合舆情表征算法
3
作者 郭小宇 马静 《情报理论与实践》 CSSCI 北大核心 2024年第7期181-189,共9页
[目的/意义]多模态舆情表征是多模态舆情计算与分析的基础。文章探索了一种赋予不同模态特征动态权重的舆情表征算法,可以更精准地捕捉到模态之间的依赖关系,极大降低多模态舆情表征复杂度,减少算力资源消耗。[方法/过程]SEFusion-MPOR... [目的/意义]多模态舆情表征是多模态舆情计算与分析的基础。文章探索了一种赋予不同模态特征动态权重的舆情表征算法,可以更精准地捕捉到模态之间的依赖关系,极大降低多模态舆情表征复杂度,减少算力资源消耗。[方法/过程]SEFusion-MPOR算法在预训练模型特征的基础上,通过全连接层、门控机制与激活函数构建了压缩与激活算子,获取各模态的动态权重,使用矩阵相乘将动态权重作用于相应模态,进而构建了多模态特征融合的网络舆情表征算法。[结果/结论]在Memotion 3与MVSA-multiple两个公开的多模态舆情数据集上进行实验,与基线模型的对比表明,文章提出的表征方法在多个子任务中取得了最优结果。该方法仅通过简单操作,就达到了复杂表征算法的效果,且具有可解释性与外推性。其高效和准确的表征方法不仅适用于舆情情报处理,也适合情报分析工作中的通用多模态信息基础表征。[局限]研究验证仅限于双模态数据集,未涉及更广泛模态的数据集。 展开更多
关键词 多模态舆情 多模态特征融合 舆情表征 预训练模型 SEFusion-MPOR
下载PDF
基于多模态特征交互的RGB-D显著性目标检测 被引量:1
4
作者 高悦 戴蒙 张晴 《计算机工程与应用》 CSCD 北大核心 2024年第2期211-220,共10页
现有的大多数RGB-D显著性目标检测方法利用深度图来提高检测效果,而忽视了其质量的影响。低质量的深度图会对最终显著目标预测结果造成污染,影响显著性检测的性能。为了消除低质量深度图带来的干扰,并准确突出RGB图像中的显著目标,提出... 现有的大多数RGB-D显著性目标检测方法利用深度图来提高检测效果,而忽视了其质量的影响。低质量的深度图会对最终显著目标预测结果造成污染,影响显著性检测的性能。为了消除低质量深度图带来的干扰,并准确突出RGB图像中的显著目标,提出了一个用于多模态特征交互的RGB-D显著性目标检测模型。在编码阶段,设计了一个特征交互模块,其包含三个子模块:用于增强特征表述能力的全局特征采集子模块、用于过滤低质量深度信息的深度特征精炼子模块和用于实现特征融合的多模态特征交互子模块。在解码阶段,逐层融合经过特征交互后的多模态特征,实现多层次特征融合。通过在五个基准数据集上与十二种先进方法进行的综合实验表明,该模型在NLPR、SIP和NJU2K数据集上的指标上均优于其他对比方法,其中在NJU2K数据集上,该模型的性能比第二名在平均F值上提升了0.008,加权F值上提升了0.014,E-measure上提升了0.007,表现出了较好的检测效果。 展开更多
关键词 RGB-D显著性检测 多模态特征 特征交互 特征融合
下载PDF
基于多模态特征对齐的作物病害叶片检测
5
作者 周一帆 刘东洋 周宇平 《中国农机化学报》 北大核心 2024年第7期180-187,共8页
针对现有农作物病害叶片检测方法利用图像特征定位叶片病害区域精度不高的问题,提出一种基于多模态特征对齐的作物病害叶片检测新方法。在训练阶段,利用视觉编码器和文本编码器将农作物叶片集中的图片和文本进行编码,并根据视觉编码特... 针对现有农作物病害叶片检测方法利用图像特征定位叶片病害区域精度不高的问题,提出一种基于多模态特征对齐的作物病害叶片检测新方法。在训练阶段,利用视觉编码器和文本编码器将农作物叶片集中的图片和文本进行编码,并根据视觉编码特征定位给定图片中的病害区域,利用视觉和文本编码融合特征实现病害区域病害类型的细粒度分类。在推理阶段,利用预训练的病害区域定位模块定位给定测试图片中的病害区域,并将其提取的病害区域作为预训练分类模型的输入;通过计算预测文本值与文本集中原始标签之间的相似度值,快速给出病害区域的细粒度分类结果。在多个开源的农作物病害数据集上进行测试,所提出方法在马铃薯、番茄、苹果和草莓四种类型的病害叶片数据集上精准率分别为0.9574、0.9611、0.9580和0.9502,综合性能更优,具有较好实用价值。 展开更多
关键词 病害叶片检测 多模态特征 视觉编码特征 文本编码特征 细粒度分类
下载PDF
基于多模态特征的重载铁路钢轨损伤检测方法
6
作者 马骞 《无损检测》 CAS 2024年第9期69-74,共6页
列车重载运行的情况下钢轨会出现损伤,传统的钢轨损伤检测方法主要依靠人工巡检或使用单一模态特征进行分析,存在准确性低、易漏检漏报等问题。针对这一问题,提出了基于多模态特征的重载铁路钢轨损伤检测方法。首先采集重载铁路钢轨损... 列车重载运行的情况下钢轨会出现损伤,传统的钢轨损伤检测方法主要依靠人工巡检或使用单一模态特征进行分析,存在准确性低、易漏检漏报等问题。针对这一问题,提出了基于多模态特征的重载铁路钢轨损伤检测方法。首先采集重载铁路钢轨损伤图像,并以直方图均衡化的增强方式预处理原始图像;然后将图像中的信息转换为模态向量进行特征提取,选择置信度矩阵表示不同特征的分布情况,并分解钢轨损伤图像中的特征模态元素;最后基于多模态特征,关联具有相关性的损伤特征模量,标注损失特征标签,实现重载钢轨损伤情况的判断和检测。分别以5000,10000,30000 t重载量级的铁路钢轨作为对象进行测试,试验结果表明,所提方法能够实现精准的损伤定位,且对不同量级钢轨的损伤情况均具有较高检测精度,具有实际应用价值。 展开更多
关键词 重载铁路 置信度矩阵 多模态特征 钢轨损伤 损伤检测
下载PDF
基于多模态特征融合的无人机测绘图像目标识别研究
7
作者 黄东 《资源导刊》 2024年第12期27-30,34,共5页
在分析无人机测绘图像时,主要依托单一图像特征进行目标识别,但容易受到部分干扰信息影响,导致目标识别结果F测度值(F测度值是一种综合考虑准确率和召回率的评价指标)较低。因此,提出基于多模态特征融合的无人机测绘图像目标识别方法。... 在分析无人机测绘图像时,主要依托单一图像特征进行目标识别,但容易受到部分干扰信息影响,导致目标识别结果F测度值(F测度值是一种综合考虑准确率和召回率的评价指标)较低。因此,提出基于多模态特征融合的无人机测绘图像目标识别方法。在计算无人机测绘图像像素点的扩散系数基础上,通过抑制或增强像素点的梯度值来实现图像去噪处理,提取图像的梯度特征、熵特征和对比度特征,并分别绘制特征图。运用多模态特征融合理念融合多方面图像特征,生成多模态特征图。结合SRC(稀疏表示分类器)和CNN(卷积神经网络分类器)建立多分类决策融合方案,得到多模态融合特征,并利用该特征进行图像目标识别。实验结果表明,在不同噪声比条件下,所提方法的目标识别结果F测度值总是大于0.9,能更准确地识别出无人机测绘图像的所有目标。 展开更多
关键词 多模态特征 扩散阈值 对比度 梯度 无人机图像 目标识别
下载PDF
基于多模态特征融合的旅游体验质量反馈系统设计
8
作者 文斌 胡辉 《通讯世界》 2024年第9期184-186,共3页
针对现有旅游体验质量的评价方法主要依赖于文本评论,存在主观性强、信息不完整等问题,设计了一种基于多模态特征融合的旅游体验质量反馈系统,充分利用多源异构数据,提高评价的客观性和全面性。采用分布式架构设计基于多模态特征融合的... 针对现有旅游体验质量的评价方法主要依赖于文本评论,存在主观性强、信息不完整等问题,设计了一种基于多模态特征融合的旅游体验质量反馈系统,充分利用多源异构数据,提高评价的客观性和全面性。采用分布式架构设计基于多模态特征融合的旅游体验质量反馈系统,主要包括数据采集层、数据传输层、数据处理层和用户交互层,在此基础上,通过硬件和软件实现旅游体验质量反馈。与单一模态方法相比,该系统能够更准确地评价旅游体验质量,及时提供有价值的反馈信息,体现了多模态融合的优势。 展开更多
关键词 多模态特征融合 人工智能 旅游体验 系统设计
下载PDF
基于多模态特征融合的行人穿越意图预测方法
9
作者 陈龙 杨晨 +2 位作者 蔡英凤 王海 李祎承 《汽车工程》 EI CSCD 北大核心 2023年第10期1779-1790,共12页
行人行为预测是城市环境智能汽车决策规划系统面临的主要挑战之一,提升行人穿越意图的预测准确率对于行车安全意义重大。针对现有方法过度依赖行人的边界框位置信息,且很少考虑交通场景中环境信息及交通对象间的交互关系等问题,本文提... 行人行为预测是城市环境智能汽车决策规划系统面临的主要挑战之一,提升行人穿越意图的预测准确率对于行车安全意义重大。针对现有方法过度依赖行人的边界框位置信息,且很少考虑交通场景中环境信息及交通对象间的交互关系等问题,本文提出一种基于多模态特征融合的行人过街意图预测方法。首先结合多种注意力机制构建了一种新型全局场景上下文信息提取模块和局部场景时空特征提取模块来增强其提取车辆周边场景时空特征的能力,并依赖场景的语义解析结果来捕获行人与其周围环境之间的交互关系,解决了交通环境上下文信息与交通对象之间的交互信息应用不充分的问题。此外,本文设计了一种基于混合融合策略的多模态特征融合模块,根据不同信息源的复杂程度实现了对视觉特征和运动特征的联合推理,为行人穿越意图预测模块提供可靠信息。基于JAAD数据集的测试表明,所提出方法的预测Accuracy为0.84,较基线方法提升了10.5%,相比于现有的同类型模型,所提出方法的综合性能最佳,且具有更广泛的应用场景。 展开更多
关键词 自动驾驶汽车 行人意图预测 多模态特征融合 注意力机制
下载PDF
基于注意力机制和多模态特征融合的猕猴脑磁共振图像全脑分割 被引量:1
10
作者 吴雪扬 张煜 +1 位作者 张华 钟涛 《南方医科大学学报》 CAS CSCD 北大核心 2023年第12期2118-2125,共8页
目的提出并探讨一种新的基于注意力机制和多模态特征融合的深度学习算法(DDAM),实现对猕猴脑MRI图像的全脑分割。方法共收集68例年龄分布在13~36月的多模态猕猴脑MRI图像数据,且均包含对应的真实标签。针对多模态数据信息复杂且互补的特... 目的提出并探讨一种新的基于注意力机制和多模态特征融合的深度学习算法(DDAM),实现对猕猴脑MRI图像的全脑分割。方法共收集68例年龄分布在13~36月的多模态猕猴脑MRI图像数据,且均包含对应的真实标签。针对多模态数据信息复杂且互补的特点,采用多编码器结构分别适应不同模态并进行特征提取。在解码器部分引入注意力机制构建多模态特征融合模块(AMFF),利用模态间信息丰富且互补的特点,充分融合不同尺度和复杂度的多模态特征,进而提升分割性能。另外,进行消融实验分析并对结果进行统计学检验。结果多编码器结构以及注意力机制的引入能够有效地提升模型对多模态特征的融合能力,使得猕猴数据的全脑分割平均DSC达到0.904,ASD低至0.131(P<0.05)。消融实验结果验证了DDAM方法各组成部分的有效性。结论本文针对多模态数据特点构建深度学习算法模型,提出的DDAM方法,能够更有效地提取并融合多模态特征,从而实现全脑分割精度的显著提高。 展开更多
关键词 猕猴大脑 磁共振全脑分割 深度学习 注意力机制 多模态特征融合
下载PDF
基于多模态特征融合的井下人员不安全行为识别 被引量:5
11
作者 王宇 于春华 +1 位作者 陈晓青 宋家威 《工矿自动化》 CSCD 北大核心 2023年第11期138-144,共7页
采用人工智能技术对井下人员的行为进行实时识别,对保证矿井安全生产具有重要意义。针对基于RGB模态的行为识别方法易受视频图像背景噪声影响、基于骨骼模态的行为识别方法缺乏人与物体的外观特征信息的问题,将2种方法进行融合,提出了... 采用人工智能技术对井下人员的行为进行实时识别,对保证矿井安全生产具有重要意义。针对基于RGB模态的行为识别方法易受视频图像背景噪声影响、基于骨骼模态的行为识别方法缺乏人与物体的外观特征信息的问题,将2种方法进行融合,提出了一种基于多模态特征融合的井下人员不安全行为识别方法。通过SlowOnly网络对RGB模态特征进行提取;使用YOLOX与Lite-HRNet网络获取骨骼模态数据,采用PoseC3D网络对骨骼模态特征进行提取;对RGB模态特征与骨骼模态特征进行早期融合与晚期融合,最后得到井下人员不安全行为识别结果。在X-Sub标准下的NTU60 RGB+D公开数据集上的实验结果表明:在基于单一骨骼模态的行为识别模型中,PoseC3D拥有比GCN(图卷积网络)类方法更高的识别准确率,达到93.1%;基于多模态特征融合的行为识别模型对比基于单一骨骼模态的识别模型拥有更高的识别准确率,达到95.4%。在自制井下不安全行为数据集上的实验结果表明:基于多模态特征融合的行为识别模型在井下复杂环境下识别准确率仍最高,达到93.3%,对相似不安全行为与多人不安全行为均能准确识别。 展开更多
关键词 智能矿山 行为识别 目标检测 姿态估计 多模态特征融合 RGB模态 骨骼模态 YOLOX
下载PDF
基于多模态特征融合的人脸物理对抗样本性能预测算法
12
作者 周风帆 凌贺飞 +3 位作者 张锦元 夏紫薇 史宇轩 李平 《计算机科学》 CSCD 北大核心 2023年第8期280-285,共6页
人脸物理对抗样本攻击(Facial Physical Adversarial Attack,FPAA)指攻击者通过粘贴或佩戴物理对抗样本,如打印的眼镜、纸片等,在摄像头下被识别成特定目标的人脸,或者让人脸识别系统无法识别的攻击方式。已有FPAA的性能评测会受到多种... 人脸物理对抗样本攻击(Facial Physical Adversarial Attack,FPAA)指攻击者通过粘贴或佩戴物理对抗样本,如打印的眼镜、纸片等,在摄像头下被识别成特定目标的人脸,或者让人脸识别系统无法识别的攻击方式。已有FPAA的性能评测会受到多种环境因素的影响,且需要多个人工操作的环节,导致性能评测效率非常低下。为了减少人脸物理对抗样本性能评测方面的工作量,结合数字图片和环境因素之间的多模态性,提出了多模态特征融合预测算法(Multimodal Feature Fusion Prediction Algorithm,MFFP)。具体地,使用不同的网络提取攻击者人脸图片、受害者人脸图片和人脸数字对抗样本图片的特征,使用环境特征网络来提取环境因素中的特征,然后使用一个多模态特征融合网络对这些特征进行融合,多模态特征融合网络的输出即为所预测的人脸物理对抗样本图片和受害者图片之间的余弦相似度。MFFP算法在未知环境、未知FPAA算法的实验场景下取得了0.003的回归均方误差,其性能优于对比算法,验证了MFFP算法对FPAA性能预测的准确性,可以对FPAA性能进行快速评估,同时大幅降低人工操作的工作量。 展开更多
关键词 人工智能安全 对抗样本 人脸物理对抗样本攻击 性能预测 多模态特征融合
下载PDF
基于用户分群的数字社区消费者多模态特征分析与服务效能提升研究
13
作者 黎灿垚 韦伟 +2 位作者 刘晓丽 周林兴 王帅 《农业图书情报学报》 2023年第2期30-44,共15页
[目的/意义]对数字社区消费者进行多模态特征分析与服务效能提升,有助于为数智赋能在线社区建设提供新视野、为相关部门部署数字决策提供新动能。[方法/过程]结合社区特性构建用于消费者分群的数据维度,将维度下的24个指标数据进行二次... [目的/意义]对数字社区消费者进行多模态特征分析与服务效能提升,有助于为数智赋能在线社区建设提供新视野、为相关部门部署数字决策提供新动能。[方法/过程]结合社区特性构建用于消费者分群的数据维度,将维度下的24个指标数据进行二次聚合后实现分群,并构造参数、决策变量及函数表,从而分析消费者多模态特征,基于这些特征实现数字消费服务效能的提升。[结果/结论]实证分析结果表明,本文模型能够生成合理有效的分群结果,进而实现类群特征区分以及群间渗透与漂移现象分析;分群结果呈现出6类消费者群体:重点、中心、特殊、沉睡、流失和一般类群,绝大多数类群都会产生用户渗透现象,仅有一般用户类群会发生群间漂移现象;服务效能提升模型表明最受关注价值的群体为中心和重点类群。 展开更多
关键词 用户分群 AP-DBSCAN 多模态特征 数字社区 数字消费
下载PDF
融合多模态特征的新闻短视频分类模型 被引量:3
14
作者 曾祥玖 刘达维 +3 位作者 刘逸凡 赵志滨 柳秀梅 任酉贵 《计算机工程与应用》 CSCD 北大核心 2023年第14期107-113,共7页
视频分类是理解、归纳和检索视频数据的一个重要环节。新闻短视频具有音频信息比图像信息更能完整地描述新闻事件的特点,但传统视频分类模型常常只考虑图像信息或融合了音频和图像的多模态信息,并没有考虑模态信息之间的主辅关系。针对... 视频分类是理解、归纳和检索视频数据的一个重要环节。新闻短视频具有音频信息比图像信息更能完整地描述新闻事件的特点,但传统视频分类模型常常只考虑图像信息或融合了音频和图像的多模态信息,并没有考虑模态信息之间的主辅关系。针对上述问题,采用以音频模态为主,图像模态为辅的融合机制,提出了融合多模态特征的新闻短视频分类模型。为进一步利用音频为主的特点,采用两阶段训练方式,使用音频模态单独训练,音频和图像模态联合训练,利用图像信息修正分类结果,提升新闻短视频分类的准确率。为训练和评价模型,采集了10304个新闻联播短视频作为实验数据集,总时长约为240 h。实验结果表明,所提模型的分类效果优于传统的新闻短视频分类模型。 展开更多
关键词 音画关系 多模态特征融合 新闻短视频分类
下载PDF
基于三维纹理的多模态特征城市土地利用分类
15
作者 张彩煜 李明磊 +3 位作者 魏大洲 吴伯春 李正 李佳 《地理空间信息》 2023年第9期14-17,26,共5页
城市土地利用分类研究对实现城市土地资源高效管理和城市可持续发展具有重要意义。基于无人机获取的遥感影像数据,提出了一种融合DSM特征、三维纹理特征和改进型植被指数的多模态特征提取技术,并利用支持向量机(SVM)分类器进行城市土地... 城市土地利用分类研究对实现城市土地资源高效管理和城市可持续发展具有重要意义。基于无人机获取的遥感影像数据,提出了一种融合DSM特征、三维纹理特征和改进型植被指数的多模态特征提取技术,并利用支持向量机(SVM)分类器进行城市土地利用分类。针对传统绿蓝植被指数对无人机影像敏感度低的问题,提出了一种改进型绿蓝植被指数(MGBVI)。结果表明,采用多模态特征后分类精度提高了16.5%;多模态特征中选择三维纹理特征和MGBVI进行分类的效果最佳。 展开更多
关键词 城市土地利用分类 DSM 多模态特征 MGBVI SVM
下载PDF
基于多模态特征及卷积神经网络的智慧教室人物行为识别方法
16
作者 李梅琴 《黑龙江工程学院学报》 CAS 2023年第6期29-34,共6页
为了精准识别不同环境多类别人物行为,使其适用于多个场景,研究基于多模态特征及卷积神经网络的智慧教室人物行为识别方法。通过智慧教室多类别人物视频的均匀稀疏采样,获取智慧教室多类别人物RGB图像及人物行为图像,采用由改进3D CNN... 为了精准识别不同环境多类别人物行为,使其适用于多个场景,研究基于多模态特征及卷积神经网络的智慧教室人物行为识别方法。通过智慧教室多类别人物视频的均匀稀疏采样,获取智慧教室多类别人物RGB图像及人物行为图像,采用由改进3D CNN和引入时空注意力机制的LSTM模型构成C3DP-LA网络,提取多类别人物RGB图像时空特征,同时提取人物行为图像的人物光流特征、重心特征以及三维SIFT特征,组建人物行为组合特征,经基于全连接层的多模态特征融合网络融合人物时空特征和人物行为组合特征后,将多模态融合结果输入softmax分类器,完成智慧教室人物行为识别。实验结果表明:该方法可有效识别智慧教室多类别人物,降低背景、环境因素对多类别人物特征提取的影响,能够精准识别人物动作并准确分类,具有良好的应用性。 展开更多
关键词 智慧教室 多模态特征 人物行为识别 卷积神经网络 LSTM模型 多类别
下载PDF
融合多模态特征与时区检测的视频摘要算法
17
作者 白晨 范涛 +1 位作者 王文静 王国中 《计算机应用研究》 CSCD 北大核心 2023年第11期3276-3281,3288,共7页
针对传统视频摘要算法没有充分利用视频的多模态信息、难以确保摘要视频片段时序一致性的问题,提出了一种融合多模态特征与时区检测的视频摘要算法(MTNet)。首先,通过GoogLeNet与VGGish预训练模型提取视频图像与音频的特征表示,设计了... 针对传统视频摘要算法没有充分利用视频的多模态信息、难以确保摘要视频片段时序一致性的问题,提出了一种融合多模态特征与时区检测的视频摘要算法(MTNet)。首先,通过GoogLeNet与VGGish预训练模型提取视频图像与音频的特征表示,设计了一种维度平滑操作对齐两种模态特征,使模型具备全面的表征能力;其次,考虑到生成的视频摘要应具备全局代表性,因此通过单双层自注意力机制结合残差结构分别提取视频图像与音频特征的长范围时序特征,获取模型在时序范围的单一向量表示;最后,通过分离式时区检测与权值共享方法对视频逐个时序片段的摘要边界与重要性进行预测,并通过非极大值抑制来选取关键视频片段生成视频摘要。实验结果表明,在两个标准数据集SumMe与TvSum上,MTNet的表征能力与鲁棒性更强;它的F 1值相较基于无锚框的视频摘要算法DSNet-AF以及基于镜头重要性预测的视频摘要算法VASNet,在两个数据集上分别有所提高。 展开更多
关键词 多模态特征 特征融合 视频摘要 时区检测 注意力机制
下载PDF
基于多模态特征融合的新闻故事单元分割 被引量:8
18
作者 刘嘉琦 封化民 闫建鹏 《计算机工程》 CAS CSCD 2012年第24期161-165,共5页
对新闻视频进行结构分析,提出一种基于多模态特征融合的新闻故事单元分割方法。将新闻视频分割成音频流和视频流,选择静音区间为音频候选点,将镜头边界切变点作为视频候选点,做主持人镜头和主题字幕的探测,挑选主持人镜头为候选区间,并... 对新闻视频进行结构分析,提出一种基于多模态特征融合的新闻故事单元分割方法。将新闻视频分割成音频流和视频流,选择静音区间为音频候选点,将镜头边界切变点作为视频候选点,做主持人镜头和主题字幕的探测,挑选主持人镜头为候选区间,并记录主题字幕的起始位置和结束位置,利用时间轴融合音频候选点、视频候选点、主持人镜头和主题字幕,对新闻视频进行故事单元分割。实验结果表明,该方法的查全率为83.18%,查准率为83.92%。 展开更多
关键词 新闻视频 多模态特征 字幕 音频 故事单元分割
下载PDF
一种基于多模态特征的新闻视频语义提取框架 被引量:3
19
作者 闫建鹏 封化民 刘嘉琦 《计算机应用研究》 CSCD 北大核心 2012年第7期2725-2729,共5页
为提高视频语义信息提取准确率,提出了一种基于多模态特征的新闻视频语义提取框架。在视频中提取主题字幕信息,对音频进行分类和语音识别,根据主题字幕信息借助搜索引擎得到与新闻视频相关的网页;最后利用网页文本对语音识别的结果进行... 为提高视频语义信息提取准确率,提出了一种基于多模态特征的新闻视频语义提取框架。在视频中提取主题字幕信息,对音频进行分类和语音识别,根据主题字幕信息借助搜索引擎得到与新闻视频相关的网页;最后利用网页文本对语音识别的结果进行纠错,从而通过视频字幕信息和语音脚本的跨模态融合提高视频语义提取的准确率。在中等规模的新闻视频(含新闻网页)库测试表明了该方法的有效性,经纠错后的语音识别准确率达到了65%左右。 展开更多
关键词 多模态特征 语义分析 视频检索
下载PDF
多模态特征融合与多任务学习的特种视频分类 被引量:5
20
作者 吴晓雨 顾超男 王生进 《光学精密工程》 EI CAS CSCD 北大核心 2020年第5期1177-1186,共10页
特种视频(本文特指暴力视频)的智能分类技术有助于实现网络信息内容安全的智能监控。针对现有特种视频多模态特征融合时未考虑语义一致性等问题,本文提出了一种基于音视频多模态特征融合与多任务学习的特种视频识别方法。首先,提取特种... 特种视频(本文特指暴力视频)的智能分类技术有助于实现网络信息内容安全的智能监控。针对现有特种视频多模态特征融合时未考虑语义一致性等问题,本文提出了一种基于音视频多模态特征融合与多任务学习的特种视频识别方法。首先,提取特种视频的表观信息和运动信息随时空变化的视觉语义特征及音频信息语义特征;然后,构建具有语义保持的共享特征子空间,以实现音视频多种模态特征的融合;最后,提出基于音视频特征的语义一致性度量和特种视频分类的多任务学习特种视频分类理论框架,设计了对应的损失函数,实现了端到端的特种视频智能识别。实验结果表明,本文提出的算法在Violent Flow和MediaEval VSD 2015两个数据集上平均精度分别为97.97%和39.76%,优于已有研究。结果证明了该算法的有效性,有助于提升特种视频监控的智能化水平。 展开更多
关键词 特种视频识别 特征提取 多模态特征融合 语义一致性度量 多任务学习
下载PDF
上一页 1 2 9 下一页 到第
使用帮助 返回顶部