期刊文献+
共找到508篇文章
< 1 2 26 >
每页显示 20 50 100
Web-based mixed reality video fusion with remote rendering
1
作者 Qiang ZHOU Zhong ZHOU 《Virtual Reality & Intelligent Hardware》 2023年第2期188-199,共12页
Background Mixed reality(MR)video fusion systems merge video imagery with 3D scenes to make the scene more realistic and help users understand the video content and temporal–spatial correlation between them,reducing ... Background Mixed reality(MR)video fusion systems merge video imagery with 3D scenes to make the scene more realistic and help users understand the video content and temporal–spatial correlation between them,reducing the user′s cognitive load.MR video fusion are used in various applications;however,video fusion systems require powerful client machines because video streaming delivery,stitching,and rendering are computationally intensive.Moreover,huge bandwidth usage is another critical factor that affects the scalability of video-fusion systems.Methods Our framework proposes a fusion method for dynamically projecting video images into 3D models as textures.Results Several experiments on different metrics demonstrate the effectiveness of the proposed framework.Conclusions The framework proposed in this study can overcome client limitations by utilizing remote rendering.Furthermore,the framework we built is based on browsers.Therefore,the user can test the MR video fusion system with a laptop or tablet without installing any additional plug-ins or application programs. 展开更多
关键词 Mixed reality video fusion WebRTC Remote rendering
下载PDF
Interactive System for Video Summarization Based on Multimodal Fusion 被引量:1
2
作者 Zheng Li Xiaobing Du +2 位作者 Cuixia Ma Yanfeng Li Hongan Wang 《Journal of Beijing Institute of Technology》 EI CAS 2019年第1期27-34,共8页
Biography videos based on life performances of prominent figures in history aim to describe great mens' life.In this paper,a novel interactive video summarization for biography video based on multimodal fusion is ... Biography videos based on life performances of prominent figures in history aim to describe great mens' life.In this paper,a novel interactive video summarization for biography video based on multimodal fusion is proposed,which is a novel approach of visualizing the specific features for biography video and interacting with video content by taking advantage of the ability of multimodality.In general,a story of movie progresses by dialogues of characters and the subtitles are produced with the basis on the dialogues which contains all the information related to the movie.In this paper,JGibbsLDA is applied to extract key words from subtitles because the biography video consists of different aspects to depict the characters' whole life.In terms of fusing keywords and key-frames,affinity propagation is adopted to calculate the similarity between each key-frame cluster and keywords.Through the method mentioned above,a video summarization is presented based on multimodal fusion which describes video content more completely.In order to reduce the time spent on searching the interest video content and get the relationship between main characters,a kind of map is adopted to visualize video content and interact with video summarization.An experiment is conducted to evaluate video summarization and the results demonstrate that this system can formally facilitate the exploration of video content while improving interaction and finding events of interest efficiently. 展开更多
关键词 video VISUALIZATION INTERACTION MULTIMODAL fusion video SUMMARIZATION
下载PDF
多层级视频会议系统跨网段融合技术的应用 被引量:1
3
作者 赵士达 马蕴玢 +3 位作者 朱宏 孙选超 杨朝 赵博宇 《华南地震》 2024年第1期105-110,共6页
通过介绍天津市地震局应急视频会议系统接入中国地震局视频会议系统、天津市政府视频系统和天津应急管理局视频系统的基本情况,结合地震应急视频会议系统现状,分析多类型、多层级、多网段视频会议系统的架构特点,着重介绍了多网段、多... 通过介绍天津市地震局应急视频会议系统接入中国地震局视频会议系统、天津市政府视频系统和天津应急管理局视频系统的基本情况,结合地震应急视频会议系统现状,分析多类型、多层级、多网段视频会议系统的架构特点,着重介绍了多网段、多视频源视频转发优化技术在视频会议系统融合中的应用。通过该技术的应用,实现了天津市地震应急视频会议系统与各相关单位视频会议系统的全部连通。 展开更多
关键词 视频会议系统 视频融合 跨网段 视频转发 级联
下载PDF
Action Recognition in Surveillance Videos with Combined Deep Network Models
4
作者 ZHANG Diankai ZHAO Rui-Wei +3 位作者 SHEN Lin CHEN Shaoxiang SUN Zhenfeng JIANG Yu-Gang 《ZTE Communications》 2016年第B12期54-60,共7页
Action recognition is an important topic in computer vision. Recently, deep learning technologies have been successfully used in lots of applications including video data for sloving recognition problems. However, mos... Action recognition is an important topic in computer vision. Recently, deep learning technologies have been successfully used in lots of applications including video data for sloving recognition problems. However, most existing deep learning based recognition frameworks are not optimized for action in the surveillance videos. In this paper, we propose a novel method to deal with the recognition of different types of actions in outdoor surveillance videos. The proposed method first introduces motion compensation to improve the detection of human target. Then, it uses three different types of deep models with single and sequenced images as inputs for the recognition of different types of actions. Finally, predictions from different models are fused with a linear model. Experimental results show that the proposed method works well on the real surveillance videos. 展开更多
关键词 action recognition deep network models model fusion surveillance video
下载PDF
基于可能性理论的红外与可见光视频自适应分层融合算法
5
作者 吉琳娜 郭小铭 杨风暴 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2024年第10期3021-3031,共11页
针对目前红外与可见光视频融合模型无法根据视频间差异特征动态调整融合策略,造成融合效果差甚至失效等问题,提出了一种基于可能性理论的红外与可见光视频的自适应分层融合算法。计算视频序列每帧中感兴趣区域的各类差异特征的幅值大小... 针对目前红外与可见光视频融合模型无法根据视频间差异特征动态调整融合策略,造成融合效果差甚至失效等问题,提出了一种基于可能性理论的红外与可见光视频的自适应分层融合算法。计算视频序列每帧中感兴趣区域的各类差异特征的幅值大小,得到每帧对应的主要差异特征;搭建分层融合框架,并确定各层变元,基于余弦相似性计算不同变元对各差异特征的融合有效度,利用可能性理论构造相应的融合有效度分布;逐层分析不同变元对各类差异特征的融合效果,选择出每层的最优变元;通过变元间的优化组合实现红外与可见光视频的自适应分层融合。实验结果表明:所提算法在保留红外典型目标和可见光结构细节等方面取得了显著的融合效果,并且在定量分析和定性评价上明显优于单一融合算法。 展开更多
关键词 图像处理 视频融合 自适应分层融合 可能性理论 红外视频
下载PDF
站台门间隙异物自动检测系统设计与实现
6
作者 于庆广 王石 +7 位作者 高泊楠 陈宇轩 萧成博 刘又齐 王玉瑾 赵明 李乐 蔡冠之 《城市轨道交通研究》 北大核心 2024年第10期193-198,共6页
[目的]站台门间隙异物检测环节对地铁运营安全有影响,故有必要研究一种新型的地铁站台门防夹检测系统,使未来的FAO(全自动运行)系统更加安全与高效。[方法]采用视频和激光雷达算法融合技术,提出了结合视频图片识别和雷达点云数据的双重... [目的]站台门间隙异物检测环节对地铁运营安全有影响,故有必要研究一种新型的地铁站台门防夹检测系统,使未来的FAO(全自动运行)系统更加安全与高效。[方法]采用视频和激光雷达算法融合技术,提出了结合视频图片识别和雷达点云数据的双重判据AI检测策略,创新性地采用了PointNet算法架构来进行地铁站台门间隙异物的检测,实现摄像头视频辅助激光雷达工作模式。若被检测间隙出现异物,则报警和视频联动,第一时间捕捉报警现场视频。利用多维深度学习方法,降低误判概率。[结果及结论]在系统设计中,提出传感器交叉叠装分层安装方法,实现间隙异物冗余检测功能;通过交叉互检机制,有效提高了检测装置的冗余性和可靠性;使用2D传感器实现3D检测效果。所研制系统为地铁信号系统提供安全联锁信号,提供报警信息给综合监控系统,并推送手环报警信息给现场运行人员。使地铁站台门间隙异物检测更加准确可靠,为地铁的全自动运行提供安全保障。 展开更多
关键词 地铁站台门 激光雷达和视频 融合算法 自动检测
下载PDF
航空辐射数据热力图与视频融合方法
7
作者 杨金政 张文峰 +2 位作者 安政伟 刘学 刘林峰 《世界核地质科学》 CAS 2024年第5期1040-1048,共9页
随着核能技术的广泛应用,核安全与应急监测的重要性日益凸显,核应急航空监测成为国家核应急体系的重要组成部分。在核应急航空监测过程中,获取并分析航空辐射数据与视频数据对于快速监测辐射状况、圈定辐射污染区域具有重要意义。其中,... 随着核能技术的广泛应用,核安全与应急监测的重要性日益凸显,核应急航空监测成为国家核应急体系的重要组成部分。在核应急航空监测过程中,获取并分析航空辐射数据与视频数据对于快速监测辐射状况、圈定辐射污染区域具有重要意义。其中,航空监测视频数据可以全面直观地获取目标区域地面影像,并大范围展现目标区域地面场景实态,结合放射性异常时刻的视频帧可快速精确地分析异常的成因,具有高时效性的特点。尽管视频融合技术在城市安全、交通管控等领域得到广泛应用,但在核应急航空监测领域中,视频融合技术研究应用较少,存在航空辐射数据与视频之间关联性较差的问题。传统方法中,应急人员需要手动搜寻视频关键帧,分析地表地貌特征,效率较低。设计并实现将航空辐射数据以热力图的形式与视频进行融合的程序,总体上遵循“视频-图像-视频”变换过程。通过有效提取视频关键帧图像及关注数据信息,建立数值与色度映射关系,分析飞行方向,绘制热力图,并将热力图与视频帧融合显示,实现航空辐射数据热力图与视频的融合。这种融合方法的应用可以帮助技术人员更快速地识别和分析辐射热点及污染区域,为制定应急措施提供有力支持。因此,该研究对于提高航空辐射数据与视频数据的关联度,实现快速分析核事故影响具有重要意义。此外,所采用的方法也可应用到铀矿勘查、辐射环境航空调查等工作中。 展开更多
关键词 核应急航空监测 航空辐射数据 视频 融合 热力图
下载PDF
基于三维视频融合的智慧港口全景建模研究
8
作者 陈立家 王莹涛 +1 位作者 李胜为 许毅 《计算机仿真》 2024年第9期251-257,共7页
针对港区监控视频图像之间联动性差与缺乏三维立体视觉感受等问题,提出一种基于三维视频融合的港口全景建模方法。首先,基于倾斜摄影对港区进行三维重建,在重建过程中利用体素滤波法处理点云数据,以构建轻量化模型;其次,提出一种改进SUR... 针对港区监控视频图像之间联动性差与缺乏三维立体视觉感受等问题,提出一种基于三维视频融合的港口全景建模方法。首先,基于倾斜摄影对港区进行三维重建,在重建过程中利用体素滤波法处理点云数据,以构建轻量化模型;其次,提出一种改进SURF(Speeded-Up Robust Features)算法进行图像相似配准,以求解相机姿态,实现三维模型与视频的融合;最后,以武汉某港口为实验区域,基于Cesium开源引擎实现了三维全景模型可视化渲染。结果表明,上述方法可以将港口监控视频流以纹理的形式投影到实景模型上,构建含有实时视频数据的三维全景模型,解决港口监控现存问题,为实现智慧港口立体监控提供一种新思路。 展开更多
关键词 三维重建 三维视频融合 图像相似匹配 全景建模
下载PDF
Semantic-Based Video Retrieval Survey
9
作者 Shaimaa Toriah Mohamed Toriah Atef Zaki Ghalwash Aliaa A. A. Youssif 《Journal of Computer and Communications》 2018年第8期28-44,共17页
There is a tremendous growth of digital data due to the stunning progress of digital devices which facilitates capturing them. Digital data include image, text, and video. Video represents a rich source of information... There is a tremendous growth of digital data due to the stunning progress of digital devices which facilitates capturing them. Digital data include image, text, and video. Video represents a rich source of information. Thus, there is an urgent need to retrieve, organize, and automate videos. Video retrieval is a vital process in multimedia applications such as video search engines, digital museums, and video-on-demand broadcasting. In this paper, the different approaches of video retrieval are outlined and briefly categorized. Moreover, the different methods that bridge the semantic gap in video retrieval are discussed in more details. 展开更多
关键词 SEMANTIC video RETRIEVAL CONCEPT Detectors CONTEXT Based CONCEPT fusion SEMANTIC GAP
下载PDF
基于混合时空卷积的轻量级视频超分辨率重建
10
作者 夏振平 陈豪 +2 位作者 张宇宁 程成 胡伏原 《光学精密工程》 EI CAS CSCD 北大核心 2024年第16期2564-2576,共13页
针对三维卷积神经网络在视频超分辨率任务上具有较高的计算复杂度以及提取时空特征有限的问题,本文设计了一种基于混合时空卷积的轻量级视频超分辨率重建网络。首先,提出了一个基于混合时空卷积的模块,实现了网络时空特征提取能力的提... 针对三维卷积神经网络在视频超分辨率任务上具有较高的计算复杂度以及提取时空特征有限的问题,本文设计了一种基于混合时空卷积的轻量级视频超分辨率重建网络。首先,提出了一个基于混合时空卷积的模块,实现了网络时空特征提取能力的提升以及计算复杂度的降低;其次,提出了一个基于相似性的选择性特征融合模块,进一步增强了相关特征的提取能力;最后,设计了一种基于注意力机制的运动补偿模块,在一定程度上减轻了错误的特征融合的影响。实验结果表明:所提网络可以在视频超分辨率性能和网络复杂度之间取得很好的平衡,而且在基准数据集SPMCS-11上4倍超分辨率达到8 frame/s。所提网络满足了边缘设备推理运行中快速、准确等要求。 展开更多
关键词 视频超分辨率 深度学习 三维卷积神经网络 特征融合
下载PDF
基于时空流特征融合的俯视视角下奶牛跛行自动检测方法 被引量:1
11
作者 代昕 王军号 +4 位作者 张翼 王鑫杰 李晏兴 戴百生 沈维政 《智慧农业(中英文)》 CSCD 2024年第4期18-28,共11页
[目的/意义]奶牛跛行检测是规模化奶牛养殖过程中亟待解决的重要问题,现有方法的检测视角主要以侧视为主。然而,侧视视角存在着难以消除的遮挡问题。本研究主要解决侧视视角下存在的遮挡问题。[方法]提出一种基于时空流特征融合的俯视... [目的/意义]奶牛跛行检测是规模化奶牛养殖过程中亟待解决的重要问题,现有方法的检测视角主要以侧视为主。然而,侧视视角存在着难以消除的遮挡问题。本研究主要解决侧视视角下存在的遮挡问题。[方法]提出一种基于时空流特征融合的俯视视角下奶牛跛行检测方法。首先,通过分析深度视频流中跛行奶牛在运动过程中的位姿变化,构建空间流特征图像序列。通过分析跛行奶牛行走时躯体前进和左右摇摆的瞬时速度,利用光流捕获奶牛运动的瞬时速度,构建时间流特征图像序列。将空间流与时间流特征图像组合构建时空流融合特征图像序列。其次,利用卷积块注意力模块(Convolutional Block Attention Module, CBAM)改进PP-TSMv2 (PaddlePaddle-Temporal Shift Module v2)视频动作分类网络,构建奶牛跛行检测模型Cow-TSM (Cow-Temporal Shift Module)。最后,分别在不同输入模态、不同注意力机制、不同视频动作分类网络和现有方法 4个方面对比,进行奶牛跛行实验,以探究所提出方法的优劣性。[结果和讨论]共采集处理了180段奶牛图像序列数据,跛行奶牛与非跛行奶牛视频段数比例为1∶1,所提出模型识别精度达到88.7%,模型大小为22 M,离线推理时间为0.046 s。与主流视频动作分类模型TSM、PP-TSM、PP-TSMv2、SlowFast和TimesFormer模型相比,综合表现最好。同时,以时空流融合特征图像作为输入时,识别精度分别比单时间模态与单空间模态分别提升12%与4.1%,证明本研究中模态融合的有效性。通过与通道注意力(Squeeze-and-Excitation, SE)、卷积核注意力(Selective Kernel, SK)、坐标注意力(Coordinate Attention, CA)与CBAM不同注意力机制进行消融实验,证明利用CBAM注意力机制构建奶牛跛行检测模型效果最佳。最后,与现有跛行检测方法进行对比,所提出的方法同时具有较好的性能和实用性。[结论]本研究能够避免侧视视角下检测跛行奶牛时出现的遮挡问题,对于减少奶牛跛行发生率、提高牧场经济效益具有重要意义,符合牧场规模化建设的需求。 展开更多
关键词 奶牛跛行检测 时空融合 视频动作分类 深度图像 注意力机制 TSM
下载PDF
三维场叠加视频流的电子围栏越界检测方法
12
作者 尹泽中 李功权 《测绘通报》 CSCD 北大核心 2024年第6期103-108,共6页
随着实景三维城市建设的飞速发展,如今电子地图可采用三维实景呈现,且利用更加智能的图像处理方法使现实世界与实景模型数据实现虚实结合。在此背景下,针对二维场景下电子围栏检测方法出现的问题,本文提出了一种视频与三维实景融合下的... 随着实景三维城市建设的飞速发展,如今电子地图可采用三维实景呈现,且利用更加智能的图像处理方法使现实世界与实景模型数据实现虚实结合。在此背景下,针对二维场景下电子围栏检测方法出现的问题,本文提出了一种视频与三维实景融合下的电子围栏越界检测方法。底层数据基于实景三维模型和监控视频流,首先建立地理场景下视频监控投射的虚拟三维空间电子围栏,同时让视频接入优化的深度学习神经网络模型并应用人体姿势估计,通过坐标转换把估计点坐标和围栏坐标转换为三维局部坐标;然后将检测算法与规划的三维电子围栏作实时比对,实现物体越界的实时有效判断,且在不同视频场景下进行试验验证。结果表明,该方法有效、可行,无须特定的硬件支持及场景条件约束。 展开更多
关键词 视频融合 电子围栏 深度学习 坐标转换 越界检测
下载PDF
基于数字孪生的地铁隧道智能监测系统建设探讨 被引量:2
13
作者 肖婧仪 肖剑平 刘美春 《地理空间信息》 2024年第5期111-115,126,共6页
地铁隧道是城市轨道交通重要的组成部分,由于地质环境复杂,其挖掘与运营成本高、安全隐患大。为实现地铁隧道科学养护和智能化运营管理,迫切需要全息全生命周期的智能化监测系统做支撑。以数字孪生技术为基础,探讨了地铁隧道智能监测系... 地铁隧道是城市轨道交通重要的组成部分,由于地质环境复杂,其挖掘与运营成本高、安全隐患大。为实现地铁隧道科学养护和智能化运营管理,迫切需要全息全生命周期的智能化监测系统做支撑。以数字孪生技术为基础,探讨了地铁隧道智能监测系统建设的关键技术、系统架构和主要建设内容,提出了将数字孪生、智能算法调度引擎、激光雷达与视频融合技术相结合的建设思路,对指导隧道智能监测系统建设具有一定的参考价值。 展开更多
关键词 地铁隧道 数字孪生 AI算法 智能监测 激光雷达 视频融合
下载PDF
基于多模态知识主动学习的视频问答方案
14
作者 刘明阳 王若梅 +1 位作者 周凡 林格 《计算机研究与发展》 EI CSCD 北大核心 2024年第4期889-902,共14页
视频问答是人工智能领域的一个热点研究问题.现有方法在特征提取方面缺乏针对视觉目标运动细节的获取,从而会导致错误因果关系的建立.此外,在数据融合与推理过程中,现有方法缺乏有效的主动学习能力,难以获取特征提取之外的先验知识,影... 视频问答是人工智能领域的一个热点研究问题.现有方法在特征提取方面缺乏针对视觉目标运动细节的获取,从而会导致错误因果关系的建立.此外,在数据融合与推理过程中,现有方法缺乏有效的主动学习能力,难以获取特征提取之外的先验知识,影响了模型对多模态内容的深度理解.针对这些问题,首先,设计了一种显性多模态特征提取模块,通过获取图像序列中视觉目标的语义关联以及与周围环境的动态关系来建立每个视觉目标的运动轨迹.进一步通过动态内容对静态内容的补充,为数据融合与推理提供了更加精准的视频特征表达.其次,提出了知识自增强多模态数据融合与推理模型,实现了多模态信息理解的自我完善和逻辑思维聚焦,增强了对多模态特征的深度理解,减少了对先验知识的依赖.最后,提出了一种基于多模态知识主动学习的视频问答方案.实验结果表明,该方案的性能优于现有最先进的视频问答算法,大量的消融和可视化实验也验证了方案的合理性. 展开更多
关键词 视频问答 数据融合与推理 多模态主动学习 视频细节描述提取 深度学习
下载PDF
基于雷视融合轨迹匹配的高速公路车辆轨迹跟踪方法
15
作者 黎云飞 许华杰 韦泽贤 《电子测量技术》 北大核心 2024年第9期105-111,共7页
针对高速公路车辆跟踪过程中,在进行雷达与视频数据融合时两类传感器之间探测目标匹配的难点问题,提出一种基于目标轨迹相似度匹配的高速公路车辆跟踪方法。首先,采用投影变换将雷达数据转化到视频数据所在的维度;其次,通过提出的曲线... 针对高速公路车辆跟踪过程中,在进行雷达与视频数据融合时两类传感器之间探测目标匹配的难点问题,提出一种基于目标轨迹相似度匹配的高速公路车辆跟踪方法。首先,采用投影变换将雷达数据转化到视频数据所在的维度;其次,通过提出的曲线拟合算法将离散的轨迹点插值成连续的轨迹曲线;最后,将雷达探测目标投影到图像上的轨迹曲线与视频检测目标轨迹曲线进行相似度计算得到相似度矩阵,并通过对相似度矩阵进行筛选得到雷达探测目标和视频检测目标的匹配关系。采用高速公路真实场景下采集的车辆数据开展对比实验,结果表明在高速公路场景下的平均目标匹配成功率为94.71%,相比其他同类方法的平均匹配成功率提高3.01%和3.69%。所提出的方法能有效过滤伪目标,更适合在高速公路场景下的车辆跟踪中使用。 展开更多
关键词 雷视融合 车辆轨迹跟踪 轨迹匹配 曲线拟合 相似度矩阵
下载PDF
基于多模态自适应融合的短视频虚假新闻检测
16
作者 朱枫 张廷辉 +1 位作者 李鹏 徐鹤 《计算机科学》 CSCD 北大核心 2024年第11期39-46,共8页
随着互联网和社交媒体的迅速发展,新闻的传播途径不再局限于传统的媒体渠道。语义丰富的多模态数据成为新闻的载体,虚假新闻也随之得到了广泛的传播。由于虚假新闻的泛滥会对个人以及社会产生难以预估的影响,针对虚假新闻的检测已经成... 随着互联网和社交媒体的迅速发展,新闻的传播途径不再局限于传统的媒体渠道。语义丰富的多模态数据成为新闻的载体,虚假新闻也随之得到了广泛的传播。由于虚假新闻的泛滥会对个人以及社会产生难以预估的影响,针对虚假新闻的检测已经成为目前的研究热点。现有的多模态虚假新闻检测方法仅针对文本和图像数据,无法充分利用短视频中的多模态信息,且忽略了不同模态间的一致性和差异性特征,难以充分发挥多种模态融合的优势。为解决该问题,提出一种基于多模态自适应融合的短视频虚假新闻检测模型。首先对短视频中多模态数据进行特征提取,采用跨模态对齐融合获取不同模态间的一致性和互补性特征;然后根据不同模态特征对最终融合结果的贡献实现自适应融合;最后利用分类器实现虚假新闻检测。在公开的短视频数据集上的实验结果表明,该模型的准确率、精确率、召回率和F1分数都高于当前的先进基线模型。 展开更多
关键词 虚假新闻检测 多模态 短视频 跨模态融合 自适应融合
下载PDF
骨架引导的多模态视频异常行为检测方法 被引量:2
17
作者 付荣华 刘成明 +2 位作者 刘合星 高宇飞 石磊 《郑州大学学报(理学版)》 CAS 北大核心 2024年第1期16-24,共9页
视频异常行为检测是智能视频监控分析的一项重要且具有挑战性的任务,旨在自动发现异常事件。针对只采用单骨架模态导致部分相似运动模式的行为难以区分和缺乏时间全局信息的问题,提出骨架引导的多模态异常行为检测方法。为了充分利用RG... 视频异常行为检测是智能视频监控分析的一项重要且具有挑战性的任务,旨在自动发现异常事件。针对只采用单骨架模态导致部分相似运动模式的行为难以区分和缺乏时间全局信息的问题,提出骨架引导的多模态异常行为检测方法。为了充分利用RGB视频模态和骨架模态的优势进行相似行为下的异常行为检测,将从骨架模态中提取的动作行为特征作为引导,使用新的空间嵌入来加强RGB视频和骨架姿态之间的对应关系。同时使用时间自注意力提取相同节点的帧间关系,以捕获时间的全局信息,有效提取具有区分性的异常行为特征。在两个大型公开标准数据集上的实验结果表明所提方法能够有效加强骨架引导的多模态特征在空间和模态上的对应关系,并捕获时空图卷积缺乏的时间全局信息,使运动模式相似的异常行为实现更准确检测。 展开更多
关键词 视频异常行为检测 骨架 多模态融合 时空自注意力增强图卷积 空间嵌入
下载PDF
基于多模态融合的无监督视频摘要算法研究
18
作者 潘涛 陈虎 +3 位作者 黄菊 吴长柯 邓彪 吴志红 《计算机技术与发展》 2024年第11期29-35,共7页
生成算法通过选择视频内容中信息最丰富的部分来构建形成简洁而完整的概要,有利于快速了解视频内容并压缩存储空间。针对现有视频摘要方法存在的视频多模态信息利用不充分、特征表达能力弱等难题,该文提出了一种基于多模态融合及多尺度... 生成算法通过选择视频内容中信息最丰富的部分来构建形成简洁而完整的概要,有利于快速了解视频内容并压缩存储空间。针对现有视频摘要方法存在的视频多模态信息利用不充分、特征表达能力弱等难题,该文提出了一种基于多模态融合及多尺度时序信息的无监督视频摘要生成算法。首先,基于视频图像、音频、文本特征,提出了一种两阶段特征融合模块,充分保留了模态间的非冗余信息,提升单帧特征表示能力;其次,采用自注意力和特征金字塔网络对融合特征进行全局及局部的依赖建模;最后,根据多尺度的上下文信息选择关键帧最终构成高质量的视频摘要。实验结果表明,与其他无监督视频摘要算法相比,该算法在SumMe数据集规范设置及增强设置中F-Score分别提升了0.5百分点和1.4百分点,在TVSum数据集上达到最佳F-Score。 展开更多
关键词 无监督视频摘要 多模态融合 自注意力网络 特征金字塔网络 特征编码
下载PDF
基于改进的相关滤波卫星视频抗遮挡跟踪方法
19
作者 李孟歆 王宝锋 +2 位作者 姜政 李志秀 朴东辉 《火力与指挥控制》 CSCD 北大核心 2024年第6期128-134,共7页
卫星视频中的目标存在背景复杂、尺寸较小、容易受遮挡等问题,这将影响跟踪的准确性,甚至导致跟踪失败。提出了用改进的核相关滤波算法来解决卫星视频中目标遮挡问题,并对目标进行有效跟踪。该算法通过提取目标的HOG特征、LBP特征和SIF... 卫星视频中的目标存在背景复杂、尺寸较小、容易受遮挡等问题,这将影响跟踪的准确性,甚至导致跟踪失败。提出了用改进的核相关滤波算法来解决卫星视频中目标遮挡问题,并对目标进行有效跟踪。该算法通过提取目标的HOG特征、LBP特征和SIFT特征共同描述目标,并以融合特征减少背景变化的影响。提出自适应卡尔曼滤波算法解决跟踪过程中目标被遮挡的问题,通过ITCI值判断目标是否被遮挡,并对被遮挡的目标进行位置预测,选用核相关滤波算法以满足跟踪的实时性和准确性。实验结果表明,改进的核相关滤波算法解决了目标遮挡问题,对目标背景变化有较好表现,同时跟踪的精度和成功率也有很大提高。 展开更多
关键词 核相关滤波 特征融合 自适应卡尔曼滤波 目标跟踪 卫星视频
下载PDF
基于双参考帧的多源着色结果融合的视频着色方法
20
作者 孟桦 唐金辉 代龙泉 《东南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2024年第1期183-191,共9页
对黑白视频着色时,为了更好地利用参考帧信息,提出一种基于双参考帧的多源着色结果融合的着色方法.首先,采用硬注意力融合子模块融合双参考帧提供的颜色信息,以防止双帧语义匹配模块着色时不合理参考信息导致的颜色模糊问题.然后,使用... 对黑白视频着色时,为了更好地利用参考帧信息,提出一种基于双参考帧的多源着色结果融合的着色方法.首先,采用硬注意力融合子模块融合双参考帧提供的颜色信息,以防止双帧语义匹配模块着色时不合理参考信息导致的颜色模糊问题.然后,使用多源着色结果融合模块融合通过双帧光流传播模块、双帧语义匹配模块以及遮挡信息得到的着色结果,进而产生更优质的着色结果.实验结果表明,该方法在Davis30测试集上的峰值信噪比(PSNR)、结构相似性(SSIM)和颜色分布一致性指数(CDC)分别为37.36 dB、0.980 5、0.003 748,说明该方法能够通过多种融合方式充分利用双参考帧的信息为灰度帧着色,并生成美观且具有较好时间一致性的着色结果. 展开更多
关键词 融合 双参考帧 视频着色 遮挡
下载PDF
上一页 1 2 26 下一页 到第
使用帮助 返回顶部