期刊文献+
共找到469篇文章
< 1 2 24 >
每页显示 20 50 100
Web-based mixed reality video fusion with remote rendering
1
作者 Qiang ZHOU Zhong ZHOU 《Virtual Reality & Intelligent Hardware》 2023年第2期188-199,共12页
Background Mixed reality(MR)video fusion systems merge video imagery with 3D scenes to make the scene more realistic and help users understand the video content and temporal–spatial correlation between them,reducing ... Background Mixed reality(MR)video fusion systems merge video imagery with 3D scenes to make the scene more realistic and help users understand the video content and temporal–spatial correlation between them,reducing the user′s cognitive load.MR video fusion are used in various applications;however,video fusion systems require powerful client machines because video streaming delivery,stitching,and rendering are computationally intensive.Moreover,huge bandwidth usage is another critical factor that affects the scalability of video-fusion systems.Methods Our framework proposes a fusion method for dynamically projecting video images into 3D models as textures.Results Several experiments on different metrics demonstrate the effectiveness of the proposed framework.Conclusions The framework proposed in this study can overcome client limitations by utilizing remote rendering.Furthermore,the framework we built is based on browsers.Therefore,the user can test the MR video fusion system with a laptop or tablet without installing any additional plug-ins or application programs. 展开更多
关键词 Mixed reality video fusion WebRTC Remote rendering
下载PDF
Interactive System for Video Summarization Based on Multimodal Fusion 被引量:1
2
作者 Zheng Li Xiaobing Du +2 位作者 Cuixia Ma Yanfeng Li Hongan Wang 《Journal of Beijing Institute of Technology》 EI CAS 2019年第1期27-34,共8页
Biography videos based on life performances of prominent figures in history aim to describe great mens' life.In this paper,a novel interactive video summarization for biography video based on multimodal fusion is ... Biography videos based on life performances of prominent figures in history aim to describe great mens' life.In this paper,a novel interactive video summarization for biography video based on multimodal fusion is proposed,which is a novel approach of visualizing the specific features for biography video and interacting with video content by taking advantage of the ability of multimodality.In general,a story of movie progresses by dialogues of characters and the subtitles are produced with the basis on the dialogues which contains all the information related to the movie.In this paper,JGibbsLDA is applied to extract key words from subtitles because the biography video consists of different aspects to depict the characters' whole life.In terms of fusing keywords and key-frames,affinity propagation is adopted to calculate the similarity between each key-frame cluster and keywords.Through the method mentioned above,a video summarization is presented based on multimodal fusion which describes video content more completely.In order to reduce the time spent on searching the interest video content and get the relationship between main characters,a kind of map is adopted to visualize video content and interact with video summarization.An experiment is conducted to evaluate video summarization and the results demonstrate that this system can formally facilitate the exploration of video content while improving interaction and finding events of interest efficiently. 展开更多
关键词 video VISUALIZATION INTERACTION MULTIMODAL fusion video SUMMARIZATION
下载PDF
COMBINING SCENE MODEL AND FUSION FOR NIGHT VIDEO ENHANCEMENT 被引量:1
3
作者 Li Jing Yang Tao +1 位作者 Pan Quan Cheng Yongmei 《Journal of Electronics(China)》 2009年第1期88-93,共6页
This paper presents a video context enhancement method for night surveillance. The basic idea is to extract and fuse the meaningful information of video sequence captured from a fixed camera under different illuminati... This paper presents a video context enhancement method for night surveillance. The basic idea is to extract and fuse the meaningful information of video sequence captured from a fixed camera under different illuminations. A unique characteristic of the algorithm is to separate the image context into two classes and estimate them in different ways. One class contains basic surrounding scene in- formation and scene model, which is obtained via background modeling and object tracking in daytime video sequence. The other class is extracted from nighttime video, including frequently moving region, high illumination region and high gradient region. The scene model and pixel-wise difference method are used to segment the three regions. A shift-invariant discrete wavelet based image fusion technique is used to integral all those context information in the final result. Experiment results demonstrate that the proposed approach can provide much more details and meaningful information for nighttime video. 展开更多
关键词 视频增殖 图像融合 背景建模 目标跟踪
下载PDF
多层级视频会议系统跨网段融合技术的应用
4
作者 赵士达 马蕴玢 +3 位作者 朱宏 孙选超 杨朝 赵博宇 《华南地震》 2024年第1期105-110,共6页
通过介绍天津市地震局应急视频会议系统接入中国地震局视频会议系统、天津市政府视频系统和天津应急管理局视频系统的基本情况,结合地震应急视频会议系统现状,分析多类型、多层级、多网段视频会议系统的架构特点,着重介绍了多网段、多... 通过介绍天津市地震局应急视频会议系统接入中国地震局视频会议系统、天津市政府视频系统和天津应急管理局视频系统的基本情况,结合地震应急视频会议系统现状,分析多类型、多层级、多网段视频会议系统的架构特点,着重介绍了多网段、多视频源视频转发优化技术在视频会议系统融合中的应用。通过该技术的应用,实现了天津市地震应急视频会议系统与各相关单位视频会议系统的全部连通。 展开更多
关键词 视频会议系统 视频融合 跨网段 视频转发 级联
下载PDF
基于多模态知识主动学习的视频问答方案
5
作者 刘明阳 王若梅 +1 位作者 周凡 林格 《计算机研究与发展》 EI CSCD 北大核心 2024年第4期889-902,共14页
视频问答是人工智能领域的一个热点研究问题.现有方法在特征提取方面缺乏针对视觉目标运动细节的获取,从而会导致错误因果关系的建立.此外,在数据融合与推理过程中,现有方法缺乏有效的主动学习能力,难以获取特征提取之外的先验知识,影... 视频问答是人工智能领域的一个热点研究问题.现有方法在特征提取方面缺乏针对视觉目标运动细节的获取,从而会导致错误因果关系的建立.此外,在数据融合与推理过程中,现有方法缺乏有效的主动学习能力,难以获取特征提取之外的先验知识,影响了模型对多模态内容的深度理解.针对这些问题,首先,设计了一种显性多模态特征提取模块,通过获取图像序列中视觉目标的语义关联以及与周围环境的动态关系来建立每个视觉目标的运动轨迹.进一步通过动态内容对静态内容的补充,为数据融合与推理提供了更加精准的视频特征表达.其次,提出了知识自增强多模态数据融合与推理模型,实现了多模态信息理解的自我完善和逻辑思维聚焦,增强了对多模态特征的深度理解,减少了对先验知识的依赖.最后,提出了一种基于多模态知识主动学习的视频问答方案.实验结果表明,该方案的性能优于现有最先进的视频问答算法,大量的消融和可视化实验也验证了方案的合理性. 展开更多
关键词 视频问答 数据融合与推理 多模态主动学习 视频细节描述提取 深度学习
下载PDF
骨架引导的多模态视频异常行为检测方法 被引量:1
6
作者 付荣华 刘成明 +2 位作者 刘合星 高宇飞 石磊 《郑州大学学报(理学版)》 CAS 北大核心 2024年第1期16-24,共9页
视频异常行为检测是智能视频监控分析的一项重要且具有挑战性的任务,旨在自动发现异常事件。针对只采用单骨架模态导致部分相似运动模式的行为难以区分和缺乏时间全局信息的问题,提出骨架引导的多模态异常行为检测方法。为了充分利用RG... 视频异常行为检测是智能视频监控分析的一项重要且具有挑战性的任务,旨在自动发现异常事件。针对只采用单骨架模态导致部分相似运动模式的行为难以区分和缺乏时间全局信息的问题,提出骨架引导的多模态异常行为检测方法。为了充分利用RGB视频模态和骨架模态的优势进行相似行为下的异常行为检测,将从骨架模态中提取的动作行为特征作为引导,使用新的空间嵌入来加强RGB视频和骨架姿态之间的对应关系。同时使用时间自注意力提取相同节点的帧间关系,以捕获时间的全局信息,有效提取具有区分性的异常行为特征。在两个大型公开标准数据集上的实验结果表明所提方法能够有效加强骨架引导的多模态特征在空间和模态上的对应关系,并捕获时空图卷积缺乏的时间全局信息,使运动模式相似的异常行为实现更准确检测。 展开更多
关键词 视频异常行为检测 骨架 多模态融合 时空自注意力增强图卷积 空间嵌入
下载PDF
基于双参考帧的多源着色结果融合的视频着色方法
7
作者 孟桦 唐金辉 代龙泉 《东南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2024年第1期183-191,共9页
对黑白视频着色时,为了更好地利用参考帧信息,提出一种基于双参考帧的多源着色结果融合的着色方法.首先,采用硬注意力融合子模块融合双参考帧提供的颜色信息,以防止双帧语义匹配模块着色时不合理参考信息导致的颜色模糊问题.然后,使用... 对黑白视频着色时,为了更好地利用参考帧信息,提出一种基于双参考帧的多源着色结果融合的着色方法.首先,采用硬注意力融合子模块融合双参考帧提供的颜色信息,以防止双帧语义匹配模块着色时不合理参考信息导致的颜色模糊问题.然后,使用多源着色结果融合模块融合通过双帧光流传播模块、双帧语义匹配模块以及遮挡信息得到的着色结果,进而产生更优质的着色结果.实验结果表明,该方法在Davis30测试集上的峰值信噪比(PSNR)、结构相似性(SSIM)和颜色分布一致性指数(CDC)分别为37.36 dB、0.980 5、0.003 748,说明该方法能够通过多种融合方式充分利用双参考帧的信息为灰度帧着色,并生成美观且具有较好时间一致性的着色结果. 展开更多
关键词 融合 双参考帧 视频着色 遮挡
下载PDF
改进AVSlowFast音视频融合模型对哺乳期母猪关键行为的识别
8
作者 李泊 陈天明 朱佳颖 《农业工程学报》 EI CAS CSCD 北大核心 2024年第7期182-190,共9页
哺乳期母猪的自动行为监测对于保障母猪健康并及时发现异常状态具有重要意义。为了在识别母猪行为中整合视觉和听觉信号蕴含的信息,该研究提出了一种基于音视频特征多模态融合的哺乳期母猪关键行为识别方法。首先,引入三分支结构的AVSlo... 哺乳期母猪的自动行为监测对于保障母猪健康并及时发现异常状态具有重要意义。为了在识别母猪行为中整合视觉和听觉信号蕴含的信息,该研究提出了一种基于音视频特征多模态融合的哺乳期母猪关键行为识别方法。首先,引入三分支结构的AVSlowFast模型作为基础网络,通过视频慢通道、视频快通道、音频通道有效挖掘在视觉和听觉2种模态下的相关行为特征,并基于多层次侧向连接深入融合视听觉模态信息。在此基础上,该研究在特征融合后期引入高斯上下文变换器通道注意力模块,在不新增模型参数的条件下进一步优化高维多模态三维特征的融合效果,提高行为识别的准确率。该研究以哺乳期母猪为对象,采集实际养殖环境中的音频与视频数据进行试验,试验结果表明基于改进AVSlowFast音视频融合模型识别进食、哺乳、睡眠、拱栏、饮水、日常活动6种关键行为的平均精确率与召回率分别为94.3%和94.6%。与基于SlowFast的单模态行为识别方法相比,该研究提出的方法对6种行为识别的平均F1分数上显著提升了12.7个百分点,为实现畜禽多模态行为监测提供了一种有效思路。 展开更多
关键词 行为识别 母猪 行为监测 音视频融合 多模态 通道注意力机制 AVSlowFast
下载PDF
面向跨模态检索的查询感知双重对比学习网络
9
作者 尹梦冉 梁美玉 +3 位作者 于洋 曹晓雯 杜军平 薛哲 《软件学报》 EI CSCD 北大核心 2024年第5期2120-2132,共13页
近期,跨模态视频语料库时刻检索(VCMR)这一新任务被提出,它的目标是从未分段的视频语料库中检索出与查询语句相对应的一小段视频片段.现有的跨模态视频文本检索工作的关键点在于不同模态特征的对齐和融合,然而,简单地执行跨模态对齐和... 近期,跨模态视频语料库时刻检索(VCMR)这一新任务被提出,它的目标是从未分段的视频语料库中检索出与查询语句相对应的一小段视频片段.现有的跨模态视频文本检索工作的关键点在于不同模态特征的对齐和融合,然而,简单地执行跨模态对齐和融合不能确保来自相同模态且语义相似的数据在联合特征空间下保持接近,也未考虑查询语句的语义.为了解决上述问题,提出一种面向多模态视频片段检索的查询感知跨模态双重对比学习网络(QACLN),该网络通过结合模态间和模态内的双重对比学习来获取不同模态数据的统一语义表示.具体地,提出一种查询感知的跨模态语义融合策略,根据感知到的查询语义自适应地融合视频的视觉模态特征和字幕模态特征等多模态特征,获得视频的查询感知多模态联合表示.此外,提出一种面向视频和查询语句的模态间及模态内双重对比学习机制,以增强不同模态的语义对齐和融合,从而提高不同模态数据表示的可分辨性和语义一致性.最后,采用一维卷积边界回归和跨模态语义相似度计算来完成时刻定位和视频检索.大量实验验证表明,所提出的QACLN优于基准方法. 展开更多
关键词 跨模态语义融合 跨模态检索 视频时刻定位 对比学习
下载PDF
基于数字孪生的地铁隧道智能监测系统建设探讨
10
作者 肖婧仪 肖剑平 刘美春 《地理空间信息》 2024年第5期111-115,126,共6页
地铁隧道是城市轨道交通重要的组成部分,由于地质环境复杂,其挖掘与运营成本高、安全隐患大。为实现地铁隧道科学养护和智能化运营管理,迫切需要全息全生命周期的智能化监测系统做支撑。以数字孪生技术为基础,探讨了地铁隧道智能监测系... 地铁隧道是城市轨道交通重要的组成部分,由于地质环境复杂,其挖掘与运营成本高、安全隐患大。为实现地铁隧道科学养护和智能化运营管理,迫切需要全息全生命周期的智能化监测系统做支撑。以数字孪生技术为基础,探讨了地铁隧道智能监测系统建设的关键技术、系统架构和主要建设内容,提出了将数字孪生、智能算法调度引擎、激光雷达与视频融合技术相结合的建设思路,对指导隧道智能监测系统建设具有一定的参考价值。 展开更多
关键词 地铁隧道 数字孪生 AI算法 智能监测 激光雷达 视频融合
下载PDF
基于增强全局-局部特征融合的视频描述生成方法
11
作者 黄飞燕 曾上游 邱泓语 《国外电子测量技术》 2024年第1期1-9,共9页
现有的视频描述生成方法提取的特征及特征组合的方式较为简单,导致模型丢失了部分与视频描述相关的重要语义信息,限制了对视频内容的准确描述和理解。分析存在的不足,提出了一种基于增强全局-局部特征融合的视频描述生成方法。首先采用... 现有的视频描述生成方法提取的特征及特征组合的方式较为简单,导致模型丢失了部分与视频描述相关的重要语义信息,限制了对视频内容的准确描述和理解。分析存在的不足,提出了一种基于增强全局-局部特征融合的视频描述生成方法。首先采用不同特征提取器分别对视频片段提取局部特征和全局特征,为了建模不同级别特征(局部和全局)的相关性,利用特征融合增强网络进行特征融合,丰富模型的特征信息。解码器使用的双向长短期记忆网络,并在其后加入重构网络,重构经编码器处理得到的视频特征序列,最终经过长短期记忆网络生成视频的描述语句。在MSVD与MSR-VTT数据集上的实验结果表明,提出的模型可以显著提高生成的描述语句的准确性。 展开更多
关键词 视频描述生成 增强特征融合网络 自然语言处理
下载PDF
融合语义信息和视觉推理特征的视频描述方法
12
作者 张浩萌 刘斌 《小型微型计算机系统》 CSCD 北大核心 2024年第2期470-476,共7页
视频描述是一项同时涉及到计算机视觉和自然语言处理两个领域的跨模态任务,其目的是为视频自动生成一段描述,所生成的内容不仅要准确完整地描述视频的主要内容,而且要符合基本的语法结构.针对现有的视频描述方法在生成过程的可解释性和... 视频描述是一项同时涉及到计算机视觉和自然语言处理两个领域的跨模态任务,其目的是为视频自动生成一段描述,所生成的内容不仅要准确完整地描述视频的主要内容,而且要符合基本的语法结构.针对现有的视频描述方法在生成过程的可解释性和生成内容的准确性等方面尚存在一些不足之处,本文提出一种基于编解码框架的融合语义信息和视觉推理特征的视频描述方法,该方法在解码阶段进行适当的改进,提出3种特征融合网络,分别为特征参与的融合网络、特征引导的融合网络以及结合权重的融合网络,将视频对应的语义特征与视觉推理特征进行融合,从而生成兼具可解释性和准确性的描述.在MSVD和MSRVTT两个数据集上进行消融和对比实验的结果表明:与基模型相比,本文所提方法的CIDEr指标分别增长了21.6%和3.5%;与其他方法的比较结果表明,本文提出的方法在各个指标上具有一定的竞争力. 展开更多
关键词 视频描述 特征融合 视觉推理特征 语义特征
下载PDF
基于多模态视频分类任务的模态融合策略研究
13
作者 王一帆 张雪芳 《计算机科学》 CSCD 北大核心 2024年第S01期489-493,共5页
尽管过往人工智能相关技术在众多领域取得了成功,但是通常只是模拟了人类的某一种感知能力,也就意味着被限制在处理单个模态的信息之中。从多个模态信息中提取特征并进行有效融合对于从弱/限制领域人工智能向强/通用人工智能的发展迈进... 尽管过往人工智能相关技术在众多领域取得了成功,但是通常只是模拟了人类的某一种感知能力,也就意味着被限制在处理单个模态的信息之中。从多个模态信息中提取特征并进行有效融合对于从弱/限制领域人工智能向强/通用人工智能的发展迈进具有重要意义。本研究基于编码器-解码器结构,在视频分类任务上对多模态信息的特征编码进行早期特征融合、对各模态信息的预测结果进行后期决策融合以及对两者相结合的不同多模态信息融合策略进行了对比研究;同时对音频模态信息参与模态融合的两种方式进行了对比,即直接将音频进行特征编码进而参与模态融合或音频通过语音转文本进而以文本的形式参与模态融合。实验结果表明,将文本和音频模态单独的预测结果与另外两种模态的融合特征的预测结果进行决策融合能够进一步提高分类预测准确率;此外,通过语音识别将语音转换成文本模态信息,能够更加充分利用其中包含的语义信息。 展开更多
关键词 多模态 模态融合 语音识别 视频分类
下载PDF
瞬态场景下基于光流法的红外视频插帧算法研究
14
作者 李文波 王玉 +2 位作者 王明泉 商奥雪 丰晓钰 《机械与电子》 2024年第4期15-21,共7页
针对现有红外图像插帧方法,在瞬态场景下均不能得到鲁棒性较好的插入帧红外图像,提出了一种基于注意力的多尺度、多分支光流网络,提取相邻2帧红外图像光流信息,每个分支分别学习一种光流信息,利用多尺度特征融合模块在每个尺度上聚焦局... 针对现有红外图像插帧方法,在瞬态场景下均不能得到鲁棒性较好的插入帧红外图像,提出了一种基于注意力的多尺度、多分支光流网络,提取相邻2帧红外图像光流信息,每个分支分别学习一种光流信息,利用多尺度特征融合模块在每个尺度上聚焦局部重要信息。设计了一个多光流特征重加权模块,根据通道注意力自适应地选择每个光流的特征。经实验结果证明,所提方法可以很好地完成插帧任务,其性能与最先进的方法相比较更具有优越性。 展开更多
关键词 红外视频插帧 注意力机制 光流 特征融合
下载PDF
基于雷视融合的合流区预警系统应用设计
15
作者 刘梦依 梁升建 +1 位作者 渠开发 黄文东 《山东交通科技》 2024年第1期43-45,共3页
为有效提升高速公路合流区行车安全,针对合流区相对复杂的交通运行状态,提出了基于雷视融合的合流区预警系统。方案通过交通运行状态感知、协同边缘计算、联动预警信息发布等方式,对合流区主线和匝道车辆进行行车安全预警,从而减少高速... 为有效提升高速公路合流区行车安全,针对合流区相对复杂的交通运行状态,提出了基于雷视融合的合流区预警系统。方案通过交通运行状态感知、协同边缘计算、联动预警信息发布等方式,对合流区主线和匝道车辆进行行车安全预警,从而减少高速公路合流区交通事故和拥堵事件的发生。 展开更多
关键词 雷视融合 信息感知 协同计算 合流区预警 高速公路
下载PDF
基于双光融合的输煤明火实时检测系统
16
作者 雷丽君 沈思贤 +5 位作者 宋亚豪 周锋 孟祥鹏 王震 张建乐 白小虎 《工业控制计算机》 2024年第1期10-12,共3页
输煤栈桥场景中,若产生明火则易带来严重的安全事故。因此生产现场需要第一时间发现并扑灭明火,保障工业现场的安全生产。研究了通过可见光和热成像双光融合的实时视频检测方法,能及时发现明火并告警。该系统采用多元化的告警方式:机器... 输煤栈桥场景中,若产生明火则易带来严重的安全事故。因此生产现场需要第一时间发现并扑灭明火,保障工业现场的安全生产。研究了通过可见光和热成像双光融合的实时视频检测方法,能及时发现明火并告警。该系统采用多元化的告警方式:机器人本体声光报警、电脑Web端弹窗和语音告警、手机APP端告警通知,使得相关人员在第一时间可知晓告警,以便及时处理。在实际项目应用中,明火检测综合准确度大于95%,保障了输煤栈桥工业现场的运行安全。 展开更多
关键词 输煤栈桥 双光融合 明火检测 多元化告警
下载PDF
基于时空依赖关系和特征融合的弱监督视频异常检测
17
作者 柳德云 李莹 +1 位作者 周震 吉根林 《数据采集与处理》 CSCD 北大核心 2024年第1期204-214,共11页
弱监督视频异常检测由于抗干扰性强、数据标注要求低,成为视频异常事件检测研究的热点。在现有的工作中,大多数弱监督视频异常检测方法认为各个视频段独立同分布,单独判断每个视频段是否异常,忽略了视频段间的时空依赖关系。为此,提出... 弱监督视频异常检测由于抗干扰性强、数据标注要求低,成为视频异常事件检测研究的热点。在现有的工作中,大多数弱监督视频异常检测方法认为各个视频段独立同分布,单独判断每个视频段是否异常,忽略了视频段间的时空依赖关系。为此,提出了一种基于时空依赖关系和特征融合的弱监督视频异常检测方法,在保留视频段原始特征的同时,使用视频段之间的索引距离和特征相似程度拟合视频段的时间和空间依赖关系,构建视频段的关系特征。通过融合原始特征和关系特征,更好地表达视频的动态特性和时序关系。在UCF-Crime和ShanghaiTech两个基准数据集上进行了大量实验,实验结果表明所提方法的AUC指标优于其他方法,AUC值分别达到了80.1%和94.6%。 展开更多
关键词 视频异常事件检测 时空依赖关系 特征融合 图卷积神经网络 注意力机制
下载PDF
基于改进YOLOv5s的无人机航拍视频中道路异常目标检测算法
18
作者 赵磊 孙鹏 +1 位作者 刘岩松 沈喆 《沈阳航空航天大学学报》 2024年第1期68-75,共8页
在使用无人机进行机动车道行人与非机动车检测过程中,发现目标检测精度低、效果差的问题。为解决这些问题,提出一种针对无人机的行人与非机动车检测算法YOLOv5sP2S。首先,基于原有的PAFPN特征融合方案,将YOLOv5s模型的Neck部分进行扩展... 在使用无人机进行机动车道行人与非机动车检测过程中,发现目标检测精度低、效果差的问题。为解决这些问题,提出一种针对无人机的行人与非机动车检测算法YOLOv5sP2S。首先,基于原有的PAFPN特征融合方案,将YOLOv5s模型的Neck部分进行扩展,并增加专门针对小目标的检测层;然后,在预测部分添加小目标检测头,对小目标检测层输出特征图进行预测;最后,将YOLOv5s的定位损失函数改进为SIOU,提高检测精度和锚框的回归效率。实验结果表明,与YOLOv5s模型相比,YOLOv5s-P2S的平均精度均值mAP50提高了0.05,参数量仅增加0.2M。YOLOv5s-P2S能够满足无人机视角的行人与非机动车目标检测的准确性和实时性要求。 展开更多
关键词 YOLOv5s 道路目标检测 小目标检测层 SIOU 特征融合 无人机航拍视频
下载PDF
基于时序信息的轻量级视频车辆目标检测方法
19
作者 符广 刘彦隆 刘建霞 《电子设计工程》 2024年第1期175-180,186,共7页
为实现在低功耗嵌入式设备上部署视频车辆目标检测模型,提出一种基于时序信息的轻量级视频车辆目标检测方法。该方法以SSD网络为基础,使用MobileNetV3-Small替换原主干特征提取网络VGG-16,并在SSD网络中直接注入注意力机制卷积GRU用于... 为实现在低功耗嵌入式设备上部署视频车辆目标检测模型,提出一种基于时序信息的轻量级视频车辆目标检测方法。该方法以SSD网络为基础,使用MobileNetV3-Small替换原主干特征提取网络VGG-16,并在SSD网络中直接注入注意力机制卷积GRU用于融合时序信息,提升车辆检测精度;关键帧检测网络控制的跳跃连接使模型只在关键帧更新GRU状态,非关键帧直接复制上一关键帧GRU状态,提升模型检测速度。为进一步减少计算量,网络中大量使用深度可分离卷积替换标准卷积层,同时使用量化感知训练方法压缩模型。在UA-DETRAC数据集上的实验表明,该方法在Intel Core i7 CPU和树莓派4B上平均每帧检测时间分别为18 ms和134 ms,准确率达到了较高水平,为78.81%。 展开更多
关键词 视频目标检测 时序信息融合 自适应关键帧 量化感知训练
下载PDF
河北省河湖智能视频监控体系关键技术研究与实现
20
作者 刘廷 张成哲 郭珊珊 《水利信息化》 2024年第1期46-51,共6页
针对河北省河湖视频监控系统现状与问题,研究省级河湖智能视频监控体系的关键技术与具体实现。依托物联网、人工智能、云计算等先进技术,探讨河湖视频监控一张图、空间分析、多源数据融合、AI视频智能分析、视频取流等关键技术,采用基... 针对河北省河湖视频监控系统现状与问题,研究省级河湖智能视频监控体系的关键技术与具体实现。依托物联网、人工智能、云计算等先进技术,探讨河湖视频监控一张图、空间分析、多源数据融合、AI视频智能分析、视频取流等关键技术,采用基础设施层、数据服务层、平台服务层、应用层4层架构构建省级河湖智能视频监控体系,分析全省河湖视频资源传输专网、智能分析中心、视频监控一张图及河湖智能视频监控系统的具体实现成果。经过1年多的应用实践,证明该体系合理,能够有效推送疑似河湖违法事件,为视频监控在智慧水利中的应用提供思路框架和技术参考。 展开更多
关键词 智能视频监控 监控体系 河湖 一张图 多源数据融合 视频取流 关键技术
下载PDF
上一页 1 2 24 下一页 到第
使用帮助 返回顶部