期刊文献+
共找到531篇文章
< 1 2 27 >
每页显示 20 50 100
Functional Verification Based on FPGA for AVS Video Decoder 被引量:1
1
作者 FU Fang-fang YI Oing-ming SHI Min 《Semiconductor Photonics and Technology》 CAS 2009年第4期219-224,共6页
In this paper,based on the field-programmable gate array(FPGA)xc5vlx220 of Xilinx Company,the FPGA verification method for application specific integrated circuit(ASIC)design is introduced.Firstly,the basic principles... In this paper,based on the field-programmable gate array(FPGA)xc5vlx220 of Xilinx Company,the FPGA verification method for application specific integrated circuit(ASIC)design is introduced.Firstly,the basic principles of FPGA verification are introduced.Then,the structure of the FPGA board and the verification methods are illustrated.Finally,the workflow of FPGA verification for audio video coding standard(AVS)decoder and the method of restoring images are introduced in detail.The FPGA resources occupancy is shown and analyzed.The result shows that FPGA can verify the ASIC rapidly and effectively so as to shorten the development cycle. 展开更多
关键词 FPGA verification AVS video decoder MATLAB
下载PDF
A Video Captioning Method by Semantic Topic-Guided Generation
2
作者 Ou Ye Xinli Wei +2 位作者 Zhenhua Yu Yan Fu Ying Yang 《Computers, Materials & Continua》 SCIE EI 2024年第1期1071-1093,共23页
In the video captioning methods based on an encoder-decoder,limited visual features are extracted by an encoder,and a natural sentence of the video content is generated using a decoder.However,this kind ofmethod is de... In the video captioning methods based on an encoder-decoder,limited visual features are extracted by an encoder,and a natural sentence of the video content is generated using a decoder.However,this kind ofmethod is dependent on a single video input source and few visual labels,and there is a problem with semantic alignment between video contents and generated natural sentences,which are not suitable for accurately comprehending and describing the video contents.To address this issue,this paper proposes a video captioning method by semantic topic-guided generation.First,a 3D convolutional neural network is utilized to extract the spatiotemporal features of videos during the encoding.Then,the semantic topics of video data are extracted using the visual labels retrieved from similar video data.In the decoding,a decoder is constructed by combining a novel Enhance-TopK sampling algorithm with a Generative Pre-trained Transformer-2 deep neural network,which decreases the influence of“deviation”in the semantic mapping process between videos and texts by jointly decoding a baseline and semantic topics of video contents.During this process,the designed Enhance-TopK sampling algorithm can alleviate a long-tail problem by dynamically adjusting the probability distribution of the predicted words.Finally,the experiments are conducted on two publicly used Microsoft Research Video Description andMicrosoft Research-Video to Text datasets.The experimental results demonstrate that the proposed method outperforms several state-of-art approaches.Specifically,the performance indicators Bilingual Evaluation Understudy,Metric for Evaluation of Translation with Explicit Ordering,Recall Oriented Understudy for Gisting Evaluation-longest common subsequence,and Consensus-based Image Description Evaluation of the proposed method are improved by 1.2%,0.1%,0.3%,and 2.4% on the Microsoft Research Video Description dataset,and 0.1%,1.0%,0.1%,and 2.8% on the Microsoft Research-Video to Text dataset,respectively,compared with the existing video captioning methods.As a result,the proposed method can generate video captioning that is more closely aligned with human natural language expression habits. 展开更多
关键词 video captioning encoder-decoder semantic topic jointly decoding Enhance-TopK sampling
下载PDF
Design and Implementation of the Motion Compensation Module for HDTV Video Decoder
3
作者 王涛 郑世宝 +1 位作者 邱琳 王峰 《Journal of Shanghai Jiaotong university(Science)》 EI 2006年第1期1-8,共8页
This paper presented a new solution for motion compensation module in the high definition television (HDTV) video decoder. The overall architecture and the design of the major functional units, such as the motion vect... This paper presented a new solution for motion compensation module in the high definition television (HDTV) video decoder. The overall architecture and the design of the major functional units, such as the motion vector decoder, the predictor, and the mixer, were discussed. Based on the exploitation of the special characteristics inherent in the motion compensation algorithm, the motion compensation module and its functional units adopt various novel architectures in order to allow the module to meet real-time constraints. This solution resolves the problem of high hardware costs, low bus efficiency and complex control schemes in conventional designs. 展开更多
关键词 asynchronous macroblock pipelining architecture HDTV video decoder motion compensation module MPEG-2
下载PDF
Efficient VLSI architecture of CAVLC decoder with power optimized 被引量:1
4
作者 陈光化 胡登基 +2 位作者 张金艺 郑伟峰 曾为民 《Journal of Shanghai University(English Edition)》 CAS 2009年第6期462-465,共4页
This paper presents an efficient VLSI architecture of the contest-based adaptive variable length code (CAVLC) decoder with power optimized for the H.264/advanced video coding (AVC) standard. In the proposed design... This paper presents an efficient VLSI architecture of the contest-based adaptive variable length code (CAVLC) decoder with power optimized for the H.264/advanced video coding (AVC) standard. In the proposed design, according to the regularity of the codewords, the first one detector is used to solve the low efficiency and high power dissipation problem within the traditional method of table-searching. Considering the relevance of the data used in the process of runbefore's decoding, arithmetic operation is combined with finite state machine (FSM), which achieves higher decoding efficiency. According to the CAVLC decoding flow, clock gating is employed in the module level and the register level respectively, which reduces 43% of the overall dynamic power dissipation. The proposed design can decode every syntax element in one clock cycle. When the proposed design is synthesized at the clock constraint of 100 MHz, the synthesis result shows that the design costs 11 300 gates under a 0.25 μm CMOS technology, which meets the demand of real time decoding in the H.264/AVC standard. 展开更多
关键词 H.264/advanced video coding (AVC) contest-based adaptive variable length code (CAVLC) decoder
下载PDF
The Formal Specifications for Protocols of Decoders
5
作者 YUANMeng-ting WUGuo-qing SHUFeng-di 《Wuhan University Journal of Natural Sciences》 CAS 2004年第6期879-882,共4页
This paper presents a formal approach, FSPD (Formal Specifications for Protocols of Decoders), to specify decoder communication protocols. Based on axiomatic, FSPD is a precise language with which programmers could us... This paper presents a formal approach, FSPD (Formal Specifications for Protocols of Decoders), to specify decoder communication protocols. Based on axiomatic, FSPD is a precise language with which programmers could use only one suitable driver to handle various types of decoders. FSPD is helpful for programmers to get high adaptability and reusability of decoder-driver software. Key words formalization - digital video security system - protocol of decoders CLC number TP 311 Biography: YUAN Meng-ting(1976-), Ph.D candidate, research direction: software engineering, formal method. 展开更多
关键词 FORMALIZATION digital video security system protocol of decoders
下载PDF
新一代通用视频编码标准H.266/VVC:现状与发展 被引量:1
6
作者 万帅 霍俊彦 +1 位作者 马彦卓 杨付正 《西安交通大学学报》 EI CAS CSCD 北大核心 2024年第4期1-17,共17页
相比于上一代标准,新一代通用视频编码标准(H.266/VVC)在同等质量下能够节省大约50%的码率,且适用于多种多样的视频应用场景。论文从H.266/VVC的关键技术出发,对标准的现状、实现和应用发展进行深入探讨。H.266/VVC沿用既往标准中的双... 相比于上一代标准,新一代通用视频编码标准(H.266/VVC)在同等质量下能够节省大约50%的码率,且适用于多种多样的视频应用场景。论文从H.266/VVC的关键技术出发,对标准的现状、实现和应用发展进行深入探讨。H.266/VVC沿用既往标准中的双层码流体系和混合编码框架,针对帧内预测、帧间预测、变换、量化、环路滤波等所有主要编码模块进行了技术革新,并为屏幕内容视频等应用提供了高效的专用编码工具。H.266/VVC标准目前已处于实用化阶段,官方参考软件VTM和开源编解码器VVenC/VVdeC是目前最具代表性的软件编解码实现。对H.266/VVC的性能分析可以看出:H.266/VVC针对高分辨率视频取得的编码增益更为突出;主要编码工具对性能的贡献通常以复杂度为代价,但也有部分编码工具在提升编码性能的同时可降低整体编码复杂度。H.266/VVC的硬件实现面临诸多挑战,发展明显滞后于软件实现,现有研究主要集中在对具体编码模块的硬件加速方面。H.266/VVC标准发布之后,下一代视频编码标准的发展目前仍围绕混合编码框架进行探索,聚焦在两大方向:超越VVC的增强压缩关注更为先进的、非神经网络的编码工具,基于神经网络的视频编码则探索采用神经网络的编码工具。除此之外,部分或完全跳出现有混合编码框架的端到端视频编码也在飞速发展,未来视频编码标准与神经网络结合成为趋势,但面临着计算资源依赖和稳定结构两方面的考验。 展开更多
关键词 H.266/VVC标准 视频编码标准 编码模块 编解码器 神经网络
下载PDF
基于H.265编码的多路视频编解码采集单元设计 被引量:1
7
作者 姚宇 李东星 +1 位作者 任勇峰 陈建军 《计算机与数字工程》 2024年第2期388-393,共6页
近年来,遥测数字视频广泛地应用在海军舰船上的各个场景,而传统视频监测设备存在图像资源占用过高导致的实时视频图像质量降低的问题。为了实现舰船上多个监测设备实时码流传输、码流显示和易于管理的需求,论文设计和实现了一种视频编... 近年来,遥测数字视频广泛地应用在海军舰船上的各个场景,而传统视频监测设备存在图像资源占用过高导致的实时视频图像质量降低的问题。为了实现舰船上多个监测设备实时码流传输、码流显示和易于管理的需求,论文设计和实现了一种视频编解码系统。该系统包括视频采集压缩、视频传输、视频显示和指令配置等功能模块。通过千兆以太网接入视频服务器,按照协议发送配置指令,使用FFmpeg进行硬件解码。实现了多路视频码流的传输、显示和控制。测试结果表明,所设计视频编解码系统功能实用可靠、性能良好,满足使用需求。 展开更多
关键词 视频编码 视频解码 视频通信系统 硬解码
下载PDF
面向嵌入式微处理器的高性能视频编解码算法 被引量:1
8
作者 李青燕 田军 《现代电子技术》 北大核心 2024年第10期34-38,共5页
针对高清和超高清视频,嵌入式微处理器在进行视频编解码时常常会受到资源的限制,导致输出的视频画面出现模糊的情况。为此,提出一种面向嵌入式微处理器的高性能视频编解码算法。利用最小平均绝对值误差作为匹配准则指标,预判断高性能视... 针对高清和超高清视频,嵌入式微处理器在进行视频编解码时常常会受到资源的限制,导致输出的视频画面出现模糊的情况。为此,提出一种面向嵌入式微处理器的高性能视频编解码算法。利用最小平均绝对值误差作为匹配准则指标,预判断高性能视频的失真率损耗,计算图像中最大交流系数总能量,获取高细节分块,感知运动视频;利用空时域条件下的边缘图获取视频编码的相邻像素权重,通过像素间距离获取超像素为前景区域的概率,对目标前景区域编码;采用最小化范数优化编码视频约束条件,利用拉格朗日乘子等价转换编码视频,根据训练冗余字典计算视频解码校正因子,完成最终的视频编解码。经实验证明,所提方法能有效地完成高性能视频编解码,保证视频质量,视频的编码率一直处于31.3 dB,相对稳定。 展开更多
关键词 嵌入式微处理器 视频编码 视频解码 边缘信息 交流系数 冗余字典 超像素
下载PDF
基于时间特征细化网络的时空视频超分辨率研究
9
作者 姚晓娟 穆柯 +3 位作者 潘沛 杨紫伊 赵雨飞 朱永贵 《南通大学学报(自然科学版)》 CAS 2024年第3期10-22,共13页
时空视频超分辨率(space-time video super-resolution,STVSR)通过时间和空间2个尺度提升视频的质量,从而实现在视频采集设备、传输或者存储有限的情况下依然能实时地呈现高分辨率和高帧率的视频,满足人们对超高清画质的追求。相比两阶... 时空视频超分辨率(space-time video super-resolution,STVSR)通过时间和空间2个尺度提升视频的质量,从而实现在视频采集设备、传输或者存储有限的情况下依然能实时地呈现高分辨率和高帧率的视频,满足人们对超高清画质的追求。相比两阶段方法,一阶段方法实现的是特征层面而非像素层面的帧插值,其在推理速度和计算复杂度上都明显更胜一筹。一些现有的一阶段STVSR方法采用基于像素幻觉的特征插值,这幻化了像素,因此很难应对帧间快速运动物体的预测。为此,提出一种基于光流法的金字塔编码器-解码器网络来进行时间特征插值,实现快速的双向光流估计和更真实自然的纹理合成,在使得网络结构更高效的同时弥补了大运动对光流估计带来的不稳定性。另外,空间模块采用基于滑动窗口的局部传播和基于循环网络的双向传播来强化帧对齐,整个网络称为时间特征细化网络(temporal feature refinement netowrk,TFRnet)。为了进一步挖掘TFRnet的潜力,将空间超分辨率先于时间超分辨率(space-first),在几种广泛使用的数据基准和评估指标上的实验证明了所提出方法TFRnet-sf的出色性能,在总体峰值信噪比(peak signal to noise ratio,PSNR)和结构相似性(structural similarity,SSIM)提升的同时,插入中间帧的PSNR和SSIM也得到提升,在一定程度上缓和了插入的中间帧与原有帧之间PSNR和SSIM差距过大的问题。 展开更多
关键词 时空视频超分辨率 金字塔编码器-解码器网络 时间特征插值 空-时超分策略 深度学习
下载PDF
改进的密集视频描述Transformer译码算法
10
作者 杨大伟 盘晓芳 +1 位作者 毛琳 张汝波 《计算机工程与应用》 CSCD 北大核心 2024年第17期89-97,共9页
当Transformer应用于密集视频描述时,历史文本特征会对后续文本生成产生干扰,难以捕捉视频动态信息从而影响描述的连贯性和准确性。为保持上下文一致性的同时又能缓解历史文本干扰,提出改进的密集视频描述Transformer译码算法(D-Uformer... 当Transformer应用于密集视频描述时,历史文本特征会对后续文本生成产生干扰,难以捕捉视频动态信息从而影响描述的连贯性和准确性。为保持上下文一致性的同时又能缓解历史文本干扰,提出改进的密集视频描述Transformer译码算法(D-Uformer)。该算法利用前馈神经网络(FNN)增强历史文本特征表达,通过跳跃连接构建删除冗余支路和增强补足支路,利用减法降低历史文本特征过度聚焦导致描述不准确的影响,提高模型对输入视频特征的关注度;同时,利用加法弥补特征传递过程中丢失的上下文信息,生成准确且连贯表达当前视频内容的描述语句。在ActivityNet和Charades数据集上的实验结果表明,D-Uformer算法的描述性能提升明显,与视频多样性描述网络(TDPC)相比,准确性最高提升4.816%,多样性最高提升4.167%,生成的描述不仅更贴合视频内容,且更符合人类语言习惯。 展开更多
关键词 密集视频描述 Transformer网络 译码 前馈神经网络 跳跃连接
下载PDF
基于嵌入式Soc的视频解码及FC视频发送系统
11
作者 马超 岳普 +3 位作者 冯天任 肖亮 常潇逸 刘聪 《电子设计工程》 2024年第21期32-36,共5页
针对车辆应用中多种视频格式解码的需求,为降低其对显示终端解码能力的要求,以光纤通道视频组播技术为基础,提出一种基于嵌入式Soc处理器解码和光纤通道视频发送的视频解码系统方案,对基于嵌入式Soc的视频解码模块的设计方案进行了阐述... 针对车辆应用中多种视频格式解码的需求,为降低其对显示终端解码能力的要求,以光纤通道视频组播技术为基础,提出一种基于嵌入式Soc处理器解码和光纤通道视频发送的视频解码系统方案,对基于嵌入式Soc的视频解码模块的设计方案进行了阐述,重点介绍了视频编解码模块的软件设计思路和流程,通过工程化搭建了一个视频解码模块和三台显示终端的车载应用验证环境,对上述方案进行了H.265标准视频解码和时延测试验证,测试结果显示,所提方案可实现单个视频解码模块支持多台显示终端同时查看视频解码图像,系统解码总延时约172 ms,表明该方案可降低对显示终端视频本地解码能力的要求。 展开更多
关键词 视频解码 光纤通道 H.264 H.265
下载PDF
智慧工地领域中视频监控数据编码分析
12
作者 周轩宇 《电视技术》 2024年第8期203-206,共4页
智慧工地是视频监控的一个特殊应用场景。在这个系统中,视频数据的远距离传输质量至关重要。视频数据的编码与解码,作为视频数据传输质量的关键所在,尤其需要得到关注。为此,从监控视频编码解码工作原理展开,对H.264编码解码器的结构进... 智慧工地是视频监控的一个特殊应用场景。在这个系统中,视频数据的远距离传输质量至关重要。视频数据的编码与解码,作为视频数据传输质量的关键所在,尤其需要得到关注。为此,从监控视频编码解码工作原理展开,对H.264编码解码器的结构进行深入讨论。 展开更多
关键词 视频 H.264 编码 解码
下载PDF
超高清视频编解码标准在广播电视行业的应用
13
作者 牟永文 《电视技术》 2024年第10期218-220,共3页
介绍超高清视频的概念,探讨超高清视频编解码标准,重点分析超高清视频编解码技术在广播电视行业的应用,特别是在超高清版权赛事、大型综艺活动等超高清直播场景的创新应用,推动广播电视行业朝着更高质量、更多样化的内容传输方向发展。
关键词 超高清视频 编解码 广播电视
下载PDF
深度学习理念下视频编解码技术探究
14
作者 孙斐然 《软件》 2024年第4期113-115,121,共4页
视频编解码过程中,常因量化操作的引入,导致视频出现有损压缩,在后续播放中,产生较多压缩残影,且在低比特编码中更为明显。因此,针对此问题的优化,在深度学习的理论基础上,提出了一种新型的基于光流技术的时空神经网络模型(FGTSN),旨在... 视频编解码过程中,常因量化操作的引入,导致视频出现有损压缩,在后续播放中,产生较多压缩残影,且在低比特编码中更为明显。因此,针对此问题的优化,在深度学习的理论基础上,提出了一种新型的基于光流技术的时空神经网络模型(FGTSN),旨在对编码视频进行精确的后处理。实验证明,该FGTSN方法能够显著提高HEVC压缩视频的质量,其效果远超过其他视频质量增强技术。此方法能有效解决遮挡和大范围运动场景下的问题,并提升了压缩视频帧的重建效率,证明了其在实际应用中的高价值。 展开更多
关键词 深度学习理念 视频编解码技术 FGTSN方法
下载PDF
电声信号编解码技术在网络多媒体传输中的应用
15
作者 赵庆林 《电声技术》 2024年第6期97-99,共3页
探讨电声信号编解码技术在网络多媒体传输中的应用,重点分析音频、语音、视频编解码的原理和关键技术。通过实际案例剖析,揭示了编解码技术在复杂网络环境下的优化措施,如自适应码率控制、智能分路由、错误恢复机制等,有效提升了多媒体... 探讨电声信号编解码技术在网络多媒体传输中的应用,重点分析音频、语音、视频编解码的原理和关键技术。通过实际案例剖析,揭示了编解码技术在复杂网络环境下的优化措施,如自适应码率控制、智能分路由、错误恢复机制等,有效提升了多媒体传输的质量和稳定性。 展开更多
关键词 电声信号编解码 网络多媒体传输 音视频压缩
下载PDF
基于卷积神经网络的多路视频多视角场景编解码方法
16
作者 于夫 《长江信息通信》 2024年第6期85-88,共4页
常规的多路视频多视角场景编解码,主要采用视频单帧迭代处理实现编解码过程,忽略了视频中冗余信息对编解码效果的影响,导致编解码结果的视频帧峰值信噪比较低。因此,提出基于卷积神经网络的多路视频多视角场景编解码方法。构建双任务的... 常规的多路视频多视角场景编解码,主要采用视频单帧迭代处理实现编解码过程,忽略了视频中冗余信息对编解码效果的影响,导致编解码结果的视频帧峰值信噪比较低。因此,提出基于卷积神经网络的多路视频多视角场景编解码方法。构建双任务的双残差连接块卷积神经网络,在该网络中最小化视频空间点的距离值,匹配得到视频运动估计矢量特征并补偿,降低冗余信息的影响,在此基础上定义多路视频的编码内容,并通过重构解码帧实现多视角场景的编解码过程。实验结果表明:所提方法应用后得出的视频编解码结果,表现出的视频帧峰值信噪比较高,有效改善了视频质量,满足了多路视频多视角场景的实际应用需求。 展开更多
关键词 多路视频 多视角场景 视频编解码 卷积神经网络 视频处理 编解码方法
下载PDF
编码解码理论视角下健康科普短视频创作研究 被引量:4
17
作者 高慧艳 《山东理工大学学报(社会科学版)》 2023年第3期86-92,共7页
在斯图亚特·霍尔“编码解码”理论基础上,将“健康中国”大背景下健康科普短视频创作编码与受众解码纳入创作思考中,通过对传播渠道和受众人群进行分析,提炼受众解码偏差及三种不同的解码方式:霸权式解码、协商式解码、对抗式解码... 在斯图亚特·霍尔“编码解码”理论基础上,将“健康中国”大背景下健康科普短视频创作编码与受众解码纳入创作思考中,通过对传播渠道和受众人群进行分析,提炼受众解码偏差及三种不同的解码方式:霸权式解码、协商式解码、对抗式解码,结合时下科普需求及短视频自身发展状况,为健康科普领域内容创作者提供创作思路,以期在未来有更多、更优质且能够实现传播效益最大化的健康科普短视频涌现,为健康中国添砖加瓦。 展开更多
关键词 健康科普 短视频 编码解码 受众
下载PDF
基于场景表示中对象特征语法分析的视频描述 被引量:1
18
作者 付燕 王咪咪 叶鸥 《计算机工程与设计》 北大核心 2023年第2期488-493,共6页
为解决基于编码器-解码器的视频描述方法中存在忽略特征语法分析,造成描述语句语法结构不清晰的问题,提出一种基于场景表示中对象特征语法分析的视频描述方法。编码阶段将视频的2D、C3D特征、对象特征和自注意力机制相结合,构建视觉场... 为解决基于编码器-解码器的视频描述方法中存在忽略特征语法分析,造成描述语句语法结构不清晰的问题,提出一种基于场景表示中对象特征语法分析的视频描述方法。编码阶段将视频的2D、C3D特征、对象特征和自注意力机制相结合,构建视觉场景表示模型,描述视觉特征间的依赖关系;构建视觉对象特征语法分析模型,分析对象特征在描述语句中的语法成分;解码阶段结合语法分析结果和LSTM网络模型,输出视频描述语句。所提方法在MSVD和MSR-VTT数据集进行实验,结果表明,该方法在不同评价指标方面性能较好,视频描述语句的语法结构清晰。 展开更多
关键词 视频描述 编码器-解码器模型 特征提取 自注意力机制 对象特征 视觉场景表示 语法分析
下载PDF
语言结构引导的可解释视频语义描述
19
作者 李冠彬 张锐斐 +2 位作者 刘梦梦 刘劲 林倞 《软件学报》 EI CSCD 北大核心 2023年第12期5905-5920,共16页
视频描述技术旨在为视频自动生成包含丰富内容的文字描述,近年来吸引了广泛的研究兴趣.一个准确而精细的视频描述生成方法,不仅需要对视频有全局上的理解,更离不开具体显著目标的局部空间和时序特征.如何建模一个更优的视频特征表达,一... 视频描述技术旨在为视频自动生成包含丰富内容的文字描述,近年来吸引了广泛的研究兴趣.一个准确而精细的视频描述生成方法,不仅需要对视频有全局上的理解,更离不开具体显著目标的局部空间和时序特征.如何建模一个更优的视频特征表达,一直是视频描述工作的研究重点和难点.另一方面,大多数现有工作都将句子视为一个链状结构,并将视频描述任务视为一个生成单词序列的过程,而忽略了句子的语义结构,这使得算法难以应对和优化复杂的句子描述及长句子中易引起的逻辑错误.为了解决上述问题,提出一种新颖的语言结构引导的可解释视频语义描述生成方法,通过设计一个基于注意力的结构化小管定位机制,充分考虑局部对象信息和句子语义结构.结合句子的语法分析树,所提方法能够自适应地加入具有文本内容的相应时空特征,进一步提升视频描述的生成效果.在主流的视频描述任务基准数据集MSVD和MSR-VTT上的实验结果表明,所提出方法在大多数评价指标上都达到了最先进的水平. 展开更多
关键词 视频描述 编码器-解码器架构 小管 注意力机制 依存分析
下载PDF
融合注意力与语义引导的视频描述生成方法
20
作者 田枫 卢俊 刘芳 《现代电子技术》 2023年第14期180-186,共7页
将基于深度学习的视频描述生成方法应用到海量视频检索和视频内容审核中,是为了通过视频描述方法生成语义文本,达到对视频的高效组织和管理。然而,现有的视频描述方法缺少对语义信息的探索,无法专注于视频中的特定动作的语义特征和语义... 将基于深度学习的视频描述生成方法应用到海量视频检索和视频内容审核中,是为了通过视频描述方法生成语义文本,达到对视频的高效组织和管理。然而,现有的视频描述方法缺少对语义信息的探索,无法专注于视频中的特定动作的语义特征和语义表达。为克服上述局限性,文中提出一种融合注意力与语义引导的视频描述生成方法。在解码过程中,该方法使用自适应注意门控单元进行视觉特征和语义信息的融合,通过两个专用的LSTM层引导模型生成文本,使模型生成更准确的词。为验证所提方法的有效性,使用数据集MSR-VTT和MSVD进行实验。结果表明,融合注意力与语义引导能够有效提升视频描述生成方法的性能,相较于其他模型,所提方法各项评价指标均有一定提升。 展开更多
关键词 视频描述生成方法 注意力机制 语义引导 视觉特征 编码器 解码器 LSTM层
下载PDF
上一页 1 2 27 下一页 到第
使用帮助 返回顶部