期刊文献+
共找到34篇文章
< 1 2 >
每页显示 20 50 100
RTTVTS:实时端到端视频文本追踪
1
作者 彭亮 方思南 郑鉨彬 《阜阳师范大学学报(自然科学版)》 2024年第3期14-20,共7页
视频文本追踪任务主要分为检测和追踪,目前相关模型未能充分捕捉连续视频帧间的语义联系,同时忽视了视频文本追踪的实时性需求。针对上述问题,本文提出一种实时端到端视频文本追踪模型(RTTVTS),该模型通过跨越连续多帧的预测学习来实现... 视频文本追踪任务主要分为检测和追踪,目前相关模型未能充分捕捉连续视频帧间的语义联系,同时忽视了视频文本追踪的实时性需求。针对上述问题,本文提出一种实时端到端视频文本追踪模型(RTTVTS),该模型通过跨越连续多帧的预测学习来实现端到端的视频文本追踪,以解决视频文本信息中动态检测和持续跟踪的问题。首先,由堆叠特征金字塔增强模块组成的计算高效的特征增强网络。其次,利用与像素聚合协作的轻量级检测头捕捉并学习连续视频帧之间的检测信息。最后,在推理阶段结合卡尔曼滤波,将每个检测框进行关联。实验结果表明,本文提出的RTTVTS模型提升了视频文本追踪的有效性和实时性能。 展开更多
关键词 视频文本 检测 文本追踪 端到端
下载PDF
基于深度学习的视频文本检测识别算法研究进展
2
作者 俞金瑶 王志伟 《数据通信》 2024年第1期42-46,53,共6页
随着通信技术的发展,视频传输越来越普及,而视频中的文本则是描述视频内容的有用信息,对于构建基于高级语义的数据通信系统具有重要作用。视频文本提取技术可以广泛应用于智能监控系统、多媒体信息检索等领域。本文首先介绍了视频文本... 随着通信技术的发展,视频传输越来越普及,而视频中的文本则是描述视频内容的有用信息,对于构建基于高级语义的数据通信系统具有重要作用。视频文本提取技术可以广泛应用于智能监控系统、多媒体信息检索等领域。本文首先介绍了视频文本检测识别任务中经常使用的基准数据集和评估指标;接着列举说明了流行的视频文本检测识别算法;最后,比较了这些体系结构在多个指标上的性能,对所述算法进行了总结,并对未来前景进行了展望。 展开更多
关键词 视频文本检测 深度学习 卷积神经网络
下载PDF
基于CLIP生成多事件表示的视频文本检索方法
3
作者 涂荣成 毛先领 +4 位作者 孔伟杰 蔡成飞 赵文哲 王红法 黄河燕 《计算机研究与发展》 EI CSCD 北大核心 2023年第9期2169-2179,共11页
视频-文本检索作为一项被广泛应用于现实生活中的多模态检索技术受到越来越多的研究者的关注.近来,大部分视频文本工作通过利用大规模预训练模型中所学到的视觉与语言之间的匹配关系来提升文本视频间跨模态检索效果.然而,这些方法忽略... 视频-文本检索作为一项被广泛应用于现实生活中的多模态检索技术受到越来越多的研究者的关注.近来,大部分视频文本工作通过利用大规模预训练模型中所学到的视觉与语言之间的匹配关系来提升文本视频间跨模态检索效果.然而,这些方法忽略了视频、文本数据都是由一个个事件组合而成.倘若能捕捉视频事件与文本事件之间的细粒度相似性关系,将能帮助模型计算出更准确的文本与视频之间的语义相似性关系,进而提升文本视频间跨模态检索效果.因此,提出了一种基于CLIP生成多事件表示的视频文本检索方法(CLIP based multi-event representation generation for video-text retrieval,CLIPMERG).首先,通过利用大规模图文预训练模型CLIP的视频编码器(ViT)以及文本编码器(Tansformer)分别将视频、文本数据转换成视频帧token序列以及文本的单词token序列;然后,通过视频事件生成器(文本事件生成器)将视频帧token序列(单词token序列)转换成k个视频事件表示(k个文本事件表示);最后,通过挖掘视频事件表示与文本事件表示之间的细粒度关系以定义视频、文本间的语义相似性关系.在3个常用的公开视频文本检索数据集MSR-VTT,DiDeMo,LSMDC上的实验结果表明所提的CLIPMERG优于现有的视频文本检索方法. 展开更多
关键词 预训练模型 视频文本检索 事件表示 CLIP模型 Transformer模型
下载PDF
视频文本的自动提取方法 被引量:5
4
作者 郭丽 孙兴华 +1 位作者 黄元元 杨静宇 《小型微型计算机系统》 CSCD 北大核心 2004年第6期1086-1088,共3页
提出一种基于彩色边缘检测和游程平滑的视频文本提取方法 ,首先用彩色边缘检测算子检测出图像中的边缘 ,然后用多次水平和垂直的游程平滑操作使得文字边缘形成连通区域 ,并去掉部分孤立的噪声 ,再通过对连通域的分析和分解定位出文本区... 提出一种基于彩色边缘检测和游程平滑的视频文本提取方法 ,首先用彩色边缘检测算子检测出图像中的边缘 ,然后用多次水平和垂直的游程平滑操作使得文字边缘形成连通区域 ,并去掉部分孤立的噪声 ,再通过对连通域的分析和分解定位出文本区域的边界 ,最后对文本区进行确认 .实验表明 ,本文的视频文本自动提取方法具有较高的文本提取率和较准确的边界定位 . 展开更多
关键词 彩色边缘检测 游程平滑 视频文本提取 图像文本 场景文本
下载PDF
基于梯度与粗糙度的视频文本检测与定位 被引量:9
5
作者 袁海东 马华东 黄晓冬 《电子学报》 EI CAS CSCD 北大核心 2008年第8期1660-1664,F0003,共6页
本文提出一种视频文本检测和定位的新方法.利用差分图像像素行(列)的粗糙度特征和自适应阈值,实现对文本的快速检测.为进一步实现对文本的精确检测与定位,引入彩色梯度的方向信息,仅计算视频画面中少量关键特征点的梯度幅值,能够有效抑... 本文提出一种视频文本检测和定位的新方法.利用差分图像像素行(列)的粗糙度特征和自适应阈值,实现对文本的快速检测.为进一步实现对文本的精确检测与定位,引入彩色梯度的方向信息,仅计算视频画面中少量关键特征点的梯度幅值,能够有效抑制图像复杂背景的干扰,同时显著提高了算法的效率.本方法对不同的视频画面质量、不同复杂程度的背景以及不同外观的文本是鲁棒的.通过对各类视频节目的大量实验验证了本文方法的有效性. 展开更多
关键词 视频文本检测 定位 彩色图像梯度 粗糙度
下载PDF
基于词组学习的视频文本检测方法 被引量:4
6
作者 朱成军 蒲菊华 +1 位作者 薛玲 熊璋 《计算机工程》 CAS CSCD 北大核心 2008年第13期185-187,共3页
提出一种以词组作为模式识别对象的中英文视频文本检测算法,其根据视频中文本的笔画结构特点和聚集特性构造一个18维的特征向量,利用支持向量机将视频帧分为文本和非文本区域,通过多分辨率模型检测不同尺寸的文本,采用扩张-收缩的后处... 提出一种以词组作为模式识别对象的中英文视频文本检测算法,其根据视频中文本的笔画结构特点和聚集特性构造一个18维的特征向量,利用支持向量机将视频帧分为文本和非文本区域,通过多分辨率模型检测不同尺寸的文本,采用扩张-收缩的后处理过程校准文本区域位置。实验结果表明,该算法的检测准确率达93.17%,误检率仅为0.73%。 展开更多
关键词 视频内容分析 视频文本检测 支持向量机
下载PDF
基于CLIP的多模态视频文本检索系统
7
作者 叶柯 陈相余 麻福旦 《计算机应用文摘》 2023年第15期28-30,共3页
计算机视觉(Computer Vision,CV)与自然语言处理(Natural Language Processing,NLP)技术已逐渐趋于成熟,结合视觉和语言的多模态领域技术将成为学界和业界的研究热点。文章使用CLIP预训练模型,结合图像与语言两种模态信息,进一步将图像... 计算机视觉(Computer Vision,CV)与自然语言处理(Natural Language Processing,NLP)技术已逐渐趋于成熟,结合视觉和语言的多模态领域技术将成为学界和业界的研究热点。文章使用CLIP预训练模型,结合图像与语言两种模态信息,进一步将图像拓展至视频,利用FFmpeg处理视频,并对视频与文本信息进行嵌入(embedding)和余弦相似度匹配,从而实现利用纯文本检索视频中符合该文本语义的片段。 展开更多
关键词 多模态 CLIP FFmpeg处理 文本检索视频
下载PDF
基于Web视频文本轨道技术的英语学习平台开发与应用研究——非正式学习的视角 被引量:8
8
作者 余德军 邹军华 《中国电化教育》 CSSCI 北大核心 2016年第3期82-86,106,共6页
随着我国互联网的迅猛发展,越来越多的英语学习者利用互联网进行非正式学习,以便提高自身的英语水平。该文分析了目前网络上英语学习平台存在的主要问题,通过整合Web VTT、PHP和MYSQL等相关技术,设计并实现了一个非正式学习环境下的英... 随着我国互联网的迅猛发展,越来越多的英语学习者利用互联网进行非正式学习,以便提高自身的英语水平。该文分析了目前网络上英语学习平台存在的主要问题,通过整合Web VTT、PHP和MYSQL等相关技术,设计并实现了一个非正式学习环境下的英语学习平台。该平台能够提供视频管理、字幕管理、英语单词和语法搜索等功能,平台运行不需要任何插件,只需要支持Video标记的浏览器。最后,作者以《狮子王》电影片段为视频载体设计了一个应用实例。 展开更多
关键词 非正式学习 英语学习 Web视频文本轨道 在线学习
下载PDF
快速和准确的单色视频文本提取方法 被引量:1
9
作者 沈任道 黎绍发 江焯林 《计算机工程》 CAS CSCD 北大核心 2009年第9期214-216,219,共4页
针对大多数视频文本边缘丰富且颜色单一、水平排列的特点,通过基于deriche边缘的方法迅速确定视频图像中可能包含文本的区域,使用基于颜色的方法从中提取精确的二值文本图像。实验结果表明,该文本提取方法适用于背景复杂的视频图像,且... 针对大多数视频文本边缘丰富且颜色单一、水平排列的特点,通过基于deriche边缘的方法迅速确定视频图像中可能包含文本的区域,使用基于颜色的方法从中提取精确的二值文本图像。实验结果表明,该文本提取方法适用于背景复杂的视频图像,且与单纯基于颜色的算法相比,在速度和提取效果方面更具优越性。 展开更多
关键词 文本提取 文本定位 视频文本 deriche边缘
下载PDF
短视频文本国际传播的修辞学认同分析——以李子柒短视频文本为例 被引量:6
10
作者 陈建萍 《新闻爱好者》 CSSCI 北大核心 2020年第10期36-39,共4页
短视频是国际传播的优质媒介,但当前我国主流媒体短视频国际传播存在优质文本稀缺、认同匮乏的局面。通过运用肯尼斯·伯克的认同理论分析李子柒的短视频文本,研究其修辞认同塑造的路径,为当前我国短视频文本国际传播提供规律性认知。
关键词 视频文本 国际传播 修辞学认同分析
下载PDF
新媒体环境下网络新闻中视频文本的构建
11
作者 胡中全 《西部广播电视》 2017年第19期16-17,共2页
在新媒体的环境下,视频新闻越来越凸显其优势,其点击率和评论量也占据着明显的优势。虽然网络视频新闻有其独特的优势,但在与传统媒体视频新闻的抗衡之中,网络新闻的视频文本的明显不足。本文就围绕网络新闻中视频文本的主要缺陷探讨其... 在新媒体的环境下,视频新闻越来越凸显其优势,其点击率和评论量也占据着明显的优势。虽然网络视频新闻有其独特的优势,但在与传统媒体视频新闻的抗衡之中,网络新闻的视频文本的明显不足。本文就围绕网络新闻中视频文本的主要缺陷探讨其构建的基本思路。 展开更多
关键词 新媒体 网络新闻 视频文本
下载PDF
后现代文化视域下网络创意配音视频文本研究——以“淮秀帮”作品为例
12
作者 纪政雪子 《新闻世界》 2016年第6期59-63,共5页
"淮秀帮"是网络创意配音视频团队中的佼佼者。本文在后现代文化视域下以"淮秀帮"作品为研究对象,由点到面观照目前我国网络创意配音视频文本的特征,即创意:声画幽默表达;符号:与现实的互动;拼贴:打破事物疆界;置换... "淮秀帮"是网络创意配音视频团队中的佼佼者。本文在后现代文化视域下以"淮秀帮"作品为研究对象,由点到面观照目前我国网络创意配音视频文本的特征,即创意:声画幽默表达;符号:与现实的互动;拼贴:打破事物疆界;置换:颠覆原始意义等特点。 展开更多
关键词 淮秀帮 后现代文化 视频文本
下载PDF
李子柒短视频文本的语用策略分析
13
作者 陈建萍 滕开跃 《新闻研究导刊》 2021年第18期98-99,共2页
李子柒作为讲好中国故事的代表之一,其正确的语用策略选择是成功的基础。分析其语用策略的成功之处,有助于我们丰富对外传播的策略和方法。本文认为李子柒短视频文本的语用目标既具有普适性和可操作性,又具有哲学深度和审美追求,具有核... 李子柒作为讲好中国故事的代表之一,其正确的语用策略选择是成功的基础。分析其语用策略的成功之处,有助于我们丰富对外传播的策略和方法。本文认为李子柒短视频文本的语用目标既具有普适性和可操作性,又具有哲学深度和审美追求,具有核心竞争力上的比较优势。同时,她的语用目标达成方式富于深思的哲学韵味和空灵的美感,既有抚慰焦虑的叙事特征,又具备较高的传播接受度。 展开更多
关键词 李子柒 视频文本 语用策略分析
下载PDF
视频形式在英语教学中的创新应用——视频文本解码与其教学意义分析
14
作者 贾晓彤 《国外英语考试教学与研究》 2022年第2期61-68,共8页
现今视频时代来临,从电影预告片,探索频道教育专栏提供的视频资源到抖音快手等短视频播放平台,2分钟以内的短视频内容却可以包含生活方方面面。视频在英语教学中的使用目前还基本停留在引入和娱乐环节。但是视频的内容和形式却可以把书... 现今视频时代来临,从电影预告片,探索频道教育专栏提供的视频资源到抖音快手等短视频播放平台,2分钟以内的短视频内容却可以包含生活方方面面。视频在英语教学中的使用目前还基本停留在引入和娱乐环节。但是视频的内容和形式却可以把书本上的语言灵活生动的呈现到屏幕上。本文以电影《至爱梵高》预告片为例,对视频的六个主要方面,即时间,画面,印刷文字,声音,信息传递方式和评论进行解码和分析,结合新东方雅思(A1-B1 Level)语言授课现状为教师授课提供可行方案。 展开更多
关键词 雅思 视频文本 解码 教学意义
下载PDF
基于Laplace变换的视频文本检测
15
作者 朱志坚 《广播与电视技术》 2015年第5期71-74,共4页
本文提出了一种基于Laplace变换的视频图像水平文本检测算法。首先用Laplace变换对图像滤波,并根据梯度信息用K-均值方法对像素点聚类,得到候选文本区;然后用投影算法对候选文本区进行边缘精确,得到候选文本块;最后分析候选文本块的几... 本文提出了一种基于Laplace变换的视频图像水平文本检测算法。首先用Laplace变换对图像滤波,并根据梯度信息用K-均值方法对像素点聚类,得到候选文本区;然后用投影算法对候选文本区进行边缘精确,得到候选文本块;最后分析候选文本块的几何特性,进行文本验证。本文算法在公共数据库上的测试结果表明了算法的可行性和有效性。 展开更多
关键词 视频文本检测 LAPLACE变换 边缘精确 文本验证
下载PDF
基于多分辨率的广告视频文本定位
16
作者 钮燕 《科技信息》 2011年第29期I0305-I0307,共3页
广告视频中的文本定位是视频广告探测系统的一部分,为了能够更加精确地定位出广告的边界位置,可以在视频广告探测系统中引入文本信息作为一种判断的依据。文章对原有的基于边缘特征多次投影分析的文本定位方法进行改进,提出了一种基于... 广告视频中的文本定位是视频广告探测系统的一部分,为了能够更加精确地定位出广告的边界位置,可以在视频广告探测系统中引入文本信息作为一种判断的依据。文章对原有的基于边缘特征多次投影分析的文本定位方法进行改进,提出了一种基于多分辨率的广告视频文本定位算法,实验表明该算法对于广告文本的定位效果较好,并为广告边界位置的定位提供了辅助信息。 展开更多
关键词 视频文本定位 多分辨率 视频广告
下载PDF
文本到视频生成:研究现状、进展和挑战
17
作者 邓梓焌 何相腾 彭宇新 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第5期1632-1644,共13页
文本到视频生成旨在根据用户给定的文本描述生成语义一致、内容真实、时序连贯且符合逻辑的视频。该文首先介绍了文本到视频生成领域的研究现状,详细介绍了3类主流的文本到视频生成方法:基于循环网络与生成对抗网络(GAN)的生成方法,基于... 文本到视频生成旨在根据用户给定的文本描述生成语义一致、内容真实、时序连贯且符合逻辑的视频。该文首先介绍了文本到视频生成领域的研究现状,详细介绍了3类主流的文本到视频生成方法:基于循环网络与生成对抗网络(GAN)的生成方法,基于Transformer的生成方法和基于扩散模型的生成方法。这3类生成方法在视频生成任务上各有优劣:基于循环网络与生成对抗网络的生成方法能生成较高分辨率和时长的视频,但难以生成复杂的开放域视频;基于Transformer的生成方法有能力生成复杂的开放域视频,但受限于Transformer模型单向偏置、累计误差等问题,难以生成高保真视频;扩散模型具有很好的泛化性,但受制于推理速度和高昂的内存消耗,难以生成高清的长视频。然后,该文介绍了文本到视频生成领域的评测基准和指标,并分析比较了现有主流方法的性能。最后,展望了未来可能的研究方向。 展开更多
关键词 文本视频生成 扩散模型 生成对抗网络
下载PDF
基于视频和文本的机器人技能指令生成方法研究 被引量:1
18
作者 黄可思 陈俊洪 +2 位作者 林大润 王思涵 刘文印 《计算机应用与软件》 北大核心 2023年第8期161-166,173,共7页
由于视觉单模态转译技能方法容易出现错误,针对该问题,设计一种结合视觉和文本的多模态视频转译技能方法。该方法包含两个模块,第一个模块通过使用I3D网络、Mask R-CNN模型和XGBoost分类器识别视频中的动作和物体,并组合生成视觉机器人... 由于视觉单模态转译技能方法容易出现错误,针对该问题,设计一种结合视觉和文本的多模态视频转译技能方法。该方法包含两个模块,第一个模块通过使用I3D网络、Mask R-CNN模型和XGBoost分类器识别视频中的动作和物体,并组合生成视觉机器人指令。第二个模块使用BERT-GRU模型从文本语料库中进行机器指令的学习,再将模块一的机器人指令输入到BERT-GRU模型上进行测试,最终生成修正过的机器人指令给机器人执行。通过在MPII Cooking 2数据集上进行实验,证明了框架性能相比于只有视频单模态情况具有较大的提升。 展开更多
关键词 视频文本知识 机器人指令 I3D MASK R-CNN
下载PDF
基于过渡像素的视频图像文本检测与定位 被引量:3
19
作者 杨高波 吴潇 +1 位作者 张兆扬 朱宁波 《湖南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2011年第6期69-74,共6页
提出一种基于过渡像素的视频流人工文本检测与定位算法.该算法在水平和垂直方向上提取过渡像素点,生成过渡图.通过块滤波器抑制背景的过渡像素,采用基于密度的快速区域生长算法形成候选文本区域;再利用改进的局部二进制模型(LBP)验证候... 提出一种基于过渡像素的视频流人工文本检测与定位算法.该算法在水平和垂直方向上提取过渡像素点,生成过渡图.通过块滤波器抑制背景的过渡像素,采用基于密度的快速区域生长算法形成候选文本区域;再利用改进的局部二进制模型(LBP)验证候选文本区.仿真实验结果表明,本文的改进算法相对于Kim算法,字符定位的准确率更高. 展开更多
关键词 文本处理 视频 视频文本检测 过渡图 区域生长 局部二进制模型
下载PDF
基于多模态融合与多层注意力的视频内容文本表述研究 被引量:9
20
作者 赵宏 郭岚 +1 位作者 陈志文 郑厚泽 《计算机工程》 CAS CSCD 北大核心 2022年第10期45-54,共10页
针对现有视频内容文本表述模型存在生成的文本表述单一、准确率不高等问题,提出一种融合帧级图像及音频信息的视频内容文本表述模型。基于自注意力机制设计单模态嵌入层网络结构,并将其嵌入单模态特征中学习单模态特征参数。采用联合表... 针对现有视频内容文本表述模型存在生成的文本表述单一、准确率不高等问题,提出一种融合帧级图像及音频信息的视频内容文本表述模型。基于自注意力机制设计单模态嵌入层网络结构,并将其嵌入单模态特征中学习单模态特征参数。采用联合表示、协作表示两种方法对单模态嵌入层输出的高维特征向量进行双模态特征融合,使模型能关注视频中不同目标间的交互关系,从而生成更加丰富、准确的视频文本表述。使用大规模数据集对模型进行预训练,并提取视频帧、视频所携带的音频等表征信息,将其送入编解码器实现视频内容的文本表述。在MSR-VTT和LSMDC数据集上的实验结果表明,所提模型的BLEU4、METEOR、ROUGEL和CIDEr指标分别为0.386、0.250、0.609和0.463,相较于MSR-VTT挑战赛中IIT DeIhi发布的模型,分别提升了0.082、0.037、0.115和0.257,能有效提升视频内容文本表述的准确率。 展开更多
关键词 视频内容文本描述 多模态融合 联合表示 协作表示 自注意力机制
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部