期刊文献+
共找到9篇文章
< 1 >
每页显示 20 50 100
跨语言知识蒸馏的视频中文字幕生成 被引量:4
1
作者 侯静怡 齐雅昀 +1 位作者 吴心筱 贾云得 《计算机学报》 EI CAS CSCD 北大核心 2021年第9期1907-1921,共15页
视频字幕生成(video captioning)在视频推荐、辅助视觉、人机交互等领域具有广泛的应用前景.目前已有大量的视频英文字幕生成方法和数据,通过机器翻译视频英文字幕可以实现视频中文字幕的生成.然而,中西方文化差异和机器翻译算法性能都... 视频字幕生成(video captioning)在视频推荐、辅助视觉、人机交互等领域具有广泛的应用前景.目前已有大量的视频英文字幕生成方法和数据,通过机器翻译视频英文字幕可以实现视频中文字幕的生成.然而,中西方文化差异和机器翻译算法性能都会影响中文字幕生成的质量.为此,本文提出了一种跨语言知识蒸馏的视频中文字幕生成方法.该方法不仅可以根据视频内容直接生成中文语句,还充分利用了易于获取的视频英文字幕作为特权信息(privileged information)指导视频中文字幕的生成.由于同一视频的英文字幕与中文字幕之间存在语义关联关系,本文方法从中学习到与视频内容相关的跨语言知识,并利用知识蒸馏将英文字幕包含的高层语义信息融入中文字幕生成.同时,通过端到端的训练方式确保模型训练目标与视频中文字幕生成任务目标的一致性,有效提升中文字幕生成性能.此外,本文还对视频英文字幕数据集MSVD扩展,给出了中英文视频字幕数据集MSVD-CN. 展开更多
关键词 中文字幕生成 视频理解 知识蒸馏 视频中英字幕数据集 特权信息
下载PDF
全自动中文新闻字幕生成系统的设计与实现
2
作者 郑李磊 谢磊 +3 位作者 芦咪咪 王晓暄 杨玉莲 张艳宁 《电子学报》 EI CAS CSCD 北大核心 2011年第A03期69-74,共6页
本文设计与实现了一个全自动中文新闻字幕生成系统,输入为新闻视频,输出为视频对应的字幕文本.以《新闻联播》为语料,实现了音频提取、音频分类与切分、说话人识别、大词汇量连续语音识别、视频文件的播放和文本字幕的自动生成等多项功... 本文设计与实现了一个全自动中文新闻字幕生成系统,输入为新闻视频,输出为视频对应的字幕文本.以《新闻联播》为语料,实现了音频提取、音频分类与切分、说话人识别、大词汇量连续语音识别、视频文件的播放和文本字幕的自动生成等多项功能.新闻字幕的自动生成,避免了繁重费时的人工字幕添加过程.实验表明,该系统识别率高,能够满足听障等特殊人群和特殊场合的电视新闻收视需求. 展开更多
关键词 语音识别 广播新闻抄本 音频分类 说话人识别 字幕生成
下载PDF
基于LSTM的语音字幕转换技术
3
作者 刘俊丽 《电声技术》 2024年第6期47-49,共3页
针对实时语音识别中存在的问题,提出基于长短期记忆(Long Short-Term Memory,LSTM)的语音字幕转换技术。首先介绍网络直播实时字幕生成的总体框架,其次详细阐述LSTM在语音字幕转换中的应用,最后选用Librispeech数据集进行实验。实验结... 针对实时语音识别中存在的问题,提出基于长短期记忆(Long Short-Term Memory,LSTM)的语音字幕转换技术。首先介绍网络直播实时字幕生成的总体框架,其次详细阐述LSTM在语音字幕转换中的应用,最后选用Librispeech数据集进行实验。实验结果表明,基于LSTM的语音字幕转换技术在处理多样化的音频数据时具有较高的适应性。 展开更多
关键词 语音识别 字幕生成 长短期记忆(LSTM) 网络直播
下载PDF
融合约束学习的图像字幕生成方法 被引量:5
4
作者 杜海骏 刘学亮 《中国图象图形学报》 CSCD 北大核心 2020年第2期333-342,共10页
目的图像字幕生成是一个涉及计算机视觉和自然语言处理的热门研究领域,其目的是生成可以准确表达图片内容的句子。在已经提出的方法中,生成的句子存在描述不准确、缺乏连贯性的问题。为此,提出一种基于编码器—解码器框架和生成式对抗... 目的图像字幕生成是一个涉及计算机视觉和自然语言处理的热门研究领域,其目的是生成可以准确表达图片内容的句子。在已经提出的方法中,生成的句子存在描述不准确、缺乏连贯性的问题。为此,提出一种基于编码器—解码器框架和生成式对抗网络的融合训练新方法。通过对生成字幕整体和局部分别进行优化,提高生成句子的准确性和连贯性。方法使用卷积神经网络作为编码器提取图像特征,并将得到的特征和图像对应的真实描述共同作为解码器的输入。使用长短时记忆网络作为解码器进行图像字幕生成。在字幕生成的每个时刻,分别使用真实描述和前一时刻生成的字幕作为下一时刻的输入,同时生成两组字幕。计算使用真实描述生成的字幕和真实描述本身之间的相似性,以及使用前一时刻的输出生成的字幕通过判别器得到的分数。将二者组合成一个新的融合优化函数指导生成器的训练。结果在CUB-200数据集上,与未使用约束器的方法相比,本文方法在BLEU-4、BLEU-3、BLEI-2、BLEU-1、ROUGE-L和METEOR等6个评价指标上的得分分别提升了0.8%、1.2%、1.6%、0.9%、1.8%和1.0%。在Oxford-102数据集上,与未使用约束器的方法相比,本文方法在CIDEr、BLEU-4、BLEU-3、BLEU-2、BLEU-1、ROUGE-L和METEOR等7个评价指标上的得分分别提升了3.8%、1.5%、1.7%、1.4%、1.5%、0.5%和0.1%。在MSCOCO数据集上,本文方法在BLEU-2和BLEU-3两项评价指标上取得了最优值,分别为50.4%和36.8%。结论本文方法将图像字幕中单词前后的使用关系纳入考虑范围,并使用约束器对字幕局部信息进行优化,有效解决了之前方法生成的字幕准确度和连贯度不高的问题,可以很好地用于图像理解和图像字幕生成。 展开更多
关键词 图像字幕生成 约束学习 强化学习 生成式对抗网络 融合训练
原文传递
基于在线语音流的字幕自动生成系统算法研究与实现 被引量:1
5
作者 司玉景 潘接林 +1 位作者 颜永红 高杰 《网络新媒体技术》 2013年第4期52-54,共3页
针对语音文稿已知的情况,提出了一种简单方法实现了适用于在线语音流的字幕自动生成系统。主要思路是根据文稿分句的情况确定在线语音的句子边界,进而,将相应的句子显示到屏幕上。假设在线语音的句子起点已知,本文建立了具有帧同步的统... 针对语音文稿已知的情况,提出了一种简单方法实现了适用于在线语音流的字幕自动生成系统。主要思路是根据文稿分句的情况确定在线语音的句子边界,进而,将相应的句子显示到屏幕上。假设在线语音的句子起点已知,本文建立了具有帧同步的统计假设似然比模型检测在线语音的句子尾点,在HMM框架下对该模型进行求解。实验表明,如果以检测到的句子尾点与真正的句子尾点的时间差作为指标,对于干净语音,99.5%左右的时间差在一秒以内,达到了实际要求。最后,本文利用所提出的针对在线语音流的字幕自动生成算法,实现了一个适用于在线新闻广播加字幕场景的演示系统。 展开更多
关键词 字幕自动生成系统 HMM 帧同步的统计假设似然比模型
下载PDF
基于深度卷积与全局特征的图像密集字幕描述 被引量:1
6
作者 武文博 顾广华 +2 位作者 刘青茹 赵志明 李刚 《信号处理》 CSCD 北大核心 2020年第9期1525-1532,共8页
为了解决图像密集字幕描述中感兴趣区域(Regions of interest,ROI)定位不准确与区域粗粒度描述问题,本文提出了一种基于深度卷积与全局特征的图像密集字幕描述算法,该算法采用残差网络与并行LSTM(Long Short Term Memory)网络的联合模... 为了解决图像密集字幕描述中感兴趣区域(Regions of interest,ROI)定位不准确与区域粗粒度描述问题,本文提出了一种基于深度卷积与全局特征的图像密集字幕描述算法,该算法采用残差网络与并行LSTM(Long Short Term Memory)网络的联合模型对存在的区域重叠定位和粗粒度描述细节信息不完整问题进一步改进。首先利用深度残差网络与Faster R-CNN(Faster R-Convolutional Neural Network)的RPN(Regional Proposal Network)层获取更精准区域边界框,以便避免区域标记重叠;然后将全局特征、局部特征和上下文特征信息分别输入并行LSTM网络且采用融合算子将三种不同输出整合以获得最终描述语句。通过在公开数据集上与两种主流算法对比表明本文模型具有一定优越性。 展开更多
关键词 密集字幕生成 并行长短时记忆网络 Faster R-CNN 感兴趣区域 特征融合
下载PDF
人工智能技术在媒体领域应用研究 被引量:1
7
作者 杨磊 《现代电视技术》 2018年第5期96-101,136,共7页
本文通过人工智能技术在国家和国际层面的战略布局和发展切入,对人工智能的技术原理进行了概要介绍,分析了语音识别、图像识别、神经网络、深度学习等概念的原理,同时集合融合发展电视媒体行业的特点,提出人工智能技术在媒体行业内使用... 本文通过人工智能技术在国家和国际层面的战略布局和发展切入,对人工智能的技术原理进行了概要介绍,分析了语音识别、图像识别、神经网络、深度学习等概念的原理,同时集合融合发展电视媒体行业的特点,提出人工智能技术在媒体行业内使用的典型场景。 展开更多
关键词 人工智能 智能话筒 字幕生成 智能内容审查 冗余内容筛查 节目自动编辑
下载PDF
DivX制作傻瓜攻略
8
作者 小鱼儿 《软件》 2003年第2期29-34,共6页
本人第一次制作,片名是Legally Blonde律政俏佳人,用时两天完成DivX。现根据我的制作过程以及最新的软件版本制作了此攻略。旨在总结自己制作过程,让大家共享一下制作的方法。
关键词 DIVX 制作方法 文件复制 视音频分离 FVTC处理 字幕生成
下载PDF
“三维视觉—语言”推理技术的前沿研究与最新趋势
9
作者 雷印杰 徐凯 +5 位作者 郭裕兰 杨鑫 武玉伟 胡玮 杨佳琪 汪汉云 《中国图象图形学报》 CSCD 北大核心 2024年第6期1747-1764,共18页
三维视觉推理的核心思想是对点云场景中的视觉主体间的关系进行理解。非专业用户难以向计算机传达自己的意图,从而限制了该技术的普及与推广。为此,研究人员以自然语言作为语义背景和查询条件反映用户意图,进而与点云的信息进行交互以... 三维视觉推理的核心思想是对点云场景中的视觉主体间的关系进行理解。非专业用户难以向计算机传达自己的意图,从而限制了该技术的普及与推广。为此,研究人员以自然语言作为语义背景和查询条件反映用户意图,进而与点云的信息进行交互以完成相应的任务。此种范式称做“三维视觉—语言”推理,在自动驾驶、机器人导航以及人机交互等众多领域广泛应用,已经成为计算机视觉领域中备受瞩目的研究方向。过去几年间,“三维视觉—语言”推理技术迅猛发展,呈现出百花齐放的趋势,但是目前依然缺乏对最新研究进展的全面总结。本文聚焦于两类最具代表性的研究工作,锚框预测和内容生成类的“三维视觉—语言”推理技术,系统性概括领域内研究的最新进展。首先,本文总结了“三维视觉—语言”推理的问题定义和现存挑战,同时概述了一些常见的骨干网络。其次,本文按照方法所关注的下游场景,对两类“三维视觉—语言”推理技术做了进一步细分,并深入探讨了各方法的优缺点。接下来,本文对比分析了各类方法在不同基准数据集上的性能。最后,本文展望了“三维视觉—语言”推理技术的未来发展前景,以期促进该领域的深入研究与广泛应用。 展开更多
关键词 深度学习 计算机视觉 “三维视觉—语言”推理 跨模态学习 视觉定位 密集字幕生成 视觉问答 场景生成
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部