基于在线语音流的字幕自动生成系统算法研究与实现被引量：1

Exploration and Achievement of an Algorithm for Subtitles Automatically Generated System Based on Live Speech

下载PDF

导出

摘要针对语音文稿已知的情况,提出了一种简单方法实现了适用于在线语音流的字幕自动生成系统。主要思路是根据文稿分句的情况确定在线语音的句子边界,进而,将相应的句子显示到屏幕上。假设在线语音的句子起点已知,本文建立了具有帧同步的统计假设似然比模型检测在线语音的句子尾点,在HMM框架下对该模型进行求解。实验表明,如果以检测到的句子尾点与真正的句子尾点的时间差作为指标,对于干净语音,99.5%左右的时间差在一秒以内,达到了实际要求。最后,本文利用所提出的针对在线语音流的字幕自动生成算法,实现了一个适用于在线新闻广播加字幕场景的演示系统。 This paper proposes an algorithm for system of subtitles automatically generated in case of spoken utterances via lives input with known and accurate transcripts. The main idea is to determine the border of sentence of speech based on the clause of the sen- tences and put the sentence corresponding to the current speech on the screen. We make a frame - synchronous likelihood ratio test model to solve the problem of detection of the end point of sentence and explore the implementation of the FS - LRT within HMM frame- work. Finally, we measure the algorithm objectively in terms of time differences between the end points detected and the ground true end points. Experiment indicates that 99.5% detections are within the range of ls for the clean speech,which is practical. Finally, a demo system of adding subtitles for live broadcast is achieved, based on the algorithm of adding subtitles automatically for live speech.

作者司玉景潘接林颜永红高杰

机构地区中国科学院声学研究所语言声学与内容理解重点实验室腾讯公司语音计算组

出处《网络新媒体技术》 2013年第4期52-54,共3页 Network New Media Technology

基金国家自然科学基金(No.10925419 90920302 10874203 60875014 61072124 11074275)经费资助

关键词字幕自动生成系统 HMM 帧同步的统计假设似然比模型 The system of subtitles automatically generated, HMM, a frame - synchronous likelihood ratio test model

分类号 TN912.3 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献5

1吕春霞.大段语音和文本自动对齐的方法研究及其在电视字幕处理中的应用[D]北京:北京大学,2003.
2Ando,A,IMai,T,Kobayashi,Isono,H.Nakabayashi,K. Real-time transcription system for simultaneous subtitling of Japanese broadcast news programs Broadcasting[J].IEEE Transactions,2000,(03):189-196.
3H.Ney,S Ortmanns. Dynamic programming search for continuous speech recognition[J].IEEE Signal Processing Magazine,1999,(05):64-83.doi:10.1109/79.790984.
4Steve Young. Large Vocabulary Continuous Speech Recognition:a Review[M].1996.
5J.Gao. Online detecting end times of spoken utterances for synchronization of live speech and its transcripts[M].2009.

同被引文献12

1冯洋,邵晨泽.神经机器翻译前沿综述[J].中文信息学报,2020(7):1-18. 被引量：36
2陈诚.机器翻译技术的综述[J].电子技术（上海）,2021,50(11):290-291. 被引量：3
3韦向峰,张全,熊亮.一种基于语义分析的汉语语音识别纠错方法[J].计算机科学,2006,33(10):152-155. 被引量：2
4朱宏宣.语音识别字幕制作系统构想[J].影视制作,2013(2):71-73. 被引量：2
5徐涛.语音识别在电视字幕编辑中的应用[J].有线电视技术,2017,24(8):106-107. 被引量：1
6侯强,侯瑞丽.机器翻译方法研究与发展综述[J].计算机工程与应用,2019,55(10):30-35. 被引量：26
7董海雅.语际实时字幕翻译研究:现状与展望[J].东方翻译,2019,0(6):25-31. 被引量：5
8马晗,唐柔冰,张义,张巧灵.语音识别研究综述[J].计算机系统应用,2022,31(1):1-10. 被引量：31
9黄荣丽,王大鹏.科普短视频的现状与发展趋势刍议[J].科普创作评论,2022,2(1):12-18. 被引量：9
10颜清波,任鹏.视频全字幕的制作与提取实践探究[J].海峡科技与产业,2022,35(4):76-78. 被引量：1

引证文献1

1周城光,周军,韦向峰,周文佳,王荣泉.科普视频双语字幕生成系统的设计与实现[J].网络新媒体技术,2023,12(2):62-68. 被引量：1

二级引证文献1

1沈华彤.基于人工智能的新闻视频自动化生成系统设计与实现[J].电视技术,2024,48(9):73-75.

1吴蓝.社会化网络时代新闻广播的突围节点:以微博为例[J].新闻传播,2015(2):19-20. 被引量：1
2郑南宁,刘健勤.基于区域特征的自适应图像分割方法[J].电子学报,1995,23(7):98-101. 被引量：8
3张震新.基于SMIL的流媒体播放器的设计与实现[J].福建电脑,2007,23(9):134-134. 被引量：2
4陈芝芬,张冬梅,姚振忠.SVM在成矿预测中的研究[J].计算机工程与应用,2009,45(30):234-236. 被引量：2
5徐仁佐,张健,徐静雯,何平.软件可靠性专家系统(SRES)的开发与使用[J].计算机应用研究,1998,15(3):16-21. 被引量：1
6阿里甫.库尔班,吾买尔江.库尔班,尼加提.阿不都肉苏力.维吾尔语框架语义网及框架语义信息管理系统的设计[J].新疆大学学报（自然科学版）,2012,29(3):333-338.
7齐艳红.多变量情报信息的统计假设检验网络软件研究[J].情报杂志,2006,25(1):96-97. 被引量：3
8周德全,郭耀红.用HMM框架下的神经网络分类器识别雷达目标[J].红外与毫米波学报,2001,20(2):107-110. 被引量：1
9李毅.多媒体信息趋势化的城市新闻广播竞争力研究[J].无线互联科技,2013,10(6):203-203. 被引量：1
10王伟玮,周渊平.针对LSB的RS隐写分析研究及改进[J].微型机与应用,2014,33(22):37-39.

网络新媒体技术

2013年第4期

浏览历史

内容加载中请稍等...

基于在线语音流的字幕自动生成系统算法研究与实现被引量：1

参考文献5

同被引文献12

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于在线语音流的字幕自动生成系统算法研究与实现 被引量：1

参考文献5

同被引文献12

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于在线语音流的字幕自动生成系统算法研究与实现被引量：1