期刊文献⁺

任意字段

题名或关键词

题名

关键词

文摘

作者

第一作者

机构

刊名

分类号

参考文献

作者简介

基金资助

栏目信息

基于影视作品的俄汉语音语料库构建方法

Constructing a Russian-Chinese Speech Translation Corpus Based on Film and Television Works

下载PDF

导出

摘要随着神经网络的迅速发展,语音翻译研究开始了端到端方向的尝试。而训练一个性能良好的语音翻译模型往往需要一定规模和质量的语音语料库,在俄汉语音翻译领域也是如此。由于语音翻译研究起步较晚,经常面临着缺乏可公开获取的高质量的语音语料库问题,因此自主构建语音语料库以满足神经网络的训练需求显得十分重要。本文在综合衡量了构建语音语料库成本和质量的基础上,通过在公开可获取的字幕网站中人工挑选了70小时的俄汉影视作品,经过制定规范、加工处理和人工评价三个环节,最终成功构建了小规模的俄汉语音语料库,证明了此种方法的可行性,为端到端语音翻译研究提供了数据基础。 With the rapid development of neural network,the research of speech translation has begun an end-to-end attempt.Training a good speech translation model often requires a certain size and quality of speech translation corpus,and is also true in the field of Russian Chinese speech translation.Due to the late start of speech translation research,it is often faced with the problem of lack of publicly available high-quality speech translation corpus.Therefore,it is very important to independently construct speech translation corpus to meet the training needs of neural network.Based on the comprehensive measurement of the cost and quality of constructing the speech translation corpus,this paper manually selects 70 hours of Russian and Chinese film and television works from the publicly available subtitle website,and finally successfully constructs a small-scale Russian and Chinese speech translation corpus through three links:Formulation of norms,processing and manual evaluation,which proves the feasibility of this method,it provides a data base for the research of end-to-end speech translation.

作者幸梦阳马延周杨政 XING Mengyang;MA Yanzhou;YANG Zheng(Strategic Support Force Information Engineering University Luoyang Campus,Luoyang Henan 471003)

机构地区战略支援部队信息工程大学洛阳校区

出处《软件》 2022年第5期85-87,共3页 Software

关键词语料库语音翻译影视作品 corpus speech translation film and television works

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1冯鸾鸾,李军辉,李培峰,朱巧明.面向国防科技领域的技术和术语语料库构建方法[J].中文信息学报,2020,34(8):41-50. 被引量：21

二级参考文献7

1冯蕴天,张宏军,郝文宁.面向军事文本的命名实体识别[J].计算机科学,2015,42(7):15-18. 被引量：50
2杨锦锋,关毅,何彬,曲春燕,于秋滨,刘雅欣,赵永杰.中文电子病历命名实体和实体关系语料库构建[J].软件学报,2016,27(11):2725-2746. 被引量：106
3单赫源,张海粟,吴照林.小粒度策略下基于CRFs的军事命名实体识别方法[J].装甲兵工程学院学报,2017,31(1):84-89. 被引量：16
4周惠巍,杨欢,徐俊利,张静,亢世勇.中文模糊限制信息范围语料库的研究与构建[J].中文信息学报,2017,31(3):77-85. 被引量：4
5奚雪峰,褚晓敏,孙庆英,周国栋.汉语篇章微观话题结构建模与语料库构建[J].计算机研究与发展,2017,54(8):1833-1852. 被引量：9
6游正洋,王亚强,舒红平.基于词性标注的中医症候名语料库[J].电子技术与软件工程,2017(21):177-178. 被引量：3
7王学锋,杨若鹏,朱巍.基于深度学习的军事命名实体识别方法[J].装甲兵工程学院学报,2018,32(4):94-98. 被引量：24

共引文献20

1张驰庚,金智鹏.正则表达式finditer提取文本数据方法研究[J].信息技术与信息化,2021(5):151-153. 被引量：2
2张驰庚,金智鹏.长三角区域IT岗位知识需求及其与薪酬间关系研究[J].现代信息科技,2021,5(4):136-139. 被引量：2
3屈倩倩,阚红星.基于Bert-BiLSTM-CRF的中医文本命名实体识别[J].电子设计工程,2021,29(19):40-43. 被引量：23
4张驰庚,金智鹏.基于Python的AHP方法及应用——以长三角企业IT知识需求分析为例[J].信息技术与信息化,2021(9):72-74.
5魏明飞,潘冀,陈志敏,梅小华,石会鹏.预训练模型下航天情报实体识别方法[J].华侨大学学报（自然科学版）,2021,42(6):831-837.
6张芙蓉.面向航空领域的技术与术语语料库构建[J].长沙航空职业技术学院学报,2021,21(4):33-37. 被引量：2
7刘俊,董洪飞,张文斌,曾俊瑀,贺薇.装备文本语料数据标注规范化研究[J].航空标准化与质量,2021(6):38-44. 被引量：3
8徐亦丹,徐亦璐.基于改进深度学习模型的语音库量化标注仿真[J].计算机仿真,2022,39(1):456-459.
9胡雅敏,吴晓燕,陈方.基于机器学习的技术术语识别研究综述[J].数据分析与知识发现,2022,6(2):7-17. 被引量：14
10杜晓明,袁清波,杨帆,姚奕,蒋祥.军事指控保障领域命名实体识别语料库的构建[J].计算机科学,2022,49(S01):133-139. 被引量：3

1尹世琳.企业会计的财务管理及内部控制分析[J].中国中小企业,2022(5):112-114. 被引量：3
2支忠菊.汽车新产品试制过程质量控制对策探讨[J].汽车周刊,2022(8):67-68.
3陈柳媚,杨柳,黄少珠,陈劲光.品管圈活动在提高机械通气患儿气道管理合格率中的应用[J].基层医学论坛,2022,26(17):76-78. 被引量：2
4郭丛斌,方晨晨,何菲.博士研究生教育对经济增长的影响--基于博士学位授权点区域差异的视角[J].教育研究,2022,43(5):124-138. 被引量：18
5杨慧芳,黄少旭.基于真实情境的酵母菌无氧呼吸教学设计[J].中学生物教学,2022(8):58-61.
6刘稳.音乐学科深度学习的特征与教学策略探析[J].中国音乐教育,2022(6):52-58. 被引量：2
7周钊和.我国高校康复专业人才培养现状与思考[J].湖南中医杂志,2022,38(4):101-104. 被引量：9
8张娜,陆松鹤,顾志冬,张玉维,罗晓勇,石秀兵,石霄涵,唐晓雅,蒋玮.方舱医院医疗物资精细化管理的探索与实践[J].医学争鸣,2022,13(S01):118-120.
9付琳,彭哲.多视角利用军营文化开展园本课程建设[J].中国教育学刊,2022(5):105-105.
10陈进发.猪人工授精技术推广社会化服务的实践与思考[J].国外畜牧学（猪与禽）,2022,42(3):74-76.

软件

2022年第5期

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...

;

使用帮助返回顶部