蒙汉语音翻译数据集

A dataset of Mongolian-Chinese speech translation

下载PDF

导出

摘要目前,由于缺乏公开数据集,面向少数民族语言的语音翻译的研究较少。为此,本文构建并公开了蒙语语音到汉语文本语音翻译数据集(NMLR-Mon2Chs ST)。本数据集包含36位年龄在20-25岁之间的蒙古人通过手机录制的蒙语语音,以及由专业人员标注的蒙语和汉语的文本。为保证数据质量,对数据进行了预处理,如去除空语音文件、重采样、归一化后,最终得到25小时的高质量数据,数据集中音频的平均时长为4.2秒。本数据集的建立为探索面向少数民族语言的语音翻译技术提供了一定的数据基础。 Due to the lack of public datasets,few researches focus on speech translation in minority languages.Therefore,in this paper we constructed a dataset of Mongolian-Chinese speech translation,named“NMLR-Mon2Chs ST”.The dataset consists of Mongolian speech,Mongolian and Chinese texts.First,the Mongolian speech were recorded from 36 Mongols aged between 20 and 25 by recording the audio on their mobile phones.Then,the corresponding Chinese texts were annotated by professionals.In order to ensure the quality of the dataset,we preprocessed the data in it,such as removing the quiet speech,resampling,and normalization.As a result,a total of 25 hours of high-quality data are obtained,and the average duration of audio in the dataset is 4.2 seconds.This dataset is expected to provide certain data support for the research on the speech translation from minority languages to other languages.

作者戚肖克特尼格尔孙媛赵小兵 QI Xiaoke;BORJIGIN BTeniger;SUN Yuan;ZHAO Xiaobing(China University of Political Science and Law,Beijing 102249,P.R.China;National Language Resource Monitoring&Research Center of Minority Languages,Beijing 100081,P.R.China;School of Chinese Ethnic Minority Languages and Literatures,Minzu University of China,Beijing 100081,P.R.China)

机构地区中国政法大学国家语言资源监测与研究少数民族语言中心中央民族大学中国少数民族语言文学学院

出处《中国科学数据（中英文网络版）》 CSCD 2022年第2期84-90,共7页 China Scientific Data

基金国家语委重点项目(ZDI135-118)

关键词语音翻译蒙汉少数民族语言低资源数据集 speech translation Mongolian-Chinese minority languages low resource dataset

分类号 H212 [语言文字—少数民族语言] TN912.3 [电子电信—通信与信息系统]

引文网络
相关文献

1张玲,安伊凡,樊勇,于潇.内蒙古自治区19-22岁蒙汉城乡大学生运动能力比较研究[J].冰雪体育创新研究,2021(17):188-189.
2刘志强,马志强,张晓旭,宝财吉拉呼,谢秀兰,朱方圆.IMUT-MC:一个针对蒙古语语音识别的语音语料库[J].中国科学数据（中英文网络版）,2022,7(2):71-83. 被引量：2
3阿拉坦格日乐.论蒙古人植物崇拜及其生态意识[J].内蒙古民族大学学报（哲学社会科学蒙古文版）,2022(2):10-19.
4赵小兵,高璐,高定国,包乌格徳勒,米尔阿迪力江·麦麦提,刘洋,才智杰,孙媛.少数民族语言分词技术评测数据集MLWS2021[J].中国科学数据（中英文网络版）,2022,7(2):2-10. 被引量：1
5孙媛,旦正错,刘思思,赵小兵.面向机器阅读理解的藏文数据集TibetanQA[J].中国科学数据（中英文网络版）,2022,7(2):30-38.
6张明,翟俊海,许垒,高光远.长尾识别研究进展[J].南京师范大学学报（工程技术版）,2022,22(2):63-72. 被引量：1
7特古斯巴亚尔.蒙古人避讳白色马匹名称的习俗--试论“兀纳昆白马”演变为“溜圆白骏”的缘由[J].中国蒙古学（蒙文）,2022,50(3):95-102.
8李宁,朱丽平,赵小兵,木尼热·艾尔肯.机器翻译辅助的中蒙、维汉语音翻译数据集子集[J].中国科学数据（中英文网络版）,2022,7(2):11-19.
9罗桑曲珍.信息技术在小学藏语文课堂教学中的应用[J].世纪之星—小学版,2021(27):114-115.
10赵旭,苏依拉,仁庆道尔吉,石宝.非自回归翻译模型在蒙汉翻译上的应用[J].计算机工程与应用,2022,58(12):310-316. 被引量：2

中国科学数据（中英文网络版）

2022年第2期

浏览历史

内容加载中请稍等...

蒙汉语音翻译数据集

相关作者

相关机构

相关主题

浏览历史