-
题名语音文本对齐技术构建蒙古语语音识别语料库研究
- 1
-
-
作者
甄兆博
张晖
-
机构
蒙古文智能信息处理技术国家地方联合工程研究中心
内蒙古自治区蒙古文信息处理技术重点实验室
内蒙古大学计算机学院
-
出处
《中央民族大学学报(自然科学版)》
2024年第1期12-19,共8页
-
文摘
目前,适用于蒙古语的语音识别数据在规模上与英语、汉语的训练数据存在着巨大的差距。因此需要一种低成本的数据集构建方法,以补全数据来源上的短板。在生活交往中已生成了海量的蒙古语数据资源,其中很多都是语音文本粗略对照的形式,本研究采用从这样的语料中提炼可供训练用的语料的技术路线,选择电视剧配音剧本和对应成片作为样例,将提炼工作看作是一个语音文本对齐问题。通过一系列自动化处理将剧本和对应的音频转换为适用于语音文本对齐处理的数据形式,利用迭代的对齐方法得到了语音文本对齐结果,利用这些结果生成了适用于蒙古语语音识别的逐句对齐的“语音—文本对”数据。通过对生成的数据进行抽样检查发现,生成的数据有较好的质量,与人工标注基本一致,节省了数据生产的成本。
-
关键词
语音识别
蒙古语
生语料
语音文本对齐
-
Keywords
speech recognition
Mongolian
raw corpus
speech-text alignment
-
分类号
TN391
[电子电信—物理电子学]
-
-
题名不完全匹配的语音和文本语句级对齐
被引量:1
- 2
-
-
作者
徐锴
陶冶
李辉
-
机构
青岛科技大学信息科学技术学院
-
出处
《计算机系统应用》
2023年第4期300-307,共8页
-
基金
国家重点研发计划(2018YFB1702902)
山东省高等学校青创科技支持计划(2019KJN047)。
-
文摘
语音文本自动对齐技术广泛应用于语音识别与合成、内容制作等领域,其主要目的是将语音和相应的参考文本在语句、单词、音素等级别的单元进行对齐,并获得语音与参考文本之间的时间对位信息.最新的先进对齐方法大多基于语音识别,一方面,准确率受限于语音识别效果,识别字错误率高时文语对齐精度明显下降,识别字错误率对对齐精度影响较大;另一方面,这种对齐方法不能有效处理不完全匹配的长篇幅语音和文本的对齐.该文提出一种基于锚点和韵律信息的文语对齐方法,通过基于边界锚点加权的片段标注将语料划分为对齐段和未对齐段,针对未对齐段使用双门限端点检测方法提取韵律信息,并检测语句边界,降低了基于语音识别的对齐方法对语音识别效果的依赖程度.实验结果表明,与目前先进的基于语音识别的文语对齐方法比较,即使在识别字错误率为0.52时,该文所提方法的对齐准确率仍能提升45%以上;在音频文本不匹配程度为0.5时,该文所提方法能提高3%.
-
关键词
语音文本对齐
韵律信息
锚点
自动语音识别
端点检测
-
Keywords
text-speech alignment
prosodic information
anchor
automatic speech recognition(ASR)
endpoint detection
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名蒙古语长音频语音文本自动对齐的研究
被引量:5
- 3
-
-
作者
牛米佳
飞龙
高光来
-
机构
内蒙古大学计算机学院
-
出处
《中文信息学报》
CSCD
北大核心
2020年第1期51-57,共7页
-
基金
国家自然科学基金(61563040,61773224)
内蒙古自然科学基金(2018MS06006,2016ZD06)。
-
文摘
目前,面向蒙古语的语音识别语音库资源相对稀缺,但存在较多的电视剧、广播等蒙古语音频和对应的文本。该文提出基于语音识别的蒙古语长音频语音文本自动对齐方法,实现蒙古语电视剧语音的自动标注,扩充了蒙古语语音库。在前端处理阶段,使用基于高斯混合模型的语音端点检测技术筛选并删除噪音段;在语音识别阶段,构建基于前向型序列记忆网络的蒙古语声学模型;最后基于向量空间模型,将语音识别得到的假设序列和参考音素序列进行句子级别的动态时间归整算法匹配。实验结果表明,与基于Needleman-Wunsch算法的语音对齐比较,该文提出的蒙古语长音频语音文本自动对齐方法的对齐正确率提升了31.09%。
-
关键词
蒙古语
语音端点检测
语音文本对齐
动态时间归整算法
-
Keywords
Mongolian language
voice activity detection
speech-text alignment
dynamic time warping algorithm
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-