-
题名基于词覆盖率的语音数据集最小化方法
- 1
-
-
作者
朱治军
付磊
-
机构
武汉市公安局青山区分局(钢城分局)
深圳华为云计算技术有限公司
-
出处
《软件导刊》
2024年第5期33-37,共5页
-
文摘
为解决高性能自动语音识别模型训练集采集成本高和训练成本高的问题,提出一种基于词覆盖率的语音训练集最小化方法,尽可能减少训练集所需的数据规模。该方法引入向量空间模型的概念,将所有语料文本映射到高维空间,通过计算向量之间的余弦距离来筛选相似度最低的文本数据。然后,根据选择的文本数据收集音频,实现使用尽可能少的音频数据达到最佳的识别效果。最后,使用汉明重叠方式计算新增词汇量以评估贡献度,从而优化余弦距离的筛选方式。实验表明,所提方法相较于随机的语音训练集筛选方法,在节省21.31%训练数据量的情况下可达到相同词覆盖率,并且训练集的词覆盖率与训练集所得模型的推理性能存在极强的正相关性,证明了在保持推理性能接近的前提下,可有效节省语音训练集的采集和训练成本,进而促进自动语音识别技术的进一步发展。
-
关键词
自动语音识别
向量空间模型
余弦距离
汉明重量
训练集最小化
-
Keywords
automatic speech recognition
vector space model
cosine distance
Hamming weight
training set minimization
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-