语音关键词识别系统声学模型构建综述被引量：9

Acoustic model of automatic speech recognition: a survey

下载PDF

导出

摘要语音关键词识别技术作为语音识别的重要分支在20世纪90年代逐渐被重视起来,时至今日,语音关键词识别技术已经被应用到车内语音命令识别、机器人交互及特殊语音筛选等众多领域。本文给出了语音关键词识别技术的整体模型及性能评价指标,综述了语音关键词识别系统声学模型构建技术的现状,详细总结了语音关键词识别系统声学模型构建技术,并重点总结了深度学习在声学模型构建上的应用。最后对语音关键词识别技术的发展前景进行了讨论,认为深度学习隐马尔科夫混合模型作为连续语音识别中最成熟的模型构建技术将在关键词识别中有更多应用,循环神经网络有可能凭借其序列训练能力成为更有效的模型构建技术,而大计算量、云平台及便携可穿戴将会成为语音关键词识别技术发展的主流方向。 As an important branch of speech recognition,acoustics keywords spotting（ AKS） technology had been paid attention to in the 1990 s,which,nowadays,has been applied to many fields such as in-car audio command recognition,robot interaction and special speechs spotting. The overall model and the evaluating index sign of AKS was given in this paper,as well as the acoustic model of ASK,concentrating on application of deep neural network（ DNN） in acoustic model. In the end,the prospects of AKS technology were discussed which believed that DNN-HMM will have more applications in AKS as the mature model,recurrent neural networks（ RNN） may become a more efficient model relied on its sequence training ability,and the large computation,cloud platform,portable,wearable devices will be the mainstream of ASK technology.

作者赵晓群张扬

机构地区同济大学电子与信息工程学院

出处《燕山大学学报》 CAS 北大核心 2017年第6期471-481,共11页 Journal of Yanshan University

基金国家自然科学基金资助项目(61271248)

关键词语音关键词识别动态时间规整隐马尔科夫深度神经网络循环神经网络 acoustics keywords spotting dynamic time warping hidden Markov model deep neural network support vector machine recurrent neural networks

分类号 TP391.4 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1熊正辉,张振兴.汉语方言的分区[J].方言,2008,30(2):97-108. 被引量：42
2魏振华,江雪峰.一种基于SVM的加权似然比融合算法[J].控制与决策,2011,26(5):777-780. 被引量：3

二级参考文献8

1Hui Jiang, Frank K Soong, Chin-Hui Lee. A data selection strategy for utterance verification in continuous speech recognition[C]. Euro Speech. Scandinavia, 2001: 2573- 2576.
2Rafid A Sukkart, Anand R Setlurt, Mazin G Rahim. Utterance verification of keyword string using word based minimum verification error(WB-MVE) training[C]. ICASSP. Atlanta, 1996: 518-521.
3Jiang Hui, Lee C H. A new approach to utterance verification based on neighborhood information in model space[J]. Speech and Audio Processing, 2003, 11(5): 425- 434.
4Eduardo Lleida, Richard C Rose. Utterance verification in continuous speech recognition: Decoding and training procedures[J]. Speech and Audio Processing, 2000, 8(2): 126-139.
5Valentin Ion, Reinhold Haeb-Umbach. A novel uncertainty decoding rule with applications to transmission error robust speech recognition[J]. Audio, Speech, and Language Processing, 2008, 16(5): 1047-1060.
6Zhang Shilei, Jiang Danning. Utterance verification using improved confidence measures based on alignment confusion rate in Chinese digits recognition[C]. Acoustics, Speech and Signal Processing. Taipei, 2009: 1309-1312.
7Man-Hung Siu, Brian Mak. Minimization of utterance verification error rate as a constrained optimization problem[J]. Signal Processing Letters, 2006, 13(12): 760- 763.
8Ingunn Amdal, Magne Hallstein Johnsen. Log likelihood ratio based annotation verification of a norwegian speech synthesis database[C]. Signal Processing Symposium. Rejkjavik, 2006: 186-189.

共引文献43

1郑雅鲯,雷丁一,徐若敖,汪高武.山东方言对英语元音学习的影响及可视化教学设计[J].中国语音学报,2021(2):110-119.
2汪启明.汉语方言分区的八个基本问题[J].中国语言学研究,2024(1):184-213.
3冉启斌,丁俊,原新梅,赵建军.语言距离与地理距离的复杂性——以辽宁境内的胶辽官话与东北官话为例[J].南开语言学刊,2022(1):133-144. 被引量：1
4路伟.滇南方言的一个新韵母[J].玉溪师范学院学报,2010,26(9):20-24. 被引量：1
5王睿,赵方,彭金华,罗海勇,陆波,陆涛.基于WI-FI和蓝牙融合的室内定位算法[J].计算机研究与发展,2011,48(S2):28-33. 被引量：31
6雒鹏,马宏.甘肃方言“父亲”称谓考[J].西北成人教育学院学报,2010(4):24-26. 被引量：10
7许芃.中古全浊上声字在现代方言中的变化[J].社会科学家,2008,23(12):152-155. 被引量：1
8袁长会.中原官话研究现状综述[J].陇东学院学报,2009,20(4):6-10. 被引量：4
9路伟.滇南方言的“咯是”:从疑问焦点标记到话轮转换标记[J].红河学院学报,2009,7(6):92-95. 被引量：1
10成海.汉语方言失落之人类学分析[J].文学界（理论版）,2010(11):89-90.

同被引文献49

1林波,吕明.基于DTW改进算法的孤立词识别系统的仿真与分析[J].信息技术,2006,30(4):56-59. 被引量：12
2龚晓庆,柯素娟,李辉,华庆一.基于HMM的嵌入式语音交互在AmI中的应用[J].计算机工程,2009,35(2):200-202. 被引量：4
3刘张宇,鲍长春,邱建伟,徐昊.3GPP AMR-NB与ITU-T G.729A语音编码标准技术的对比研究[J].电声技术,2009,33(4):56-61. 被引量：2
4李晔,彭坦,许明,计哲,崔慧娟,唐昆.带有帧间级间预测的线谱频率参数多级矢量量化[J].清华大学学报（自然科学版）,2009(7):981-983. 被引量：9
5韩笑蕾,赵晓群,方腾龙,贾晓光.线谱频率及差分线谱频率参数相关性分析[J].计算机应用,2011,31(2):548-552. 被引量：2
6魏旋,计哲,崔慧娟,唐昆.基于隐马尔可夫模型的能量参数预测量化算法[J].数据采集与处理,2011,26(2):123-127. 被引量：2
7刘贺平,张兰玲,孙一康.用连续回归神经网络求解泛函极值问题[J].电子科学学刊,2000,22(5):729-734. 被引量：1
8余远波,陈明锐,李晓玲.移动学习的计算机基础教学过程管理模式[J].海南大学学报（自然科学版）,2013,31(2):186-188. 被引量：2
9王平,陆继翔,余隋怀,陆长德.云终端语音交互中改进型谱减法语音增强算法[J].计算机集成制造系统,2013,19(7):1721-1725. 被引量：5
10黎亚雄,张坚强,潘登,胡惮.基于RNN-RBM语言模型的语音识别研究[J].计算机研究与发展,2014,51(9):1936-1944. 被引量：27

引证文献9

1高成吉.一种英语口语识别算法[J].信息技术,2018,42(8):148-151. 被引量：3
2黄蕊,赵晓群.2.4 kbps MELP标准编码的量化性能优化[J].燕山大学学报,2019,43(1):34-40.
3刘卫,王紫翎,鲁李铭,郑德华,余远波.基于Android的海南话辅助学习系统设计与实现[J].电脑知识与技术,2019,15(5Z):45-47.
4宋均,段华斌,谭明.基于Android的女书学习系统的设计与实现[J].电脑编程技巧与维护,2020(11):59-62. 被引量：2
5黄小奇,范晟,陈光文,许卓伟,彭锴,方志丹,王烁.基于Viterbi解码技术的智能语音交互算法研究[J].电子设计工程,2021,29(10):37-41. 被引量：5
6陈柏言,王磊,朱漫华,祖健.基于深度学习的装备作战试验音频数据处理方法研究[J].兵器装备工程学报,2021,42(S01):62-66.
7张硕,曾庆宁,郑展恒,卜玉婷.多通道PNCC与残差网络命令词识别系统[J].现代电子技术,2022,45(21):37-42.
8祁潇潇,曾庆宁,赵学军.基于双微麦克风阵列与WideResNet网络的语音命令词识别[J].计算机应用与软件,2024,41(5):126-130.
9张松林.基于全双工机器人的一种改进的上下文敏感区块的BPTT算法设计[J].计算机产品与流通,2018,7(4):114-115.

二级引证文献10

1党莎莎,龚小涛.基于改进GLR算法的智能识别英语翻译模型设计[J].计算机测量与控制,2020,28(4):161-164. 被引量：9
2张慧,许大炜.基于神经网络的英语语义智能分析方法研究[J].电子设计工程,2020,28(21):29-32.
3吴丹,梁琪瑛,王民意.基于卷积神经网络的英语口语打分[J].信息技术,2020,44(11):34-38. 被引量：5
4包文夏,吴梓恩,朱宝怡.基于Axure平台的校园跑腿APP原型设计[J].办公自动化,2022,27(8):15-18. 被引量：1
5徐秋平,任玲,樊玺炫,王义华.语音识别技术在轨道交通AFC系统中的应用研究[J].现代城市轨道交通,2022(4):31-35. 被引量：1
6邓永清,段华斌.江永女书数字化保护与传承策略研究[J].科技传播,2022,14(10):122-125. 被引量：1
7明宏柯,伍春,赵梓懿.基于无线传输的风洞试验模型测控系统设计[J].仪表技术与传感器,2023(1):82-86.
8李培畅.大数据智能算法的交互式教学策略探讨[J].自动化应用,2023,64(4):191-194.
9金豪圣.基于VMD的智能机器人语音信号特征参数提取方法[J].电子设计工程,2023,31(22):130-133.
10张晋宁.基于神经网络的视觉语音识别系统[J].电声技术,2023,47(11):101-104.

1许丽颖,喻丰,邬家骅,韩婷婷,赵靓.拟人化:从“它”到“他”[J].心理科学进展,2017,25(11):1942-1954. 被引量：54
2胡良华.随风潜入夜,润物细无声浅谈小学低年级学生朗读能力的培养与训练[J].课程教育研究（学法教法研究）,2017,0(20):111-112. 被引量：1
3李博涵,刘汇丹,龙从军,吴健.基于深度学习的藏文分词方法[J].计算机工程与设计,2018,39(1):194-198. 被引量：16
4李小林,许春冬,杜燕.非特定人语音识别关键技术研究[J].物联网技术,2017,7(10):99-101.
5林克伟,谷世超,梁峰,廖亚军.基于视觉的可重构模块化机器人模型构建技术[J].机械工程与自动化,2017(5):16-18. 被引量：2
6朱晶晶,韩立新.基于RNN句子编码器的聊天机器人[J].计算机与现代化,2018(1):32-35. 被引量：10
7吴寿川,赵海涛,孙韶媛.基于双向递归卷积神经网络的单目红外视频深度估计[J].光学学报,2017,37(12):246-254. 被引量：11
8侯雨雷,魏晓晨,周治宇,曾达幸.球面并联机构功耗比评价指标及性能分析[J].中国机械工程,2018,29(1):89-94. 被引量：4
9康尧.微课在专业教学中的应用[J].神州,2018,0(2):105-105.
10刘真,蔡毅君,孙强.非人灵长类基因修饰模型研究进展[J].生物工程学报,2017,33(10):1665-1673. 被引量：1

燕山大学学报

2017年第6期

浏览历史

内容加载中请稍等...

语音关键词识别系统声学模型构建综述被引量：9

参考文献2

二级参考文献8

共引文献43

同被引文献49

引证文献9

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

语音关键词识别系统声学模型构建综述 被引量：9

参考文献2

二级参考文献8

共引文献43

同被引文献49

引证文献9

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

语音关键词识别系统声学模型构建综述被引量：9