基于语音识别的多模态人机交互系统关键技术研究被引量：3

Research on key technologies of multimodal human-computer interaction system based on speech recognition

导出

摘要为了降低多模态人机交互系统在语音识别中的误差,研究提出了一种基于一维向量卷积神经网络(1-Dimensional Convolution Neural Network,1DCNN)的英语语音识别技术,并提出语音去噪方法,以此构建多模态人机交互系统。在1DCNN算法的性能分析中显示,研究采用的1DCNN算法损失值较小,且在训练中的误差值在0.005以内。此外在多模态人机交互系统的测试中显示,系统能够有效处理噪声信号,并且在不同情绪语音鉴别中的准确率较高,同时针对混合英语语音的鉴别准确率也在90%以上。以上结果表明,采用1DCNN算法能够有效提升多模态人机交互系统的语音识别和处理能力,为多模态人机交互的普及提供了设计方向,并为交互技术的未来发展提供理论支持。 In order to reduce the error of multimodal human-computer interaction system in speech recognition,an English speech recognition technology based on 1DCNN is proposed,and a speech denoising method is proposed to build multimodal human-computer interaction system.The performance analysis of 1DCNN algorithm shows that the loss value of 1DCNN algorithm used in the study is small,and the error value in training is within 0.005.In addition,the test of multimodal human-computer interaction system shows that the system can effectively process noise signals,and has a high accuracy rate in speech recognition of different emotions.At the same time,the accuracy rate for mixed English speech recognition is also above 90%.The above results show that the 1DCNN algorithm can effectively improve the speech recognition and processing ability of multimodal human-computer interaction system,and provide a design direction for the popularization of multimodal human-computer interaction,without providing theoretical support for the future development of interaction technology.

作者姚鑫 YAO Xin(Xianyang Vocational&Technical College,Xianyang Shaanxi 712000,China)

机构地区咸阳职业技术学院

出处《自动化与仪器仪表》 2023年第11期222-225,共4页 Automation & Instrumentation

基金教育部科技发展中心2022年虚拟仿真技术在职业教育教学中的创新应用专项课题《基于虚拟仿真技术的学前教育专业群实践教学体系研究》(ZJXF2022273) 陕西省教育科学“十四五”规划2023年度课题《教育数字化背景下职业院校新形态教材开发的研究与实践——以学前教育专业为例》(SGH23Y3110) 陕西省社科联职业教育理论与实践课题《“双高计划”视域下学前教育专业群新形态教材建设探索与实践》(2023HZ1426)。

关键词多模态人机交互 1DCNN 语音识别英语 multimodal human-computer interaction 1DCNN:speech recognition:English

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献14

1牛红伟,郝佳,曹贝宁,龙辉,张非凡,王国新.面向产品概念设计的多模态智能交互框架及实现[J].计算机集成制造系统,2022,28(8):2508-2521. 被引量：6
2邓智方,袁家政,刘宏哲,原春锋,张宏源.基于浅三维稠密网的多模态手势识别算法[J].计算机工程与应用,2019,55(19):166-172. 被引量：3
3梁仁凤,余正涛,高盛祥,黄于欣,郭军军,许树理.基于拼音约束联合学习的汉语语音识别[J].中文信息学报,2022,36(10):167-172. 被引量：2
4唐海桃,薛嘉宾,韩纪庆.一种多尺度前向注意力模型的语音识别方法[J].电子学报,2020,48(7):1255-1260. 被引量：19
5尹秋明,沈天飞,龚雪.基于改进的SVSLMS算法的语音识别系统研究[J].电子测量技术,2020,43(1):63-68. 被引量：4
6赵小芬,张开生.基于三层结构优化卷积神经网络的语音识别[J].石河子大学学报（自然科学版）,2022,40(1):127-132. 被引量：5
7杨帆,李祎男,乔涵,王连祺.基于深度卷积神经网络的语音信号去噪关键技术研究[J].计算机与数字工程,2022,50(2):344-349. 被引量：4
8冯晓静,白静,薛珮芸,戎如意.基于双模态融合特征的模糊语音识别研究[J].电子设计工程,2022,30(2):43-48. 被引量：3
9乔栋,陈章进,邓良,屠程力.基于改进语音处理的卷积神经网络中文语音情感识别方法[J].计算机工程,2022,48(2):281-290. 被引量：14
10胡黎,黄洪全,梁超,宋悦阳,陈延明.基于双通路CNN的端到端语音识别研究[J].传感器与微系统,2021,40(11):69-72. 被引量：7

二级参考文献90

1万磊,佟鑫,盛明伟,秦洪德,唐松奇.Softmax分类器深度学习图像分类方法应用综述[J].导航与控制,2019,0(6):1-9. 被引量：62
2CAO Wenming,HE Tiancheng.The Multi-Weight Neuron with Geometry Algorithm and Its Application[J].Chinese Journal of Electronics,2008,17(2):261-264. 被引量：4
3刘钊,戴斌,刘大学.多传感器信息融合中时间同步方法的研究[J].计算机仿真,2009,26(6):124-127. 被引量：14
4彭辉,魏玮,陆建华.特定人孤立词的语音识别系统研究[J].控制工程,2011,18(3):397-400. 被引量：17
5张君昌,叶珍,李艳艳.一种基于清浊音分离的动态阈值小波去噪方法[J].计算机工程与应用,2011,47(12):133-136. 被引量：3
6王国栋,阳建宏,黎敏,徐金梧.基于自适应稀疏表示的宽带噪声去除算法[J].仪器仪表学报,2011,32(8):1818-1823. 被引量：10
7谢巍盛,杨根科.基于尺度噪声能量估计的自适应语音去噪算法[J].上海交通大学学报,2012,46(9):1445-1449. 被引量：7
8唐晓进.基于LPC倒谱的语音特征参数提取[J].山西电子技术,2012(6):15-16. 被引量：4
9韩文静,李海峰.情感语音数据库综述[J].智能计算机与应用,2013,3(1):5-7. 被引量：15
10张石清,李乐民,赵知劲.人机交互中的语音情感识别研究进展[J].电路与系统学报,2013,18(2):440-451. 被引量：30

共引文献80

1孙俊东,刘喜,佘长超,刘思哲,王兆飞,于洋.基于IFA-CNN的新能源矿卡锂离子电池健康状态估算[J].煤炭工程,2023,55(S01):162-168.
2孙影影,贾振堂,朱昊宇.多模态深度学习综述[J].计算机工程与应用,2020,56(21):1-10. 被引量：33
3乔元健.基于人工智能的机器人音乐类型识别[J].变频器世界,2020(10):71-74.
4乔思波,庞善臣,王敏,翟雪,于世行,丁桐.基于残差混合注意力机制的脑部CT图像分类卷积神经网络模型[J].电子学报,2021,49(5):984-991. 被引量：18
5张婷,马延周,李宏欣.基于DCNN的语音识别降噪方法研究[J].现代电子技术,2021,44(23):48-51. 被引量：3
6华春梦,臧艳辉,马伙财.一种基于CRNN的车牌识别算法研究与应用[J].现代信息科技,2021,5(20):78-81. 被引量：5
7刘文婷,卢新明.基于计算机视觉的Transformer研究进展[J].计算机工程与应用,2022,58(6):1-16. 被引量：61
8张会云,黄鹤鸣.基于异构并行神经网络的语音情感识别[J].计算机工程,2022,48(4):113-118. 被引量：9
9张凌明,赵悦,李鹏程,刘洋,高陈强.基于局部注意力机制的三维牙齿模型分割网络[J].电子学报,2022,50(3):681-690. 被引量：4
10魏亮.基于电力载波通信技术的智能家居系统的应用研究[J].光源与照明,2022(1):131-133. 被引量：2

同被引文献24

1赵军辉,匡镜明,谢湘.应用于军事指挥中的鲁棒性语音识别系统[J].兵工学报,2004,25(4):509-512. 被引量：5
2蔡静平.语音信号数字处理技术及其军事应用[J].国防科技,2007,28(9):27-33. 被引量：3
3邓福元,王建新,陈天赐.基于语音识别技术的军事标图系统设计与实现[J].企业技术开发,2008,27(11):10-12. 被引量：3
4齐季.军事上的声纹识别技术[J].百科知识,2011(4):63-64. 被引量：1
5王为颂,陈健.语音识别技术在舰载指控系统中的应用[J].舰船科学技术,2002,24(2):55-56. 被引量：3
6张凤,高航.自然语言处理技术在西方国家军事领域的应用现状[J].国防科技,2014,35(6):75-82. 被引量：2
7李雪林.基于人机互动的语音识别技术综述[J].电子世界,2018,0(21):105-105. 被引量：10
8熊其冰.基于Multi-Agent的多媒体交互系统的设计与实现[J].信息与电脑,2019,31(24):61-63. 被引量：1
9柏财通,高志强,李爱,崔翛龙.基于门控网络的军事装备控制指令语音识别研究[J].计算机工程,2021,47(7):301-306. 被引量：5
10孙爱叶.基于声纹识别的频谱监测系统开发设计[J].广播与电视技术,2022,49(4):17-20. 被引量：2

引证文献3

1王雪宝,汤永涛,王青波,唐文龙.人工智能语音识别技术在国外军事领域的应用分析[J].电脑知识与技术,2024,20(5):21-23. 被引量：2
2罗伊璇.基于深度学习的景区景观感知互动系统设计[J].中国新技术新产品,2024(10):36-38.
3李发娟.智能声纹识别技术在高校英语口语考试系统中的应用研究[J].电声技术,2024,48(5):28-30.

二级引证文献2

1杨瑞雪.语音识别技术在新闻采访和访谈中的应用[J].电声技术,2024,48(6):59-61.
2李红玲.变分自编码器在环境噪声消除中的应用研究[J].电声技术,2024,48(8):105-107.

1吕彦玲.氯碱生产系统数字化转型升级[J].中国氯碱,2023(12):31-34.
2关聪.人性化及文化价值设计理念在公共建筑设计中的应用[J].四川水泥,2024(2):85-87. 被引量：3
3杨永胜,金刚,李鸣,刘琳琳.基于动态仿真的独立ICS小车行李系统设计[J].物流技术与应用,2023,28(9):140-147. 被引量：1
4蒋茜.文化传承背景下傩文化文创产品的创新设计研究[J].文存阅刊,2023(20):187-189.
5倪鹏飞,谭舒心,张新铭.新媒体背景下书籍装帧设计创新性发展策略研究[J].艺术科技,2024,37(3):217-219.
6焦道宽,王睿迪,张妍懿,王晓兵,郝冬.质子交换膜燃料电池气体扩散层产业技术的现状与展望[J].电池工业,2023,27(6):301-304.

自动化与仪器仪表

2023年第11期

浏览历史

内容加载中请稍等...

基于语音识别的多模态人机交互系统关键技术研究被引量：3

参考文献14

二级参考文献90

共引文献80

同被引文献24

引证文献3

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于语音识别的多模态人机交互系统关键技术研究 被引量：3

参考文献14

二级参考文献90

共引文献80

同被引文献24

引证文献3

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于语音识别的多模态人机交互系统关键技术研究被引量：3