鸡尾酒会问题与相关听觉模型的研究现状与展望被引量：20

Research Advances and Perspectives on the Cocktail Party Problem and Related Auditory Models

下载PDF

导出

摘要近些年,随着电子设备和人工智能技术的飞速发展,人机语音交互的重要性日益凸显.然而,由于干扰声源的存在,在鸡尾酒会等复杂开放环境下的语音交互技术远没有达到令人满意的程度.现阶段,开发一个具备较强自适应性和鲁棒性的听觉计算系统仍然是一件极具挑战性的任务.因此,鸡尾酒会问题的深入探索对智能语音处理领域中的说话人识别、语音识别、关键词唤醒等一系列重要任务都具有非常重要的研究意义和应用价值.本文综述了鸡尾酒会问题相关听觉模型研究的现状与展望.在简要介绍了听觉机理的相关研究,并概括了解决鸡尾酒会问题的多说话人语音分离相关计算模型之后,本文还讨论了受听觉认知机理启发的听觉注意建模方法,认为融入声纹记忆和注意选择的听觉模型在复杂的听觉环境下具有更好的适应性.之后,本文简单回顾了近期的多说话人语音识别模型.最后,本文讨论了目前各类计算模型用于处理鸡尾酒会问题时遇到的困难和挑战,并对未来的研究方向进行了展望. With the rapid development of electronic devices and artificial intelligence technologies, speech-based humanmachine interaction has become increasingly prominent in recent years. However, the performance of these technologies in open complex environments, such as in the cocktail parties, is far from satisfactory. It is still a very challenging task to develop a computational auditory system with strong adaptivity and robustness at present. Therefore, the in-depth exploration of cocktail party problem plays an important role in the tasks of the intellectual speech processing field,such as speaker recognition, speech recognition, keyword spotting and so on. This paper reviews the auditory models related to the cocktail party problem and their developments. We first briefly introduce some relevant hearing research and computational models attacking the multi-speaker speech separation task for solving the cocktail party problem.Then we discuss the auditory attention modeling method inspired by cognitive science. We believe that the auditory model integrated with the memory of voiceprint information and selective attention is more suitable for complex auditory environments. Afterwards, we briefly review current works of multi-speaker speech recognition. Finally, the difficulties and challenges that the current computational models are confronted with are discussed and we give some views on the future research.

作者黄雅婷石晶许家铭徐波 HUANG Ya-Ting;SHI Jing;XU Jia-Ming;XU Bo(Institute of Automation,Chinese Academy of Sciences,Beijing 100190;University of Chinese Academy of Sciences,Beijing 100049;Center for Excellence in Brain Science and Intelligence Technology,CAS,Shanghai 200031)

机构地区中国科学院自动化研究所中国科学院大学中国科学院脑科学与智能技术卓越创新中心

出处《自动化学报》 EI CSCD 北大核心 2019年第2期234-251,共18页 Acta Automatica Sinica

基金国家自然科学基金(61602479) 中国科学院战略性先导科技专项(XDBS01070000) 北京市科技重大专项(Z181100001518006)资助~~

关键词鸡尾酒会问题听觉模型语音分离听觉注意语音识别 Cocktail party problem auditory model speech separation auditory attention speech recognition

分类号 TN912.34 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献1

1刘文举,聂帅,梁山,张学良.基于深度学习语音分离技术的研究现状与进展[J].自动化学报,2016,42(6):819-833. 被引量：67

二级参考文献66

1Kim G, Lu Y, Hu Y, Loizou P C. An algorithm that im- proves speech intelligibility in noise for normal-hearing lis- teners. The Journal of the Acoustical Society of America, 2009, 126(3): 1486-1494.
2Dillon H. Hearing Aids. New York: Thieme, 2001.
3Allen J B. Articulation and intelligibility. Synthesis Lectures on Speech and Audio Processing, 2005, 1(1): 1-124.
4Seltzer M L, Raj B, Stern R M. A Bayesian classifier for spectrographic mask estimation for missing feature speech recognition. Speech Communication, 2004, 43(4): 379-393.
5Weninger F, Erdogan H, Watanabe S, Vincent E, Le Roux J, Hershey J R, Schuller B. Speech enhancement with LSTM recurrent neural networks and its application to noise-robust ASR. In: Proceedings of the 12th International Conference on Latent Variable Analysis and Signal Separation. Liberec, Czech Republic: Springer International Publishing, 2015.91 -99.
6Weng C, Yu D, Seltzer M L, Droppo J. Deep neural networks for single-channel multi-talker speech recognition. IEEE/ ACM Transactions on Audio, Speech, and Language Pro- cessing, 2015, 23(10): 1670-1679.
7Boll S F. Suppression of acoustic noise in speech using spec- tral subtraction. IEEE Transactions on Acoustics, Speech, and Signal Processing, 1979, 27(2): 113-120.
8Chen J D, Benesty J, Huang Y T, Doclo S. New insights into the noise reduction wiener filter. IEEE Transactions on Audio, Speech, and Language Processing, 2006, 14(4): 1218 -1234.
9Loizou P C. Speech Enhancement: Theory and Practice. New York: CRC Press, 2007.
10Liang S, Liu W J, Jiang W. A new Bayesian method incor- porating with local correlation for IBM estimation. IEEE Transactions on Audio, Speech, and Language Processing, 2013, 21(3): 476-487.

共引文献66

1李艳生,刘园,张毅,杨美美.混响环境下移动机器人语音控制方法及系统实现[J].仪器仪表学报,2019,40(11):165-171. 被引量：13
2杨海龙,曾祥福,钟维良.多尺度时域单通道语音分离网络设计[J].电声技术,2021,45(10):96-99.
3黄张翼,周翊,舒晓峰,刘宏清.联合贝叶斯估计与深度神经网络的语音增强方法[J].小型微型计算机系统,2019,40(1):40-44. 被引量：5
4吕菲,夏秀渝.基于方位特征的听觉选择性注意计算模型研究[J].自动化学报,2017,43(4):634-644. 被引量：5
5支艳利,张云伟.基于环形麦克风阵列的远场语音识别系统[J].微型电脑应用,2017,33(4):62-64. 被引量：2
6王程,周婉,何军.面向自动音乐生成的深度递归神经网络方法[J].小型微型计算机系统,2017,38(10):2412-2416. 被引量：14
7袁文浩,孙文珠,夏斌,欧世峰.利用深度卷积神经网络提高未知噪声下的语音增强性能[J].自动化学报,2018,44(4):751-759. 被引量：36
8凌佳佳,袁晓兵.联合噪声分类和掩码估计的语音增强方法[J].电子设计工程,2018,26(17):30-34. 被引量：3
9袁文浩,梁春燕,夏斌,孙文珠.一种融合相位估计的深度卷积神经网络语音增强方法[J].电子学报,2018,46(10):2359-2366. 被引量：7
10时文华,倪永婧,张雄伟,邹霞,孙蒙,闵刚.联合稀疏非负矩阵分解和神经网络的语音增强[J].计算机研究与发展,2018,55(11):2430-2438. 被引量：9

同被引文献79

1刘美玲.项目教学法在《调酒》课程中的运用——《巧思妙想-以“成都”为主题自创鸡尾酒》课例分析[J].小品文选刊（下）,2019,0(6):0292-0292. 被引量：2
2Mario Berges,Ethan Goldman,H. Scott Matthews,Lucio Soibelman.Training Load Monitoring Algorithms on Highly Sub-Metered Home Electricity Consumption Data[J].Tsinghua Science and Technology,2008,13(S1):406-411. 被引量：2
3张乐,梁宁建.不同背景噪音干扰下的数字短时记忆研究[J].心理科学,2006,29(4):789-794. 被引量：11
4谢秋云,肖铁军.语音MFCC特征提取的FPGA实现[J].计算机工程与设计,2008,29(21):5474-5475. 被引量：7
5邹玉娣,吴军,刘鸣.基于LM567的无线通信电路设计[J].实验室科学,2008,11(6):88-90. 被引量：2
6汤永清,黄青华,方勇.基于球傅里叶变换的声源三维空间定位[J].信号处理,2010,26(5):654-658. 被引量：6
7闫小媛,吴长奇,李家赫.基于两级变参数滤波时延校正的声源定向[J].信号处理,2012,28(2):270-275. 被引量：4
8Jia WANG,Qingyan WANG,Mingqian ZHANG.Development and prospect of near-field optical measurements and characterizations[J].Frontiers of Optoelectronics,2012,5(2):171-181. 被引量：2
9卢章平,董元轲.车载导航语音界面的可用性实验研究[J].包装工程,2013,34(8):28-34. 被引量：7
10姚鸿勋,高文,王瑞,郎咸波.视觉语言——唇读综述[J].电子学报,2001,29(2):239-246. 被引量：30

引证文献20

1肖易明,张海剑,孙洪,丁昊.引入注意力机制的视频声源定位[J].信号处理,2019,35(12):1969-1978. 被引量：3
2常新旭,张杨,杨林,寇金桥,王昕,徐冬冬.利用门控循环编解码网络的语音增强方法[J].计算机工程与设计,2020,41(6):1762-1767. 被引量：1
3陈小鼎,盛常冲,匡纲要,刘丽.唇读研究进展与展望[J].自动化学报,2020,46(11):2275-2301. 被引量：4
4葛宛营,张天骐,范聪聪,张天.噪声情况下采用稀疏非负矩阵分解与深度吸引子网络的人声分离算法[J].声学学报,2021,46(1):55-66. 被引量：4
5郭佳敏,李鸿燕.一种改进LSTM训练的语音分离技术[J].电子设计工程,2021,29(11):140-145.
6GE Wanying,ZHANG Tianqi,FAN Congcong,ZHANG Tian.Monaural noisy speech separation combining sparse non-negative matrix factorization and deep attractor network[J].Chinese Journal of Acoustics,2021,40(2):266-280.
7徐鹏飞,王敏,刘金平,唐朝晖,马天雨.基于数据分布特性的代价敏感宽度学习系统[J].控制与决策,2021,36(7):1686-1692. 被引量：3
8马国昊,牛长流,王阳.基于神经网络的声源定位算法研究[J].数字技术与应用,2021,39(7):106-109.
9罗春梅,张风雷.基于均值特征和改进深度神经网络的说话人识别算法[J].声学技术,2021,40(4):503-507. 被引量：2
10陈宪涛,王任振,邹黎明,徐濛.智能语音产品的唤醒率体验研究[J].人类工效学,2021,27(4):33-37. 被引量：3

二级引证文献78

1邱恬.音视频快速查找定位技术分析[J].信息与电脑,2020,32(17):43-45.
2刘香凝,赵洋,王荣刚.基于自注意力机制的多阶段无监督单目深度估计网络[J].信号处理,2020,36(9):1450-1456. 被引量：5
3罗平,樊星驰,章坚民,李俊杰.基于电器运行状态和深度学习的非侵入式负荷分解[J].电力系统自动化,2021,45(12):49-56. 被引量：20
4郇嘉嘉,汪超群,洪海峰,隋宇,余梦泽,潘险险.基于图像编码与深度学习的非侵入式负荷识别方法[J].科学技术与工程,2021,21(21):8901-8908. 被引量：8
5王毅,徐元源,李松浓.基于DAG-SVMS的非侵入式负荷识别方法[J].电子技术应用,2021,47(10):107-112. 被引量：3
6安楠,高嘉浩,张博,周玉峥,刘世全.基于非侵入式监测的用电设备智能识别及负荷分解[J].电力系统装备,2021(21):162-163.
7马金林,朱艳彬,马自萍,巩元文,陈德光,刘宇灏.唇语识别的深度学习方法综述[J].计算机工程与应用,2021,57(24):61-73. 被引量：4
8欧飞,刘敏.用于需求响应能力评估的概率负荷识别方法[J].电力科学与工程,2022,38(1):8-15. 被引量：4
9王毓琦,高嵩,万校宏,李元元,杨子江.电网负荷分类评价反馈算法研究[J].山东电力技术,2022,49(3):20-24. 被引量：3
10王萌铎,续欣莹,阎高伟,史丽娟,郭磊.基于AdaBoost集成加权宽度学习系统的不平衡数据分类[J].计算机工程,2022,48(4):99-105. 被引量：5

1方斯棒.体育游戏在中学体育教学中的应用研究[J].体育风尚,2018(9):169-169. 被引量：1
2李明,徐海青,吴立刚,浦正国.基于PRe LU的DNN-LSTM混合神经网络在语音识别中的研究[J].福建茶叶,2018,40(12):299-299. 被引量：1
3冯诗影,韩文廷,金旭,迟孟贤,安虹.循环神经网络在语音识别模型中的训练加速方法[J].小型微型计算机系统,2018,39(12):2561-2565. 被引量：9
4邓绍云.陶土化学性质及其应用的研究现状与展望[J].化学工程师,2019,33(2):43-49. 被引量：5
5王光艳,张艳,李玥玲,马肖蓉.稀疏分量分析在水下盲语音分离中的应用研究[J].电子世界,2019,0(3):145-146.
6张启坤,刘宏哲,袁家政,龚灵杰.基于改进弦截法的FastICA算法研究[J].计算机应用研究,2019,36(2):425-429. 被引量：2
7田俏,荣阳,荣根满.小儿肺炎抗生素应用中值得注意的事项与药学研究[J].中国医药指南,2019,17(5):112-113. 被引量：2
8马树荣.基桩检测技术的研究现状与展望[J].名城绘,2019,0(4):16-16.
9杜建刚,李丹惠,李晓楠.消费者注意研究综述与展望[J].外国经济与管理,2019,41(1):114-126. 被引量：13
10蔡旭,陈根,周党生,张建文,王琰,邵昊舒,王武华.海上风电变流器研究现状与展望[J].全球能源互联网,2019,2(2):102-115. 被引量：26

自动化学报

2019年第2期

浏览历史

内容加载中请稍等...

鸡尾酒会问题与相关听觉模型的研究现状与展望被引量：20

参考文献1

二级参考文献66

共引文献66

同被引文献79

引证文献20

二级引证文献78

相关作者

相关机构

相关主题

浏览历史

鸡尾酒会问题与相关听觉模型的研究现状与展望 被引量：20

参考文献1

二级参考文献66

共引文献66

同被引文献79

引证文献20

二级引证文献78

相关作者

相关机构

相关主题

浏览历史

鸡尾酒会问题与相关听觉模型的研究现状与展望被引量：20