多智能体自组织语音识别

Multi-agent ad-hoc speech recognition

下载PDF

导出

摘要语音感知是无人系统的重要组成部分,已有的工作大多集中于单个智能体的语音感知,受噪声、混响等因素的影响,性能存在上限。因此研究多智能体语音感知,通过多智能体自组织、相互协作,提高感知性能非常必要。假设每个智能体输出一个通道的语音流条件下,本文提出一种多智能体自组织语音系统,旨在综合利用所有通道提高感知性能;并进一步以语音识别为例,提出能处理大规模多智能体语音识别的通道选择方法。基于Sparsemax算子的端到端语音识别流注意机制,将带噪通道权重置零,使流注意力具备通道选择能力,但Sparsemax算子会将过多通道权重置零。本文提出Scaling Sparsemax算子,只将带噪较强的通道权重置零;同时提出了多层流注意力结构,有效降低了计算复杂度。在30个智能体的无人系统环境下,基于conformer架构的识别系统实验结果表明,在通道数失配的测试环境下,提出的Scaling Sparsemax在仿真数据集上的文字差错率(WER)相比Softmax降低30%以上,在半真实数据集上降低20%以上。 Speech perception is an important part of unmanned systems.Most of the existing work focuses on the speech perception of a single agent,which is affected by factors such as noise and reverberation,and the performance has an upper limit.Therefore,it is necessary to study multi-agent speech perception,and improve perception performance through multi-agent self-organization and mutual cooperation.A multi-agent ad-hoc speech system is proposed under the assumption that each agent outputs a channel of speech stream.The multi-agent ad-hoc speech system aims to comprehensively utilize all channels to improve perception performance.Taking the speech recognition as an example,a channel selection method that can handle large-scale multi-agent speech recognition is proposed.Specifically,an end-to-end speech recognition stream attention mechanism based on Sparsemax operator is proposed to force the channel weights of noisy channels to zero,and make the stream attention bear the function of channel selection.Nevertheless,Sparsemax would punish the weights of many channels to zero harshly.Therefore,Scaling Sparsemax is proposed,which punishes the channels mildly by setting the weights of strong noise channels to zero only.At the same time,a multilayer stream attention structure is proposed to effectively reduce computational complexity.Experimental results in an unmanned system environment with up to 30 agents under the conformer speech recognition architecture show that the Word Error Rate(WER)of the proposed Scaling Sparsemax is lower than that of Softmax by over 30%on simulation data sets,and by over 20%on semi-real data sets,in test scenarios with mismatched channel numbers.

作者陈俊淇张晓雷 CHEN Junqi;ZHANG Xiaolei(School of Marine Science and Technology,Northwestern Polytechnical University,Xi'an Shaanxi 710072,China)

机构地区西北工业大学航海学院

出处《太赫兹科学与电子信息学报》 2023年第9期1163-1170,1187,共9页 Journal of Terahertz Science and Electronic Information Technology

关键词多智能体语音识别通道选择注意力 Scaling Sparsemax算子 multi-agent speech recognition channel selection attention Scaling Sparsemax

分类号 TP391.4 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1李杨,徐峰,谢光强,黄向龙.多智能体技术发展及其应用综述[J].计算机工程与应用,2018,54(9):13-21. 被引量：37
2陈磊,李钟慎.多智能体系统一致性综述[J].自动化博览,2018,35(2):74-78. 被引量：6

二级参考文献14

1石纯一,王克宏,王学军,康小强,罗翊,胡军.分布式人工智能进展[J].模式识别与人工智能,1995,8(A01):72-92. 被引量：18
2谢光强,章云.多智能体系统协调控制一致性问题研究综述[J].计算机应用研究,2011,28(6):2035-2039. 被引量：28
3李少斌,陈炎财,杨忠,黄宵宁,杨成顺.具有通信延迟的多无人机编队飞行控制[J].信息与控制,2012,41(2):142-146. 被引量：18
4闵海波,刘源,王仕成,孙富春.多个体协调控制问题综述[J].自动化学报,2012,38(10):1557-1570. 被引量：47
5尉建龙,仇智慧.基于二阶动力学模型的非完整多个体系统有限时间一致性问题研究[J].天津理工大学学报,2013,29(3):1-4. 被引量：2
6魏瑞轩,茹常剑,祁晓明.通信延迟条件下无人机编队重构的自主安全控制[J].控制理论与应用,2013,30(9):1099-1108. 被引量：9
7张瑞雷,李胜,陈庆伟.车式移动机器人动态编队控制方法[J].机器人,2013,35(6):651-656. 被引量：17
8刘金琨,尔联洁.多智能体技术应用综述[J].控制与决策,2001,16(2):133-140. 被引量：106
9徐志强,陈雪波.包含原理的群体机器人队形一致协调控制[J].智能系统学报,2015,10(2):301-306. 被引量：4
10王振华,徐娟娟,张焕水.受未知通信时滞影响的高阶多智能体系统的趋同[J].控制理论与应用,2015,32(3):295-303. 被引量：2

共引文献40

1瞿吉,董学育,安允展.采用一致性下垂控制的多储能微电网的协调运行研究[J].南京工程学院学报（自然科学版）,2018,16(4):34-40.
2颜功达,董鹏,文昊林.基于多智能体的复杂工程项目进度风险评估仿真建模[J].计算机科学,2019,46(B06):523-526. 被引量：12
3刘清堂,巴深,罗磊,张翼恒,吴林静.教育智能体对认知学习的作用机制研究述评[J].远程教育杂志,2019,37(5):35-44. 被引量：15
4彭浩,毛祥荟,谷源涛,王永程,王玉.基于WPG的无人机一致性控制算法[J].深圳大学学报（理工版）,2019,36(5):497-502.
5董鹏,吴翀,余鹏,文昊林.基于多智能体的海上垂直补给规划仿真研究[J].计算机科学,2019,46(S11):72-75. 被引量：2
6茆汉国,张建德.多智能体系统的非震颤固定时间一致性[J].计算机工程与应用,2020,56(4):158-162. 被引量：3
7孙彧,曹雷,陈希亮,徐志雄,赖俊.多智能体深度强化学习研究综述[J].计算机工程与应用,2020,56(5):13-24. 被引量：63
8张普,薛惠锋,高山.基于分布式自适应的多智能体容错一致性控制[J].航空学报,2020,41(3):274-286. 被引量：13
9赵晶,曹易.风景园林研究中的人工智能方法综述[J].中国园林,2020,36(5):82-87. 被引量：23
10肖星,罗毅平,蔡聪,姚月杰.基于事件触发策略的连续多智能体系统一致性综述[J].湖南工程学院学报（自然科学版）,2020,30(2):7-12.

1韩景峰.民航工程建设行业标准编辑原则与特性研究[J].吕梁学院学报,2021,11(6):34-37.
2马健晖,唐钒,梁宇棋,李晏宁,刘书朋,齐宏亮.利用双注意力CycleGAN从超声合成数字乳腺断层扫描病灶研究[J].现代仪器与医疗,2023,29(4):63-69.
3代秀珍.基于对抗学习邻域注意网络的链路预测[J].计算机应用与软件,2023,40(9):78-87.
4孔松涛,徐甄泽,林星宇,张椿秋,蒋国庆,张淳钦,王堃.基于改进YOLO v5算法的光伏组件红外热成像缺陷检测[J].红外技术,2023,45(9):974-981. 被引量：1
5张英,刘宾.基于深度学习的风机叶片边缘检测[J].国外电子测量技术,2023,42(7):140-145.
6刘晨曦,孙秉珍,楚晓丽,祁畅.基于复合粗糙集的异构属性患者社区划分模型[J].复杂系统与复杂性科学,2023,20(3):27-34.
7陈登建,夏换,赵浩宇.风险沟通视角下政务微博中公众的情感风险识别与预警研究[J].情报资料工作,2023,44(5):39-49. 被引量：1
8何静,王永华,万频.基于随机共振和信息几何的协作频谱感知方法[J].电讯技术,2023,63(9):1300-1306.
9吴燕京,张丹丹.双语新生儿语言表征的神经机制研究[J].外语教学与研究,2023,55(5):643-652.
10郭晓新,李佳慧,张宝亮.基于高分辨率网络的视杯和视盘的联合分割[J].吉林大学学报（工学版）,2023,53(8):2350-2357.

太赫兹科学与电子信息学报

2023年第9期

浏览历史

内容加载中请稍等...

多智能体自组织语音识别

参考文献2

二级参考文献14

共引文献40

相关作者

相关机构

相关主题

浏览历史