基于深度学习的对话重叠语音片段检测被引量：1

Detecting Overlapping Speech Segments in Conversations Using Deep Learning

下载PDF

导出

摘要为改进在真实对话中分割重叠语音的自然事件,训练一个深度卷积神经网络(DCNN),使用来自单声道音频的级别相对较低的对数标度梅尔频谱图进行端到端的学习.使用Fisher英语语料库的真实会话数据正确训练DCNN,同时保持并测试其对普通会话场景的普遍性.为了缓解严重的类失衡,在训练集中采取消除静音,并在训练过程中对占比重较多的类进行统一随机抽样.同时,使用维特比算法执行时间平滑以增强最终分割.在超过91 h的对话中,检测精度超过60%,召回率超过29%,证明了深度学习对于这项任务的适用性. To improve the segmenting natural occurrences of overlapping speech in real conversations,a ceep convolutional neural network(DCNN)was trained.It used relatively low-level log-scaled Mel-spectrograms from mono-aural audio to end-to-end learning.The DCNN was properly trained by using the real conversational data from the Fisher English Corpus while maintaining and testing its generalizability to real conversational scenarios.To alleviate the imposed challenge of severe class-imbalance,the silence was removed from the training objective and the majority class was randomly sampled during training.Simultaneously,using the Viterbi algorithm to perform temporal smoothing which enhanced the final segmentation.Over 60%precision and over 29%recall rate in over 91 h of conversations demonstrate the applicability of deep learning to this task.

作者魏金太高穹 WEI Jin-tai;GAO Qiong(Department of Information and Art Design, Henan Forestry Vocational College, Luoyang 471002, China;Luoyang Electronic Equipment Testing Center, Luoyang 471003, China)

机构地区河南林业职业学院信息与艺术设计系中国洛阳电子装备试验中心

出处《中北大学学报（自然科学版）》 CAS 2021年第1期34-39,共6页 Journal of North University of China(Natural Science Edition)

基金国家自然科学基金资助项目(11404398) 河南科技厅重点攻关项目(142102210097)。

关键词重叠语音深度卷积神经网络对话分析语音分割类失衡 overlapping speech deep convolutional neural network conversation analysis speech segmentation class-imbalance

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献9

1赵鹤鸣,周旭东,金延庆,翁桂荣.基于小波变换的重叠语音基频提取及声调识别[J].声学学报,1999,24(1):87-93. 被引量：15
2马勇,鲍长春.基于高层信息特征的重叠语音检测[J].清华大学学报（自然科学版）,2017,57(1):79-83. 被引量：3
3赵鹤鸣,舒春燕,周旭东.基于SHS的重叠语音基音分离检测方法[J].信号处理,2000,16(1):63-67. 被引量：4
4王泽,朱贻盛,王自明,张红煊.基于ICA的重叠语音基频提取和语音增强[J].北京生物医学工程,2001,20(4):241-245. 被引量：1
5李宏伟,段艳丽,郭英.基于帧间重叠谱减法的语音增强算法及实现[J].空军工程大学学报（自然科学版）,2001,2(5):48-50. 被引量：11
6戴礼荣,宋彦,王仁华.重叠语音的帧同步分离研究[J].电子学报,2002,30(10):1552-1554. 被引量：2
7徐静波,于洪涛,冉崇森.重叠语音信号的高阶矩分离法[J].长江大学学报（自然科学版）,2004,1(4):4-6. 被引量：1
8吴疆.单分类支持向量机在样本数目失衡分类问题中的应用[J].现代企业教育,2011,0(A11):290-290. 被引量：1
9李鹏,王晓龙,刘远超,王宝勋.一种基于混合策略的失衡数据集分类方法[J].电子学报,2007,35(11):2161-2165. 被引量：16

二级参考文献41

1程俊,张璞,戴善荣,易克初.小波变换用于信号突变的检测[J].通信学报,1995,16(3):96-104. 被引量：36
2刘涵,郭勇,郑岗,刘丁.基于最小二乘支持向量机的图像边缘检测研究[J].电子学报,2006,34(7):1275-1279. 被引量：17
3苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：386
4汪军,何振亚.瞬时混叠信号盲分离[J].电子学报,1997,25(4):1-5. 被引量：11
5方景龙,陈铄,潘志庚,梁荣华.复杂分类问题支持向量机的简化[J].电子学报,2007,35(5):858-861. 被引量：9
6周旭东赵鹤鸣.基于谐波搜索和跟踪的基音提取方法.1997中国神经计算科学会议论文集[M].,1997.725-728.
7[2]L R拉宾纳,R W谢弗.语音信号处理[M].朱雪龙.北京:科学出版社,1978.
8[3]Ephraim Y.Statistical-Model-Based Speech Enhancement Systems[J].Proc IEEE, 1992,80(10):1526-1555.
9[4]CAO Zhi-gang,ZHENG Wen-tao,LIU Zhi-yong.Speech Enhancement Algorithm and Realization Based on MMSE Estimation and Real-Time Realization[J]. Chinese journal of Electronics, 1993,2(2):1-5.
10程，通信学报，1995年，10卷，3期，96页

共引文献44

1孙燕,姜占才.中心消波自相关法语音基音检测[J].青海师范大学学报（自然科学版）,2009,25(2):32-35. 被引量：2
2黄秀轩,韦岗.一种混叠语音清浊音判断方法[J].计算机工程,2004,30(18):29-30.
3黄秀轩,季飞,韦岗.基于分频带自相关函数的混叠语音基频分离提取新算法[J].信号处理,2004,20(5):490-493. 被引量：1
4张海英,赵军,潘永湘.一种基于小波变换的混叠语音基音提取方法[J].西安理工大学学报,2005,21(2):200-203.
5孙新德.一种改进的语音增强方法及实现[J].郑州航空工业管理学院学报（社会科学版）,2005,24(4):156-157.
6董璐,忻蔚然,叶敦范.基于小波变换的音频信号基频提取[J].电声技术,2005,29(6):50-55. 被引量：5
7黄海,潘家强.基于Hilbert-Huang变换的基音周期提取方法[J].声学学报,2006,31(1):35-41. 被引量：11
8高晗,裴玉龙.基于车辆噪音时域特征的交通量统计方法[J].公路交通科技,2008,25(4):113-116. 被引量：4
9黄斌,曾庆宁.基于谱减法语音增强研究[J].大众科技,2008,10(10):22-24. 被引量：6
10李永宁.基于自相关的语音基音周期检测方法研究[J].福建电脑,2008,24(11):92-93. 被引量：3

同被引文献12

1朱祥.基于隐马尔可夫模型和聚类的英语语音识别混合算法[J].计算机测量与控制,2020,28(5):175-179. 被引量：15
2王欣欣,马发民.一种基于DNN的少儿英语口语评分系统的改进[J].信息技术,2020,44(9):46-50. 被引量：5
3余传明,黄婷婷,林虹君,安璐.基于标签迁移和深度学习的跨语言实体抽取研究[J].现代情报,2020,40(12):3-16. 被引量：4
4徐洪学,汪安祺,杜英魁,孙万有.深度学习的基本模型及其应用研究[J].长春师范大学学报,2020,39(12):47-54. 被引量：8
5梁天辰.基于多深度置信网络融合的航空电子设备故障预测[J].电讯技术,2021,61(2):248-253. 被引量：8
6苏磊,陈璐,徐鹏,林峻,盛戈皞,江秀臣.基于深度信念网络的变压器运行状态分析[J].高压电器,2021,57(2):56-62. 被引量：24
7沈东风,张二华.基于深度学习的声学模型研究[J].计算机与数字工程,2021,49(2):315-321. 被引量：2
8卢官明,丛文康,魏金生,闫静杰.基于CNN和LSTM的脑电信号情感识别[J].南京邮电大学学报（自然科学版）,2021,41(1):58-64. 被引量：13
9杨茂,王凯旋.基于CEEMD-DBN模型的光伏出力日前区间预测[J].高电压技术,2021,47(4):1156-1164. 被引量：28
10赵禄达,王斌.基于RS-DBN的电子对抗目标清单生成方法[J].系统工程与电子技术,2021,43(9):2373-2382. 被引量：3

引证文献1

1李娅,马琳.基于机器翻译的日语识别方法研究[J].自动化与仪器仪表,2021(10):178-182. 被引量：2

二级引证文献2

1李星.基于语义匹配的外语翻译机器人自动问答检索研究[J].自动化与仪器仪表,2022(2):138-141. 被引量：2
2田玉玲.日语机器翻译机器人翻译错误自动检测系统设计[J].自动化与仪器仪表,2022(11):205-209. 被引量：2

1韦占江,梁宇.快速HAC聚类算法的改进及应用于无监督语音分割[J].计算机科学与应用,2020,10(8):1464-1470. 被引量：1
2朱双玲,古丽娜孜&#183,艾力木江,苏金善,乎西旦&#183,居马洪,帕孜来提&#183,努尔买提.基于卷积神经网络的遥感图像语义分割方法研究[J].计算机科学与应用,2021,11(2):356-369. 被引量：2
3王晓俊,黄飞龙.基于频谱分析的单声道音频信号分离技术——修复版《天书奇谭》音乐与对白分离、声音创作历程[J].电声技术,2020,44(5):58-64.
4刘国辉.英语heart情感习语的共时分布与历时演变研究[J].天津外国语大学学报,2021,28(1):36-47. 被引量：1
5苏世伟,秦亮,陈春源,刘小平.某型直升机振动故障研究[J].长沙航空职业技术学院学报,2021,21(1):23-26. 被引量：2
6林承志,吕杰琛,潘涵.基于多模态语料库的英语口语语法教材的编写研究[J].海外英语,2021(3):235-236.
7陈勇,巫杰,刘焕淋,郑瀚.基于隐马尔可夫模型的可见光与惯导融合室内定位系统[J].中国激光,2020,47(12):230-237. 被引量：9
8刘明,伍永平,耿霜,多依丽,吕文玉.大倾角煤层开采飞矸威胁等级评估[J].煤炭学报,2020,45(11):3688-3695. 被引量：9
9唐舒航.模因仿造视角下文化特色词的英译策略及译名规范[J].外国语言文学,2020(5):531-541. 被引量：3
10陈艳芳,王梦雨.基于模糊综合评判法的区域交通安全评价研究[J].交通工程,2021,21(1):86-91. 被引量：5

中北大学学报（自然科学版）

2021年第1期

浏览历史

内容加载中请稍等...

基于深度学习的对话重叠语音片段检测被引量：1

参考文献9

二级参考文献41

共引文献44

同被引文献12

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于深度学习的对话重叠语音片段检测 被引量：1

参考文献9

二级参考文献41

共引文献44

同被引文献12

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于深度学习的对话重叠语音片段检测被引量：1