基于深度神经网络的语种识别被引量：7

Language Identification Based on Deep Neural Network

下载PDF

导出

摘要语音段的有效表示方法存在易混淆语种和短时语音段识别率较低等问题,为满足不同时长和方言的识别要求,提出基于深度神经网络不同层的有效语音段表示方法.采用含有中间瓶颈层的深层神经网络作为前端特征提取,综合利用该网络的输出层和中间瓶颈层输出结果,得到不同形式的语音段表示并用于语种识别.在美国国家标准技术局语种识别评测2009年和2011年阿拉伯方言数据集上验证了方法的有效性. Aiming at the problems of confusable dialects and short-duration utterance in automatic spoken language identification （LID）, an improved utterance representation method is proposed based on different layers of deep neural network （ DNN ）. Deep bottleneck network （ DBN ）, a DNN with an internal bottleneck layer, is employed as a front-end feature extractor. Different representations based on output layer and middle bottleneck layer of DBN for LID are obtained and fused. Evaluations on the NIST LRE2009 dataset and NIST LRE2011 Arabic dialect dataset demonstrate that the proposed method based on DBN achieves good performance.

作者崔瑞莲宋彦蒋兵戴礼荣

机构地区中国科学技术大学语音及语言信息处理国家工程实验室

出处《模式识别与人工智能》 EI CSCD 北大核心 2015年第12期1093-1099,共7页 Pattern Recognition and Artificial Intelligence

基金国家自然科学基金项目(No.61172158)资助

关键词语种识别深度神经网络语音段表示深度瓶颈特征 Language Identification, Deep Neural Network, Utterance Representation, DeepBottleneck Feature

分类号 TN912.34 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献19

1Zissman M A. Comparison of Four Approaches to Automatic Language Identification of Telephone Speech. IEEE Trans on Speech and Audio Processing, 1996, 4(1): 31-44.
2Matejka P, Schwarz P, Cernocky′ J, et al. Phonotactic Language Identification Using High Quality Phoneme Recognition // Proc of the 9th European Conference on Speech Communication and Technology. Lisbon, Portugal, 2005: 2237-2240.
3Torres-Carrasquillo P A, Singer E, Kohler M A, et al. Approaches to Language Identification Using Gaussian Mixture Models and Shi-fted Delta Cepstral Features // Proc of the 7th International Confe-rence on Spoken Language Processing. Denver, USA, 2002: 89-92.
4Burget L, Matejka P, Cernocky J. Discriminative Training Techniques for Acoustic Language Identification // Proc of the IEEE International Conference on Acoustics, Speech and Signal Processing. Toulouse, France, 2006, I: 209-212.
5Qu D, Wang B X. Discriminative Training of GMM for Language Identification[EB/OL]. [2014-11-01]. http://isca-speech.org/archive_open/archive_papers/sspr2003/sspr_map8.pdf.
6Vair C, Colibro D, Castaldo F, et al. Channel Factors Compensation in Model and Feature Domain for Speaker Recognition // Proc of the IEEE Speaker and Language Recognition Workshop. San Juan, USA, 2006. DOI: 10.1109/ODYSSEY.2006.248117.
7Hubeika V, Burget L, Matejka P, et al. Discriminative Training and Channel Compensation for Acoustic Language Recognition // Proc of the 9th Annual Conference of the International Speech Communication Association. Brisbane, Australia, 2008: 301-304.
8Dehak N, Kenny P, Dehak R, et al. Front-End Factor Analysis for Speaker Verification. IEEE Trans on Audio, Speech and Language Processing, 2011, 19(4): 788-798.
9Dehak N, Torres-Carrasquillo P A, Reynolds D A, et al. Language Recognition via Ivectors and Dimensionality Reduction // Proc of the 12th Annual Conference of the International Speech Communication Association. Florence, Italy, 2011: 857-860.
10Song Y, Jiang B, Bao Y B, et al. I-vector Representation Based on Bottleneck Features for Language Identification. Electronics Le-tters, 2013, 49(24): 1569-1570.

同被引文献27

1姜洪臣,郑榕,张树武,徐波.基于SDC特征和GMM-UBM模型的自动语种识别[J].中文信息学报,2007,21(1):49-53. 被引量：14
2顾明亮,马勇.基于高斯混合模型的汉语方言辨识系统[J].计算机工程与应用,2007,43(3):204-206. 被引量：9
3顾明亮,夏玉果,张长水.基于支撑矢量机的汉语方言辨识[J].计算机工程与应用,2007,43(29):210-213. 被引量：5
4钱盛友,许慧燕.基于动态时间规整和神经网络的方言辨识研究[J].计算机工程与应用,2008,44(10):211-213. 被引量：9
5张卫强,刘加.基于听感知特征的语种识别[J].清华大学学报（自然科学版）,2009(1):78-81. 被引量：21
6付强,宋彦,戴礼荣.因子分析在基于GMM的自动语种识别中的应用[J].中文信息学报,2009,23(4):77-81. 被引量：4
7朱颖,钱盛友,赵新民.基于SOM神经网络和支持向量机的方言辨识[J].计算机工程与应用,2009,45(22):200-201. 被引量：6
8顾明亮,张彪.半监督矢量量化的汉语方言辨识[J].计算机工程与应用,2011,47(33):109-111. 被引量：1
9彭湘陵,钱盛友,赵新民.基于混合特征参数和BP_Adaboost的方言辨识[J].计算机工程与应用,2013,49(3):152-155. 被引量：5
10王宪亮,吴志刚,杨金超,周若华,颜永红.基于SVM一对一分类的语种识别方法[J].清华大学学报（自然科学版）,2013,53(6):808-812. 被引量：10

引证文献7

1任荣荣,周明全,耿国华,刘晓宁,王恒.基于深度神经网络的多尺度特征提取方法[J].西北大学学报（自然科学版）,2017,47(2):215-221. 被引量：3
2艾虎,李菲.基于改进的长短期记忆神经网络方言辨识模型[J].科学技术与工程,2019,19(2):163-169. 被引量：5
3艾虎,李菲.基于改进的长短期神经网络的贵州方言辨识系统的设计与实现[J].科学技术与工程,2019,19(5):203-210. 被引量：3
4吴敏,马延周.语种识别技术概论[J].现代计算机,2019,25(19):36-40. 被引量：5
5李卓茜,高镇,王化,刘俊南,朱光旭.短语音及易混淆语种识别改进系统[J].中文信息学报,2019,33(10):135-142. 被引量：2
6宋朝阳,吴畏.融合一维卷积和长短期记忆网络的同片区方言辨识[J].兰州文理学院学报（自然科学版）,2023,37(1):45-49.
7周大春,邵玉斌,张昊阁,龙华,彭艺.应用于噪声环境下语种识别的GFCC改进算法[J].云南大学学报（自然科学版）,2024,46(2):246-254. 被引量：1

二级引证文献19

1侯慧玲,王崇霞.高能量无线传感网络隐藏异常结构数据识别[J].计算机仿真,2018,35(10):309-312. 被引量：2
2刘腾,唐虹,张士兵.基于机器学习的心律失常信号分类算法研究[J].计算机应用研究,2020,37(3):940-943. 被引量：5
3乔俊飞,郭子豪,汤健.面向城市固废焚烧过程的二噁英排放浓度检测方法综述[J].自动化学报,2020,46(6):1063-1089. 被引量：33
4黄夏阳,张涛,朱秋煜,郑伟波,樊平.生物实验系统的远程测控监视软件设计与实现[J].科学技术与工程,2020,20(35):14548-14555. 被引量：1
5王坤,高丹妮.基于APSO⁃LSTM的APU故障诊断模型[J].现代电子技术,2021,44(6):6-11. 被引量：2
6申小虎,金恬,李佳蔚,韩春润.方言识别网络模型的声学信息表征研究[J].刑事技术,2021,46(3):234-240. 被引量：2
7邵玉斌,刘晶,龙华,杜庆治,李一民.基于声道频谱参数的语种识别[J].北京邮电大学学报,2021,44(3):112-119. 被引量：11
8罗宇,袁薇,罗林艳,陈明诚,唐杰,万文龙,范嘉智.基于多变量混合长短期记忆神经网络的长沙PM_(2.5)预报模型[J].科学技术与工程,2021,21(25):10967-10975. 被引量：7
9董渊博,茅大钧,章明明.基于CNN-LSTM的燃气轮机NO_(x)排放预测研究[J].热能动力工程,2021,36(9):132-138. 被引量：8
10张少凤,张清勇,杨叶森,苏义鑫,熊斌宇.基于滑动窗口和LSTM神经网络的锂离子电池建模方法[J].储能科学与技术,2022,11(1):228-239. 被引量：7

1詹宏英.美国国家标准技术研究所披露无源互调测试状况[J].国外电子测量技术,2001,20(2):2-5. 被引量：5
2何亮,刘加.基于线性对数似然核函数的说话人识别[J].计算机应用,2011,31(8):2083-2086.
3科学家利用新的制造技术得到纳米紫外LED[J].现代材料动态,2007(11):19-19.
4何儒宁.基于WebRTC的IMS视频会议系统[J].软件,2013,34(12):83-86. 被引量：6
5李云鸿,胡修林,张蕴玉.基于人耳听觉模型的语音质量客观评价方法[J].华中理工大学学报,2000,28(5):63-65. 被引量：19
6陈志宏.针尖挑蜜[J].幸福家庭,2016,0(5):21-21.
7李立永,张连海,冯志远.基于语谱能量的音素边界检测[J].太赫兹科学与电子信息学报,2013,11(6):936-941. 被引量：1
8“环保”不该只挂在嘴上致广大IT厂商，消费者的一封公开信[J].现代计算机（中旬刊）,2007(6):24-24.
9李科,刘加.电话语音双人检测算法[J].清华大学学报（自然科学版）,2007,47(1):65-68.
10卫清.为孩子的梦想导航[J].学生·家长·社会（下）,2015,0(11):55-56.

模式识别与人工智能

2015年第12期

浏览历史

内容加载中请稍等...

基于深度神经网络的语种识别被引量：7

参考文献19

同被引文献27

引证文献7

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

基于深度神经网络的语种识别 被引量：7

参考文献19

同被引文献27

引证文献7

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

基于深度神经网络的语种识别被引量：7