结合有监督联合一致性自编码器的跨音视频说话人标注被引量：2

Efficient Audio-visual Cross-modal Speaker Tagging via Supervised Joint Correspondence Auto-encoder

下载PDF

导出

摘要跨模态说话人标注旨在利用说话人的不同生物特征进行相互匹配和互标注,可广泛应用于各种人机交互场合。针对人脸和语音两种不同模态生物特征之间存在明显的"语义鸿沟"问题,该文提出一种结合有监督联合一致性自编码器的跨音视频说话人标注方法。首先分别利用卷积神经网络和深度信念网络分别对人脸图像和语音数据进行判别性特征提取,接着在联合自编码器模型的基础上,提出一种新的有监督跨模态神经网络模型,同时嵌入softmax回归模型以保证模态间和模态内样本的相似性,进而扩展为3种有监督一致性自编码器神经网络模型来挖掘音视频异构特征之间的潜在关系,从而有效实现人脸和语音的跨模态相互标注。实验结果表明,该文提出的网络模型能够有效的对说话人进行跨模态标注,效果显著,取得了对姿态变化和样本多样性的鲁棒性。 Cross-modal speaker tagging aims to learn the latent relationship between different biometrics for mutual annotation, which can potentially be utilized in various human-computer interactions. In order to solve the ＂semantic gap＂ between the face and audio modalities, this paper presents an efficient supervised joint correspondence auto-encoder to link the face and audio counterpart, where by the speaker can be crosswise tagged. First, Convolutional Neural Network （CNN） and Deep Belief Network （DBN） are used to extract the discriminative features of the face and the audio samples respectively. Then, a supervised neural network model associated with softmax regression is embedded into a joint auto-encoder model, which can discriminatively preserving the inter-modal and intra-modal similarities. Accordingly, three different kinds of supervised joint correspondence auto-encoder models are presented to correlate the semantic relationships between the face and the audio counterparts, and the speaker can be crosswise annotated efficiently. The experimental results show that the proposed supervised joint auto-encoder is able to perform cross-modal speaker tagging with outstanding performance, and demonstrate the robustness to facial posture variations and sample diversities.

作者柳欣李鹤洋钟必能杜吉祥 LIU Xin;LI Heyang;ZHONG Bineng;DU Jixiange(Institute of Computer Science and Technology, Huaqiao University, Xiamen 361021, China;Xiamen Key Laboratory of Computer Vision and Pattern Recognition, Xiamen 361021, China)

机构地区华侨大学计算机科学与技术学院计算机视觉与模式识别厦门市重点实验室

出处《电子与信息学报》 EI CSCD 北大核心 2018年第7期1635-1642,共8页 Journal of Electronics & Information Technology

基金国家自然科学基金(61673185 61572205 61673186) 福建省自然科学基金(2017J01112) 华侨大学中青年创新人才培育项目(ZQN-309)~~

关键词跨模态说话人标注有监督联合自编码器 softmax回归模型有监督神经网络模型 Cross-modal speaker tagging Supervised joint correspondence auto-encoder Softmax regression Supervised neural network model

分类号 TP391.4 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1陈存宝,赵力.嵌入自联想神经网络的高斯混合模型说话人辨认[J].电子与信息学报,2010,32(3):528-532. 被引量：4
2郭武,戴礼荣,王仁华.采用因子分析和支持向量机的说话人确认系统[J].电子与信息学报,2009,31(2):302-305. 被引量：5

二级参考文献25

1Campbell W M, Sturim D E, and Reynolds D A, et al.. SVM based speaker verification using a GMM supervector kernel and NAP variability compensation [C]. Proc ICASSP 2006, Toulouse, France. 2006, Vol. 1: 97-100.
2Solomonoff A, Campbell W M, and Boardman I. Advances in channel compensation for SVM speaker recognition [C]. Proc. ICASSP 2005, Philadelphia, USA. 2005, Vol. 1: 629-632.
3Reynolds D A, Quatieri T F, and Dunn R, B. Speaker verification using adapted Gaussian mixture models [J]. Digital Signal Processing, 2000, 10(3): 19-41.
4Kenny P, Boulianne G, Ouellet P, and Dumouchel P. Speaker and session variability in GMM-based speaker verification [J]. IEEE Trans. on Audio, Speech and Language Processing, 2007, 15(4): 1448-1460.
5Vogt R, Baker B, and Sridharan S. Modeling session variability in text-independent speaker verification [C]. Proc. Interspeech2005, Lisbon, Portugal. 2005: 3117-3120.
6Kenny P, Mihoubi M, and Dumouchel P. New MAP estimators for speaker recognition [C]. Proc. Eurospeech 2003, Geneva, Switzerland, 2005: 2964-2967.
7Kenny P, Boulianne G, and Dumouchel P. Eigenvoice modeling with sparse training data [J]. IEEE Trans. on Speech and Audio, 2005, 13(3): 345-354.
8Collobert R. SVMTorch: A support vector machine for large-scale regression and classification problems[EB/OL]. Available at: http://bengio.abracadoudou.com/projects/ SVMTorch.htm].
9NIST, The NIST Year 2006 speaker recognition evaluation plan[EB/OL]. Available at: http://www.nist.gov/speech /tests/spk/2006/sre-06_ evalplan-v9.pdf.
10Matejka P, Burget L, and Schwarz P, et al.. STBU system for the NIST 2006 speaker recognition evaluation. Proc. ICASSP 2007, Hawaii, USA. 2007, Vol. 4: 221-224.

共引文献7

1王传栋,杨雁莹.自联想记忆神经网络研究[J].计算机技术与发展,2011,21(3):109-112. 被引量：4
2唐苦,王振雷.一种基于KPCA-BN的软测量建模方法[J].计算机与应用化学,2012,29(9):1099-1102. 被引量：3
3朱秉诚,吴乐南,王伟.基于叩齿声音的身份确认方法[J].模式识别与人工智能,2013,26(2):182-188.
4侯旋.量子侧抑制强化竞争算法研究[J].电子设计工程,2015,23(6):37-40.
5梁春燕,袁文浩,李艳玲,夏斌,孙文珠.基于判别邻域嵌入算法的说话人识别[J].电子与信息学报,2019,41(7):1774-1778. 被引量：4
6陈志高,李鹏,肖润秋,黎塔,王文超.文本无关说话人识别的一种多尺度特征提取方法[J].电子与信息学报,2021,43(11):3266-3271. 被引量：3
7Chunyan Liang,Wei Cao,Shuxin Cao.Locality Preserving Discriminant Projection for Speaker Verification[J].Journal of Computer and Communications,2020,8(11):14-22. 被引量：1

同被引文献30

1于淼,吕雅娟,苏劲松,李贤华.规则和统计相结合的中文地址翻译方法[J].中文信息学报,2012,26(3):49-53. 被引量：5
2郭文龙,曾光清.基于特征字的中文地址要素编码和清洗方法[J].鲁东大学学报（自然科学版）,2013,29(4):299-302. 被引量：1
3薛健.数字图书馆异构数据自动迁移技术研究[J].自动化与仪器仪表,2019(1):15-17. 被引量：1
4许普乐,王杨,黄亚坤,黄少芬,赵传信,陈付龙.大数据环境下基于贝叶斯推理的中文地名地址匹配方法[J].计算机科学,2017,44(9):266-271. 被引量：11
5李珣,南恺恺,景军锋.基于改进混合高斯模型的车辆多目标检测方法[J].西安工程大学学报,2017,31(6):795-802. 被引量：16
6赵艳妮,郭华磊.基于XML异构数据库迁移技术研究[J].计算机与数字工程,2018,46(1):129-133. 被引量：10
7赵英,占斌斌,贾沛哲,李华英.基于规则与词典的地址匹配算法[J].北京测绘,2017,31(5):50-54. 被引量：10
8武婧婧,韦素媛,齐小刚.基于N∶X数据聚合的异构网络数据传输方法[J].微电子学与计算机,2018,35(3):104-109. 被引量：2
9庞秋奔,李银.基于Web Service多源异构系统增量同步的实现[J].计算机应用与软件,2018,35(5):172-176. 被引量：8
10潘明明,李丁丁,汤庸,刘海.一种基于中间件的异构数据库融合访问方法及系统[J].计算机科学,2018,45(5):163-167. 被引量：14

引证文献2

1徐兵,石少青,陈超.基于自然语言的中文地址匹配研究[J].电子设计工程,2020,28(16):7-10. 被引量：4
2韩圣亚,严莉,刘荫,徐浩,朱韶松.基于XML的自动化异构系统数据一致性校验方法[J].电子设计工程,2021,29(13):137-141. 被引量：2

二级引证文献6

1孟睿,丛磊.出版业通用数据交换“端交换方案”创作构想[J].全国新书目,2022(9):145-148.
2魏扬.基于统计数据的大型设备故障率自动化计算方法[J].自动化与仪器仪表,2022(9):243-247.
3段文婷.基于迁移学习的英语识别方法[J].电子设计工程,2023,31(7):21-24.
4王钟岳,刘洋.中文地名地址成分信息识别[J].数字技术与应用,2023,41(4):65-67.
5李亚云.多元历史空间信息挖掘与可视化表达技术研究——以上海红色地名文化为例[J].工程勘察,2024,52(1):57-61.
6李晓晰,张伟.结合标注的中文地址匹配规则链模型[J].计算机科学与应用,2021,11(9):2302-2314.

1段海凤,朱晓农.朝鲜语的软硬辅音:从语音数据到音法范畴[J].民族语文,2018(3):13-25. 被引量：5
2周立.上声的参照实现与调形认定[J].现代语言学,2017,5(3):254-260.
3唐洪飞,马建,陶云亚,刘海祥,韩万金.大子午扩张涡轮导向器栅内流动控制研究[J].汽轮机技术,2018,60(3):193-196.
4赵小艳,刘宏哲,袁家政,杨少鹏.图像重排序技术的研究进展[J].计算机科学,2018,45(5):15-23. 被引量：1
5李明建.基于异构数据集成的煤与瓦斯突出监控预警系统[J].工矿自动化,2018,44(1):11-16. 被引量：10
6李炎.医学图像检索的并行深层解决方法[J].现代计算机（中旬刊）,2018(7):65-67. 被引量：1
7金汉均,段贝贝.卷积神经网络在跨媒体检索中的应用研究[J].电子测量技术,2018,41(7):54-57. 被引量：3
8徐彤阳,邓颖慧.微信中基于语义关联的跨媒体检索研究[J].情报科学,2018,36(7):158-162. 被引量：1
9潘荔霞,徐文彬,李世宝,杨喜鹏.基于声纹识别的研讨型智慧教室构建[J].实验技术与管理,2018,35(7):245-250. 被引量：5
10赵阳,王永恒,吴荞宇,林金清,吴升晖,侯文娟,巫瑞波,骆耿耿.面式、经式异构体的钴-氨基硫脲配合物作为催化剂应用于可见光催化分解水产氢（英文）[J].Chinese Journal of Catalysis,2018,39(3):517-526.

电子与信息学报

2018年第7期

浏览历史

内容加载中请稍等...

结合有监督联合一致性自编码器的跨音视频说话人标注被引量：2

参考文献2

二级参考文献25

共引文献7

同被引文献30

引证文献2

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

结合有监督联合一致性自编码器的跨音视频说话人标注 被引量：2

参考文献2

二级参考文献25

共引文献7

同被引文献30

引证文献2

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

结合有监督联合一致性自编码器的跨音视频说话人标注被引量：2