基于时空相关度融合的语音唇动一致性检测算法被引量：5

Lip Motion and Voice Consistency Algorithm Based on Fusing Spatiotemporal Correlation Degree

下载PDF

导出

摘要本文在传统发音唇动分析模型的基础上,构建一个发音唇动时空模型.提出了唇动时域特征、空域特性与语音的相关度度量方法,以及融合时空度量的语音唇动一致性检测方法.利用唇宽、唇高与音频幅度变化之间的联系获得语音唇动的时域一致性评分;通过协惯量分析法获得语音与唇部空域特征的初始相关度,并提出了针对语音、唇动自然延时的相关度修订方法;最后将时空上的得分进行融合以判断语音唇动是否一致.初步实验结果表明,对于四种不一致音视频数据,与常用的协惯量方法相比,EER(Equal Error Rate)平均下降了约8.2%. This paper constructs a spatiotemporal lip motion model based on traditional simple pronunciation and lip motion spatial model ,and proposes methods for measuring the correlation degree between voice and the spatial ,temporal characteristic of lip motion .In addition ,a fusion scheme for the spatial and temporal correlation degree is proposed to measure the consistency of voice and lip motion .The temporal consistent score is defined as the correlation between lip shape （height and width） and the speech am-plitude .The Coinertia is used as the initial correlation degree of speech and lip spatial characteristic .Both the spatial and temporal correlation degrees are modified by audiovisual initial delay .Experimental results show that the proposed method reduces EER by about 8 .2% compared to the CoIA method .

作者朱铮宇贺前华奉小慧叶婉玲李艳雄杨继臣

机构地区华南理工大学电子与信息学院

出处《电子学报》 EI CAS CSCD 北大核心 2014年第4期779-785,共7页 Acta Electronica Sinica

基金国家自然科学基金(No.61301300 No.60972132) 博士后科学基金(No.2013M531850) 中央高校基本科研业务费项目华南理工大学(No.2013ZM0097)

关键词时空特性一致性分析协惯量分析相关度融合 spatiotemporal characteristic consistent analysis coinertia analysis（ColA） correlation degree fusion

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献18

1魏耀都,谢湘,匡镜明,韩辛璐.新的全参考音视频同步感知质量评价模型[J].通信学报,2012,33(2):182-190. 被引量：2
2MI Faraj, J Bigun. S ynergy of lip-motion and acoustic features in biometric speech and speaker recognition[ J]. IEEE Transac- tions on Computer,2007,56(9): 1169- 1175.
3S Kumagal, K Doman, et al. Detection of inconsistency between subject and speaker based on the co-occurrence of lip motion and voice towards speech scene extraction from news videos [ A]. IEEE International Symposium on Multimedia[ C]. Cali- fornia: IEEE,2011.311 - 318.
4M Slaney,M Covell. Facesync:A linear operator for measuring synchronization of video facial images and audio track [ A ].Neural Information Processing Systems [ C ]. Denver: NIPSF, 2000. 814 - 820.
5N Eveno, L Besacier. A speaker independent "liveness" test for audio-visual biomelrics [ A ]. Nineth European Conference on Speech Communication and Technology [ C ]. Lisbon: ISCA, 2005. 3081 - 3084.
6G ChoUet, R Landais, et al. Some experiments in audio-visual speech processing [A ]. Non-Linear Speech Processing 2007 [ C]. Paris-ISCA, 2007.28 - 56.
7A Sayo, Y Kajikawa, et al. Biometrics authentication method using lip motion in utterance[ A]. 8th International Conference on Information, Communications and Signal Processing [ C ]. Singapore: IEEF., 2011.1 - 5.
8AA EL-Sallam, AS Mian. Correlation based speech-video syn- chronization[ J]. Pattern Recognition Letters, 2011,32 ( 6 ) : 780 - 786.
9B Goswami, C Chan, et al. Speaker authentication using video- based lip information[ A]. IEEE, International Conference on A- coustics, Speech, and Signal Processing [ C ]. Prague: IEEE, 2011.1908 - 1910.
10R Goecke, B MiUar. Statistical analysis of the relationship be- tween audio and video speech parameters for Australian Eng- lish[ A]. Auditory Visual Speech Processing Conference[ C]. France: ISCA,2003.133 - 138.

二级参考文献42

1L Sirovich,M Kirby. Appfication of Karhunen-Loeve procedure for the characterization of human faces[ J ]. IEEE Trans Pattern Analysis and Machine Intelligence, 1990,3( 1 ) :71 - 79.
2M Turk, A Pentland. Eigenfaces for recognition[ J]. Journal of Cognitive Neuroscience, 1991,3( 1 ) : 72 - 86.
3D L Swets, J Y Weng. Using discriminant eigenfeatures for image retdeval[ J ]. IEEE Trans Pattern Analysis and Machine Intelligence, 1996,18(8) : 831 - 836.
4P N Belhumeur, J P Hespanha, D J Kriegman. Eigenfaces vs. Fisherfaces: recognition using class specific linear projection[ J]. IEEE Trans Pattern Analysis and Machine Intelligence, 1997,19 (7) :711 - 720.
5Z M Hafed, M D Levine. Face recognition using the discrete cosine transform[ J ].International Journal of Computer Vision, 2001,43(3) : 167 - 188.
6D Ramasubramanian, Y V Venkatesh. Encoding and recognition of faces based on the human visual model and DCT[ J]. Pattern Recognition, 2001,34(12) :2447 - 2458.
7W Chen, J E Meng, S Wu. PCA and LDA in DCT domain [ J]. Pattern Recognition Letters,2005,26(15) :2474 - 2482.
8Cremers D, Rousson M, Deriche R. A review of statistical approaches to level set segmentation: integrating color, texture, motion and shape [J]. International Journal of Computer Vision, 2007,72 ( 2 ) : 195- 215.
9Cremers D, Soatto Stefano. A pseudo-distance for shape priors in level set segmentation [ C ] //Proc of IEEE Workshop on Variational, Geometric and Level Set Methods in Computer Vision. Nice : IEEE ,2003 : 1-8.
10Chan Tony, Zhu Wei. Level set based shape prior segmentation [ C]//Proc of IEEE Computer Society Conference on Computer Vision and Panem Recognition. San Diego : IEEE ,2005 : 1 164-1 170.

共引文献45

1刘中华,殷俊,金忠.一种自适应的Gabor图像特征抽取和权重选择的人脸识别方法[J].光子学报,2011,40(4):636-641. 被引量：12
2周书仁,邵晶,蒋加伏.基于DCT与LDA的仿生人脸识别研究[J].计算机工程与应用,2011,47(13):208-211. 被引量：6
3杨勇,田侃.基于Gabor特征和EHMM的人脸识别方法[J].重庆邮电大学学报（自然科学版）,2011,23(3):355-362. 被引量：9
4王雪松,高阳,程玉虎.基于随机子空间-正交局部保持投影的支持向量机[J].电子学报,2011,39(8):1746-1750. 被引量：3
5高毫林,李弼程,彭天强.基于稳健哈希签名的视频流特定人物实时检测方法[J].应用科学学报,2011,29(6):619-625.
6李文辉,姜园媛,王莹,傅博.一种基于重采样双向2DLDA融合的人脸识别算法[J].电子学报,2011,39(11):2526-2533. 被引量：2
7张健,肖迪.基于多尺度自适应LDA的人脸识别方法[J].计算机工程与设计,2012,33(1):332-335. 被引量：6
8何林,潘静,庞彦伟.基于DCT和线性回归的人脸识别[J].计算机应用研究,2012,29(3):1123-1126. 被引量：11
9余嘉,方杰,许可.基于加权小波的DCT人脸识别算法研究[J].计算机工程与应用,2012,48(17):199-202. 被引量：4
10刘嵩.结合DCT与KPCA的人脸识别[J].计算机工程与应用,2012,48(27):186-188. 被引量：5

同被引文献17

1张利鹏,曹犟,徐明星,郑方.防止假冒者闯入说话人识别系统[J].清华大学学报（自然科学版）,2008,48(S1):699-703. 被引量：13
2孙金城,倪宏,莫福源,李昌立.普通话声母和韵母的统计特性[J].应用声学,1995,14(3):35-41. 被引量：2
3钱博,李燕萍,唐振民,徐利敏.基于频域能量分布分析的自适应元音帧提取算法[J].电子学报,2007,35(2):279-282. 被引量：7
4胡瑛,陈宁.基于小波变换的清浊音分类及基音周期检测算法[J].电子与信息学报,2008,30(2):353-356. 被引量：17
5钟燕飞,张良培,李平湘.遥感影像分类中的模糊聚类有效性研究[J].武汉大学学报（信息科学版）,2009,34(4):391-394. 被引量：11
6胡永健,刘琲贝,贺前华.数字多媒体取证技术综述[J].计算机应用,2010,30(3):657-662. 被引量：20
7梅晓,熊子瑜.普通话韵律结构对声韵母时长影响的分析[J].中文信息学报,2010,24(4):96-103. 被引量：7
8邵健,赵庆卫,颜永红.基于鼻韵尾分离的汉语声韵母识别模型[J].声学学报,2010,35(5):587-592. 被引量：3
9王志锋,贺前华,张雪源,罗海宇,苏卓生.基于信道模式噪声的录音回放攻击检测[J].华南理工大学学报（自然科学版）,2011,39(10):7-12. 被引量：15
10丁琦,平西建.针对语音变换的语音篡改检测[J].数据采集与处理,2012,27(1):57-62. 被引量：6

引证文献5

1贺前华,潘伟锵,胡永健,朱铮宇,李艳雄,奉小慧.说话人认证录音回放检测方法综述[J].数据采集与处理,2015,30(2):266-274. 被引量：1
2LUO Siwei,HOU Mengshu,ZHAN Siyu,LYU Mengjie,LI Ming.Consistency Maintenance in Replication：A Novel Strategy Based on Diamond Topology in Cloud Storage[J].Chinese Journal of Electronics,2017,26(1):192-198.
3朱铮宇,邱华愉,杨春玲,王泳.基于特定韵母发音事件分析的语音唇动一致性判决方法[J].华南理工大学学报（自然科学版）,2020,48(1):139-146. 被引量：4
4朱铮宇,廖丽平,杨春玲,王泳,蔡君,邱华愉.基于韵母发音事件匹配与位置时延分析的音唇一致性判决方法[J].电子学报,2021,49(1):140-148. 被引量：1
5朱铮宇,罗超,贺前华,彭炜锋,毛志炜,张顺四.基于唇重构与三维耦合CNN的多视角音唇一致性判别[J].华南理工大学学报（自然科学版）,2023,51(5):70-77.

二级引证文献6

1贾甜博,蒋晔.基于AdaBoost算法的回放语音检测研究[J].计算机工程,2019,45(12):263-266.
2王艳,李昂,王晟全.基于深度学习的细粒度图像推荐算法研究[J].兵器装备工程学报,2021,42(2):162-167. 被引量：1
3邬友朋,赵金龙,贾中营.一种基于KNN/CNN的供热客服音频分类方法[J].电力大数据,2021,24(7):56-66. 被引量：1
4闵秋洁,刘东.基于机器翻译的普通话发音标准度测试系统[J].自动化与仪器仪表,2022(9):115-119. 被引量：1
5段文婷.英语对话机器人发音标准性检测方法[J].自动化与仪器仪表,2022(11):210-215. 被引量：2
6张昕煜.基于语音感知的英语口语发音自动校准系统[J].自动化技术与应用,2023,42(5):44-47.

1李道远,常敏,袁春风.基于小波变换的数字水印综述[J].计算机工程与应用,2003,39(23):65-67. 被引量：41
2赵灿明,纪诗厚,石滚,田野.面向以太网的网络故障自动实时发现与定位方法[J].计算机应用与软件,2016,33(9):101-105. 被引量：2
3王炜,吕萍,颜永红.基于倒谱分析和距离测度的音频检索方法[J].微计算机应用,2006,27(5):557-559.
4王静,张健沛,杨静,程丽丽.面向矛盾问题的动态描述逻辑扩展研究[J].哈尔滨工程大学学报,2009,30(7):792-796.
5李吉超,赵卫东,王树梅.审图系统中的图纸一致性检测算法[J].计算机工程,2007,33(24):277-279.
6蒋海燕,袁峰,陈中,丁振良.串联结构的电阻应变式测力传感器[J].传感器技术,1999,18(3):23-26. 被引量：5
7唐成华,余顺争.基于特征的网络安全策略验证[J].计算机研究与发展,2009,46(11):1854-1861. 被引量：5
8曾一,李函逾,刘慧君,余双双,周波.UML模型和Java代码之间的一致性检测方法[J].计算机科学,2015,42(4):151-155. 被引量：5
9黄微,聂龙保,张婷婷.多时相遥感影像厚云去除[J].遥感信息,2016,31(6):68-74. 被引量：4
10徐若曦,周鹏,章锦文,孙绍辉.射频仿真系统空域特性对导引头测角的影响[J].计算机仿真,2015,32(5):90-94. 被引量：2

电子学报

2014年第4期

浏览历史

内容加载中请稍等...

基于时空相关度融合的语音唇动一致性检测算法被引量：5

参考文献18

二级参考文献42

共引文献45

同被引文献17

引证文献5

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于时空相关度融合的语音唇动一致性检测算法 被引量：5

参考文献18

二级参考文献42

共引文献45

同被引文献17

引证文献5

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于时空相关度融合的语音唇动一致性检测算法被引量：5