基于音频匹配的藏语驱动视觉语音合成算法研究

Research on Tibetan Driven Visual Speech Synthesis Algorithm Based on Audio Matching

下载PDF

导出

摘要为解决唇部轮廓检测精度较低、视觉语音合成效果不好的问题,提出了基于音频匹配的藏语驱动视觉语音合成算法。该算法从藏语驱动视觉语音信号中提取短时能量和过零率,并建立语音信号的短时自相关函数。首先,提取语音信号中的特征信息,以此获得藏语语音信号的基音轨迹,即音频特征;其次,建立了唇部时空分析模型,分析唇部轮廓在发音过程中变化趋势,采用主成分分析法提取唇部轮廓特征;最后,通过输入输出隐马尔可夫模型获取音频特征与唇部轮廓特征之间的关联,在音频匹配的基础上合成藏语驱动视觉语音。实验结果表明,该方法具有较高的唇部轮廓检测精度,视觉语音合成效果较好。 In order to solve the problems of low lip contour detection accuracy and poor visual speech synthesis effect,a Tibetan-driven visual speech synthesis algorithm based on audio matching is proposed.This algorithm extracts short-term energy and short-term zero-crossing rate from Tibetan-language-driven visual speech signal,establishes short-term autocorrelation function of speech signal,and extracts feature information in speech signal,so as to obtain the pitch track of Tibetan speech signal.Secondly,the temporal and spatial analysis model of lip is established to analyze the changing trend of lip contour in the pronunciation process,and the feature of lip contour is extracted by principal component analysis.Finally,the correlation between audio features and lip contour features is obtained through the input-output hidden Markov model,and Tibetan-driven visual speech is synthesized on the basis of audio matching.Experimental results show that the proposed method has high lip contour detection accuracy and good visual speech synthesis effect.

作者韩西梁凯岳宇 HAN Xi;LIANG Kai;YUE Yu(Ganzi Prefecture Science and Technology Information Research Institute,Kangding 626000,China)

机构地区甘孜州科技信息研究所

出处《吉林大学学报（信息科学版）》 CAS 2024年第3期509-515,共7页 Journal of Jilin University（Information Science Edition）

基金四川省科技计划基金资助项目(2021YFG0138)。

关键词音频匹配短时自相关函数时空分析模型主成分分析法视觉语音合成 audio matching short time autocorrelation function spatiotemporal analysis model principal component analysis method visual speech synthesis

分类号 TP391.42 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献15

1马金林,巩元文,马自萍,陈德光,朱艳彬,刘宇灏.唇语识别的视觉特征提取方法综述[J].计算机科学与探索,2021,15(12):2256-2275. 被引量：2
2丁云涛,才让卓玛,贡保加,才智杰.一种基于WaveNet的藏语语音合成方法[J].计算机仿真,2023,40(1):295-299. 被引量：2
3唐君,张连海,李嘉欣.一种基于改进注意力机制的实时鲁棒语音合成方法[J].信号处理,2022,38(3):527-535. 被引量：1
4刘瑞,康世胤,高光来,李劲东,飞龙.MonTTS:完全非自回归的实时、高保真蒙古语语音合成模型[J].中文信息学报,2022,36(7):86-97. 被引量：4
5汪兰兰,蔡昌新.基于改进线性预测基音频率的语音情感识别系统[J].科学技术与工程,2022,22(26):11524-11532. 被引量：3
6田晖,吴俊彦,严艳,王慧东,全韩彧.基于小数基音延迟相关性的自适应多速率语音流隐写分析[J].计算机学报,2022,45(6):1308-1325. 被引量：1
7邹冠贵,任珂,吉寅,丁建宇,张少敏.基于主成分分析和最近邻算法的断层识别研究[J].煤田地质与勘探,2021,49(4):15-23. 被引量：11
8邵剑飞,浦蓉,黄伟,季建杰,郭鹏.基于相同稀疏模式的稀疏主成分分析算法[J].数据采集与处理,2022,37(5):1084-1091. 被引量：1
9刘晓祥,高二涛,罗益,付波霖.利用主成分分析法分析GNSS坐标时间序列[J].大地测量与地球动力学,2021,41(1):43-48. 被引量：3
10李元,张昊展,唐晓初.基于多模态数据全信息的概率主成分分析故障检测研究[J].仪器仪表学报,2021,42(2):75-85. 被引量：14

二级参考文献75

1荣传振,岳振军,贾永兴,王渊,杨宇.唇语识别关键技术研究进展[J].数据采集与处理,2012,27(S2):277-283. 被引量：4
2丛蓉,王秀坤,李进军,杨南海.基于层次和密度聚类分析的航迹关联算法[J].系统仿真学报,2005,17(4):841-843. 被引量：7
3李永森,杨善林,马溪骏,胡笑旋,陈增明.空间聚类算法中的K值优化问题研究[J].系统仿真学报,2006,18(3):573-576. 被引量：39
4杨沛武,刘飞.PCA和PPCA在化工分离过程监控中的应用比较[J].化工自动化及仪表,2007,34(6):7-11. 被引量：3
5谢晓钢,蔡骏,陈奇川,欧建林.基于Speex语音引擎的VoIP系统设计与实现[J].计算机应用研究,2007,24(12):320-323. 被引量：12
6徐田华,赵红礼,唐涛.基于有色Petri网的ETCS无线通信可靠性分析[J].铁道学报,2008,30(1):38-42. 被引量：28
7董守华,石亚丁,汪洋.地震多参数BP人工神经网络自动识别小断层[J].中国矿业大学学报,1997,26(3):14-18. 被引量：22
8袁林果,丁晓利,陈武,郭志和,陈少彬,洪本善,周锦添.香港GPS基准站坐标序列特征分析[J].地球物理学报,2008,51(5):1372-1384. 被引量：106
9肖应旺.基于WTPCA-MSVMs过程监控方法[J].仪器仪表学报,2010,31(3):558-564. 被引量：9
10田云锋.GPS坐标时间序列中的异常高频周期性噪声[J].测绘科学,2011,36(1):26-28. 被引量：14

共引文献62

1冯立伟,顾欢,孙立文,李元.基于自适应时序窗口加权k近邻的故障检测方法[J].电子测量技术,2023,46(15):178-185. 被引量：1
2吕超,孙佳新,刘爽.利用机器学习算法的海洋渔船捕捞能力影响因素权重分析[J].农业工程学报,2021,37(13):135-141. 被引量：5
3郭金玉,王霞.动态多流形投影算法在统计过程监测中的应用[J].河北科技大学学报,2022,43(1):11-18. 被引量：1
4沈溶溶.基于大数据技术的交互式网络恶意入侵行为检测方法[J].信息与电脑,2022,34(1):35-37. 被引量：7
5赵有兵.GNSS基准实现及其稳定性分析[J].测绘,2021,44(6):256-261.
6蔡永强.基于非法入侵检测的舰船网络安全预警系统[J].舰船科学技术,2022,44(9):158-161.
7王伟平,王琦,于洋,李宁.采用PCA/D-S方法及FUKL融合算法的主轴系统弱故障动态判别与辨识[J].振动工程学报,2022,35(3):771-782.
8孙宏雨,李元.基于模糊C均值与主成分分析的故障检测研究[J].自动化仪表,2022,43(7):79-85. 被引量：2
9张勇刚,范国章,王红平,王朝锋,左国平,杨柳,刘艳红.地震多属性分析技术预测和评价盐下碳酸盐岩储层厚度分布[J].盐湖研究,2022,30(3):72-82. 被引量：4
10谭韶生,夏旭.数据挖掘的船舶通信网络非法入侵智能检测方法[J].舰船科学技术,2022,44(17):144-147. 被引量：1

1曹义东,胡征慧.视觉语音合成技术在身份认证中的应用[J].电脑与信息技术,2023,31(1):31-32.
2邹运.基于移动储能有功时空支撑的配电网空间负荷优化预测模型分析[J].消费电子,2023(12):50-52.
3刘丽,隋金坪,丁丁,赵凌君,匡纲要,盛常冲.深度视觉语音生成研究进展与展望[J].国防科技大学学报,2024,46(2):123-138.
4肖威,方娜,邓心.基于VMD-LSTM-IPSO-GRU的电力负荷预测[J].科学技术与工程,2024,24(16):6734-6741.
5李黎,张二华,唐振民.基于ASA的单声道双人混合语音浊音分离[J].计算机与数字工程,2023,51(12):2918-2923.
6李良钰,苏铁熊,马富康,蒲瑜.EEMD—模糊聚类在共轨系统故障诊断上的应用研究[J].机械设计与制造,2024(6):102-105.
7屠彦辉,霍伟明,高建清,王海坤,马峰,殷兵,王瑞,付中华,樊其锋.基于多模态波束方向特征的多模语音分离及识别[J].人工智能,2024(3):36-44.

吉林大学学报（信息科学版）

2024年第3期

浏览历史

内容加载中请稍等...

基于音频匹配的藏语驱动视觉语音合成算法研究

参考文献15

二级参考文献75

共引文献62

相关作者

相关机构

相关主题

浏览历史