基于多模态融合的端到端中文唇读识别研究

Research on End-to-end Chinese Lip Reading Recognition Based on Multimodal Fusion

下载PDF

导出

摘要为了更好地帮助健全人与听障或语言障碍人士进行交流,构建无障碍社会。构建了一个基于多模态融合的端到端音视频识别系统,实现中文唇语翻译功能。实验结果表明,将所提出的端到端视听语音识别结构体系应用于唇语识别模型,实现了8.0%的字符错误率。与之前的唇语识别模型相比,它在融合图像特征和音频特征方面表现出了良好的性能。 To better help able-bodied people,communicate with hearing-impaired or speech-impaired people,and build a barrier-free society.Constructs an end-to-end audio and video recognition system based on multi-modal fusion to realize the translation function of Chinese lip language.Experimental results show that applying the proposed End-to-end Visual Speech Recognition Structure System to the lip recognition model achieves a character error rate of 8.0%.Compared with previous lip recognition models,it shows good performance in fusing image features and audio features.

作者陈焯辉林绰雅刘奕显王茗琛梁思敏陈灵 Chen Zhuohui;Lin Chuoya;Liu Yixian;Wang Mingchen;Liang Simin;Chen Ling(Macao University of Science and Technology,Macao,China;Beijing Institute of Technology,Zhuhai,Zhuhai,China)

机构地区澳门科技大学北京理工大学珠海学院

出处《科学技术创新》 2023年第10期85-88,共4页 Scientific and Technological Innovation

基金 2022年度广东省大学生创新创业训练项目——基于中文唇语翻译的听障人群无障碍交流系统(S202213675010)。

关键词端到端音视觉语音识别结构体系多模态融合唇语识别 end-to-end visual speech recognition structure system multi-modal fusion lip recognition

分类号 TP391.41 [自动化与计算机技术—计算机应用技术] H126.3 [语言文字—汉语]

引文网络
相关文献

1AI读唇语:“失语者”的说话神器[J].现代阅读,2023(7):10-11.
2熊经文,陈志,倪康,岳文静.基于步态与声纹特征融合的人物身份识别[J].软件导刊,2023,22(4):54-58.
3仲兆满,黄贤波,熊玉龙.基于混合融合的突发事件多模态情感分析[J].江苏海洋大学学报（自然科学版）,2023,32(1):1-8.
4陶志勇,陈露,刘影,郭京.LipSense:基于CSI相位差的自适应唇语识别方法[J].传感技术学报,2023,36(3):419-426. 被引量：1
5张顾瀛,贺光华.基于深度学习通道交换的多模态脑肿瘤图像融合的分割模型[J].理论数学,2023,13(4):976-986.
6吴兰,杨攀,李斌全,王涵.大词汇量环境噪声下的多模态视听语音识别方法[J].广西科学,2023,30(1):52-60. 被引量：3
7胥婧雯,于红,张鹏,谷立帅,李海清,郑国伟,程思奇,殷雷明.基于声音与视觉特征多级融合的鱼类行为识别模型U-FusionNet-ResNet50+SENet[J].大连海洋大学学报,2023,38(2):348-356. 被引量：2
8吕天根,洪日昌,何军,胡社教.多模态引导的局部特征选择小样本学习方法[J].软件学报,2023,34(5):2068-2082. 被引量：4
9盛怀甲.谈多元识读教学法在初中英语阅读教学中的应用[J].学周刊,2023(18):109-111. 被引量：2
10彭大钊,雒林,韩磊.环状RNA翻译能力在胶质瘤中的研究进展[J].中华神经外科杂志,2023,39(4):426-429. 被引量：2

科学技术创新

2023年第10期

浏览历史

内容加载中请稍等...

基于多模态融合的端到端中文唇读识别研究

相关作者

相关机构

相关主题

浏览历史