基于生成对抗网络的唇形重建改进方法

导出

摘要在视觉语音识别(Visual Speech Recognition,VSR)研究领域,已有的研究表明,基于正面的视图语音识别率是非常高的。而用于视觉研究的额叶面语料库很少。一方面,研究者从非正面视图(尤其是大角度)尝试提高视觉语音的识别效率;另一方面,研究者试图找到解决在现实场景下难以获取正面视图而从非正面视图进行重构正面视图的方法。本文就是基于第二种方案,基于生成对抗网络(GAN)强大的图像生成能力,对多角度视觉库中唇部进行正面视图重建。本文模型采用了U-Net网络结构,添加身份一致性损失Lid,在重构正面唇形的同时,保留了身份特征。

作者毛志炜朱铮宇

机构地区广东技术师范大学电子与信息学院

出处《网络安全技术与应用》 2021年第8期28-30,共3页 Network Security Technology & Application

关键词视觉语音识别(VSR) GAN U-Net 图像重建身份损失

分类号 TP391.41 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

1黎小巨,陈洵凛,殷素峰,吴柏霖,谢小鹏.自平衡机器人视觉语音双重引导运动控制研究[J].组合机床与自动化加工技术,2020(10):131-135. 被引量：2
2尹静波.浅谈口腔癌诊治[J].癌症康复,2021(3):23-25.
3包和娟.口腔癌患源性延迟诊断的影响因素分析[J].临床口腔医学杂志,2021,37(7):423-427. 被引量：2
4岑晓娟,王颖,周荷益,刘唯一,周琳,盘瑶.口红持久度评价体系的建立[J].日用化学工业,2021,51(8):748-753.
5牛彪彪,翟梦怡,李扬.塞舌尔角毛藻的形态学再描述和分子系统学分析[J].热带海洋学报,2021,40(4):44-49.
6刘继展,侯广宇.语音技术在农业智能化中的应用展望[J].江苏大学学报（自然科学版）,2021,42(5):540-545. 被引量：2
7杜志浩,韩纪庆.基于听觉掩蔽生成对抗网络的单通道语音增强方法[J].智能计算机与应用,2021,11(3):209-214. 被引量：1

网络安全技术与应用

2021年第8期

浏览历史

内容加载中请稍等...

基于生成对抗网络的唇形重建改进方法

相关作者

相关机构

相关主题

浏览历史