摘要
在视觉语音识别(Visual Speech Recognition,VSR)研究领域,已有的研究表明,基于正面的视图语音识别率是非常高的。而用于视觉研究的额叶面语料库很少。一方面,研究者从非正面视图(尤其是大角度)尝试提高视觉语音的识别效率;另一方面,研究者试图找到解决在现实场景下难以获取正面视图而从非正面视图进行重构正面视图的方法。本文就是基于第二种方案,基于生成对抗网络(GAN)强大的图像生成能力,对多角度视觉库中唇部进行正面视图重建。本文模型采用了U-Net网络结构,添加身份一致性损失Lid,在重构正面唇形的同时,保留了身份特征。
出处
《网络安全技术与应用》
2021年第8期28-30,共3页
Network Security Technology & Application