基于Vision Transformer的中文唇语识别被引量：2

Chinese Lipreading Network Based on Vision Transformer

下载PDF

导出

摘要唇语识别作为一种将唇读视频转换为文本的多模态任务,旨在理解说话者在无声情况下表达的意思.目前唇语识别主要利用卷积神经网络提取唇部视觉特征,捕获短距离像素关系,难以区分相似发音字符的唇形.为了捕获视频图像中唇部区域像素之间的长距离关系,文中提出基于Vision Transformer(ViT)的端到端中文句子级唇语识别模型,融合ViT和门控循环单元(Gate Recurrent Unit,GRU),提高对嘴唇视频的视觉时空特征提取能力.具体地,首先使用ViT的自注意力模块提取嘴唇图像的全局空间特征,再通过GRU对帧序列时序建模,最后使用基于注意力机制的级联序列到序列模型实现对拼音和汉字语句的预测.在中文唇语识别数据集CMLR上的实验表明,文中模型的汉字错误率较低. Lipreading is a multimodal task to convert lipreading videos into text,and it is intended to understand the meaning expressed by a speaker in the absence of sound.In the existing lipreading methods,convolutional neural networks are adopted to extract visual features of the lips and capture short-distance pixel relationships,resulting in difficulties in distinguishing lip shapes of similarly pronounced characters.To capture the long-distance relationship between pixels in the lip region of the video images,an end-to-end Chinese sentence-level lipreading model based on vision transformer(ViT)is proposed.The ability of the model to extract visual spatio-temporal features from lip videos is improved by fusing ViT and Gate Recurrent Unit(GRU).Firstly,the global spatial features of lip images are extracted using the self-attention module of ViT.Then,GRU is employed to model the temporal sequence of frames.Finally,the cascading sequence-to-sequence model based on the attention mechanism is utilized to predict Chinese pinyin and Chinese character utterances.Experimental results on Chinese lipreading dataset CMLR show that the proposed model produces a lower Chinese character error rate.

作者薛峰洪自坤李书杰李雨谢胤岑 XUE Feng;HONG Zikun;LI Shujie;LI Yu;XIE Yincen(School of Software,Hefei University of Technology,Hefei 230601;School of Computer Science and Information Engineering,Hefei University of Technology,Hefei 230601)

机构地区合肥工业大学软件学院合肥工业大学计算机与信息学院

出处《模式识别与人工智能》 EI CSCD 北大核心 2022年第12期1111-1121,共11页 Pattern Recognition and Artificial Intelligence

基金国家自然科学基金项目(No.62272143) 安徽高校协同创新项目(No.GXXT-2022-054) 安徽省重大科技专项项目(No.202203a05020025) 安徽省第七届创新创业人才特殊支持计划资助。

关键词唇语识别 Vision Transformer(ViT) 深度神经网络编解码器注意力机制特征提取 Lipreading Vision Transformer(ViT) Deep Neural Network Encoder-Decoder Attention Mechanism Feature Extraction

分类号 TP391.41 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

同被引文献6

1陈学磊,张品,权令伟,易超,鹿存跃.融合深度学习与成像模型的水下图像增强算法[J].计算机工程,2022,48(2):243-249. 被引量：8
2田永林,王雨桐,王建功,王晓,王飞跃.视觉Transformer研究的关键问题:现状及展望[J].自动化学报,2022,48(4):957-979. 被引量：62
3蔡达,范保杰.基于空间特征选择的水下目标检测方法[J].信息与控制,2022,51(2):214-222. 被引量：4
4张玉朋,李香菊,李超,赵中英.基于Transformer与异质图神经网络的新闻推荐模型[J].模式识别与人工智能,2022,35(9):839-848. 被引量：3
5牛玉贞,林晓锋,许煌标,李悦洲,陈羽中.基于Transformer的多尺度优化低照度图像增强网络[J].模式识别与人工智能,2023,36(6):511-529. 被引量：1
6王科平,左鑫浩,杨艺,费树岷.基于伪全局Swin Transformer的遥感图像识别算法[J].模式识别与人工智能,2023,36(9):818-831. 被引量：2

引证文献2

1丛晓峰,桂杰,贺磊,章军.基于视觉多头注意力与跨层白化的水下图像增强网络[J].模式识别与人工智能,2023,36(5):407-418. 被引量：1
2杨珍妹,李华锋,张亚飞.面向高动态范围成像的内容恢复和鬼影抑制网络[J].模式识别与人工智能,2024,37(4):313-327.

二级引证文献1

1程健,宋泽龙,李昊,马永壮,李和平,孙大智.煤矿井下图像的双分支耦合Transformer网络增强方法[J].煤炭学报,2024,49(9):4027-4037.

1王喜艳.媒介文化传播发展的视觉化转向[J].新媒体研究,2020,6(3):83-84. 被引量：1
2叶洪源,张雷.克拉茨数学问题与智能视觉时空数据应用[J].华东科技,2021(3):62-65.
3黎明.一种基于视频的篮球运动员能力评估方法[J].微型电脑应用,2022,38(6):8-12.
4何靖.抗击疫情与中国国家形象设计的媒介建构——基于10本时政期刊抗疫主题封面设计的研究[J].编辑之友,2021(12):89-95.
5杨茂,彭天,苏欣.基于预测信息二维坐标动态划分的风电集群功率超短期预测[J].中国电机工程学报,2022,42(24):8854-8863. 被引量：12
6廖涛,陈彦杰,张顺香.融合字词特征的BiGRU-CRF中文事件要素识别[J].阜阳师范大学学报（自然科学版）,2022,39(4):50-55. 被引量：1
7张应辉.基于Attention-GRU模型的城市燃气用气负荷预测[J].油气储运,2022,41(11):1349-1354. 被引量：5
8张龙,黄婧,吴荣真,宋成洋,王朝兵.齿轮性能退化评估的时序重构模型[J].机械科学与技术,2022,41(12):1860-1868.
9曾瑞林,王冠,王潇宇,阎小涛,陈海宝.火箭喷管极性自动化测试系统的改进设计研究[J].宇航总体技术,2022,6(6):52-61. 被引量：2
10庞稀廉,龙科军.基于两级分解和GRU-AT网络的短时交通流预测模型[J].科学技术与工程,2022,22(35):15792-15801. 被引量：2

模式识别与人工智能

2022年第12期

浏览历史

内容加载中请稍等...

基于Vision Transformer的中文唇语识别被引量：2

同被引文献6

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于Vision Transformer的中文唇语识别 被引量：2

同被引文献6

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于Vision Transformer的中文唇语识别被引量：2