期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于Vision Transformer的中文唇语识别
被引量:
2
1
作者
薛峰
洪自坤
+2 位作者
李书杰
李雨
谢胤岑
《模式识别与人工智能》
EI
CSCD
北大核心
2022年第12期1111-1121,共11页
唇语识别作为一种将唇读视频转换为文本的多模态任务,旨在理解说话者在无声情况下表达的意思.目前唇语识别主要利用卷积神经网络提取唇部视觉特征,捕获短距离像素关系,难以区分相似发音字符的唇形.为了捕获视频图像中唇部区域像素之间...
唇语识别作为一种将唇读视频转换为文本的多模态任务,旨在理解说话者在无声情况下表达的意思.目前唇语识别主要利用卷积神经网络提取唇部视觉特征,捕获短距离像素关系,难以区分相似发音字符的唇形.为了捕获视频图像中唇部区域像素之间的长距离关系,文中提出基于Vision Transformer(ViT)的端到端中文句子级唇语识别模型,融合ViT和门控循环单元(Gate Recurrent Unit,GRU),提高对嘴唇视频的视觉时空特征提取能力.具体地,首先使用ViT的自注意力模块提取嘴唇图像的全局空间特征,再通过GRU对帧序列时序建模,最后使用基于注意力机制的级联序列到序列模型实现对拼音和汉字语句的预测.在中文唇语识别数据集CMLR上的实验表明,文中模型的汉字错误率较低.
展开更多
关键词
唇语识别
Vision
Transformer(ViT)
深度神经网络
编解码器
注意力机制
特征提取
下载PDF
职称材料
题名
基于Vision Transformer的中文唇语识别
被引量:
2
1
作者
薛峰
洪自坤
李书杰
李雨
谢胤岑
机构
合肥工业大学软件学院
合肥工业大学计算机与信息学院
出处
《模式识别与人工智能》
EI
CSCD
北大核心
2022年第12期1111-1121,共11页
基金
国家自然科学基金项目(No.62272143)
安徽高校协同创新项目(No.GXXT-2022-054)
+1 种基金
安徽省重大科技专项项目(No.202203a05020025)
安徽省第七届创新创业人才特殊支持计划资助。
文摘
唇语识别作为一种将唇读视频转换为文本的多模态任务,旨在理解说话者在无声情况下表达的意思.目前唇语识别主要利用卷积神经网络提取唇部视觉特征,捕获短距离像素关系,难以区分相似发音字符的唇形.为了捕获视频图像中唇部区域像素之间的长距离关系,文中提出基于Vision Transformer(ViT)的端到端中文句子级唇语识别模型,融合ViT和门控循环单元(Gate Recurrent Unit,GRU),提高对嘴唇视频的视觉时空特征提取能力.具体地,首先使用ViT的自注意力模块提取嘴唇图像的全局空间特征,再通过GRU对帧序列时序建模,最后使用基于注意力机制的级联序列到序列模型实现对拼音和汉字语句的预测.在中文唇语识别数据集CMLR上的实验表明,文中模型的汉字错误率较低.
关键词
唇语识别
Vision
Transformer(ViT)
深度神经网络
编解码器
注意力机制
特征提取
Keywords
Lipreading
Vision Transformer(ViT)
Deep Neural Network
Encoder-Decoder
Attention Mechanism
Feature Extraction
分类号
TP391.41 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于Vision Transformer的中文唇语识别
薛峰
洪自坤
李书杰
李雨
谢胤岑
《模式识别与人工智能》
EI
CSCD
北大核心
2022
2
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部