检索结果-维普期刊中文期刊服务平台

期刊文献⁺

任意字段

题名或关键词

题名

关键词

文摘

作者

第一作者

机构

刊名

分类号

参考文献

作者简介

基金资助

栏目信息

共找到2篇文章

< 1 >

每页显示 20 50 100

已选择0条

导出题录引用分析

统计分析

显示方式：

文摘详细列表

相关度排序被引量排序时效性排序

基于多重视觉注意力的唇语识别: 1; 作者谢胤岑薛峰曹明伟《模式识别与人工智能》 EI CSCD 北大核心 2024年第1期73-84,共12页; 唇语识别是将单个说话人嘴唇运动的无声视频翻译成文字的一种技术.由于嘴唇运动幅度较小,现有唇语识别方法的特征区分能力和泛化能力都较差.针对该问题,文中分别从时间、空间和通道三个维度研究唇语视觉特征的提纯问题,提出基于多重视... 展开更多; 关键词唇语识别视觉语音识别注意力机制深度神经网络特征提取; 下载PDF 职称材料

基于Vision Transformer的中文唇语识别被引量：2: 2; 作者薛峰洪自坤 +2 位作者李书杰李雨谢胤岑《模式识别与人工智能》 EI CSCD 北大核心 2022年第12期1111-1121,共11页; 唇语识别作为一种将唇读视频转换为文本的多模态任务,旨在理解说话者在无声情况下表达的意思.目前唇语识别主要利用卷积神经网络提取唇部视觉特征,捕获短距离像素关系,难以区分相似发音字符的唇形.为了捕获视频图像中唇部区域像素之间... 展开更多; 关键词唇语识别 Vision Transformer(ViT) 深度神经网络编解码器注意力机制特征提取; 下载PDF 职称材料

已选择0条

导出题录引用分析

统计分析

上一页 1 下一页到第页

使用帮助返回顶部