期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
基于时空Transformer的端到端的视频注视目标检测
1
作者 彭梦昊 王冠 +1 位作者 徐浩 景圣恩 《图像与信号处理》 2024年第2期190-209,共20页
注视目标检测旨在定位人的注视目标。HGTTR的提出,将Transformer结构用于注视目标检测的任务中,解决了卷积神经网络需要额外的头部探测器的问题,实现了端到端的对头部位置和注视目标的同时检测,并且实现了优于传统的卷积神经网络的性能... 注视目标检测旨在定位人的注视目标。HGTTR的提出,将Transformer结构用于注视目标检测的任务中,解决了卷积神经网络需要额外的头部探测器的问题,实现了端到端的对头部位置和注视目标的同时检测,并且实现了优于传统的卷积神经网络的性能。然而,目前的方法在视频数据集上的性能还有较大提升空间。原因在于,当前的方法侧重于在单个视频帧中学习人的注视目标,没有对视频中的时间变化进行建模,所以无法解决动态注视、镜头失焦、运动模糊等问题。当一个人的注视目标在不断的发生变化时,缺乏时间变化建模可能会导致定位注视目标偏离人的真实注视目标。并且由于缺乏对于时间维度上的建模,模型无法解决因为镜头失焦和运动模糊等问题所导致的特征缺失。在这项工作当中,我们提出了一种基于时空Transformer的端到端的视频注视目标检测模型。首先,我们提出帧间局部可变形注意力机制,用于处理特征缺失的问题。其次,我们在可变形注意力机制的基础上,提出帧间可变形注意力机制,利用相邻视频帧的时序差异,动态选择采样点,从而实现对于动态注视的建模。最后,我们提出了时序Transformer来聚合由当前帧和参考帧的注视关系查询向量和注视关系特征。我们的时序Transformer包含三个部分:用于编码多帧空间信息的时序注视关系特征编码器,用于融合注视关系查询的时序注视关系查询编码器以及用于获取当前帧检测结果的时序注视关系解码器。通过对于单个帧空间、相邻帧间以及帧序列三个维度的时空建模,很好的解决了视频数据中常见的动态注视、镜头失焦、运动模糊等问题。大量实验证明,我们的方法在VideoAttentionTarget和VideoCoAtt两个数据集上均取得了较为优异的性能。 展开更多
关键词 注视目标检测 TRANSFORMER 可变形注意力 时序变化建模
下载PDF
基于层次化Conformer的语音合成
2
作者 吴克伟 韩超 +2 位作者 孙永宣 彭梦昊 谢昭 《计算机科学》 CSCD 北大核心 2024年第2期161-171,共11页
语音合成需要将输入语句的文本转换为包含音素、单词和语句的语音信号。现有语音合成方法将语句看作一个整体,难以准确地合成出不同长度的语音信号。通过分析语音信号中蕴含的层次化关系,分别设计基于Conformer的层次化文本编码器和基于... 语音合成需要将输入语句的文本转换为包含音素、单词和语句的语音信号。现有语音合成方法将语句看作一个整体,难以准确地合成出不同长度的语音信号。通过分析语音信号中蕴含的层次化关系,分别设计基于Conformer的层次化文本编码器和基于Conformer的层次化语音编码器,并提出了一种基于层次化文本-语音Conformer的语音合成模型。首先,该模型根据输入文本信号的长度,构建层次化文本编码器,包括音素级、单词级、语句级文本编码器3个层次,不同层次的文本编码器描述不同长度的文本信息;并使用Conformer的注意力机制来学习该长度信号中不同时间特征之间的关系。利用层次化的文本编码器,能够找出语句中不同长度需要强调的信息,有效实现不同长度的文本特征提取,缓解合成的语音信号持续时间长度不确定的问题。其次,层次化语音编码器包括音素级、单词级、语句级语音编码器3个层次。每个层次的语音编码器将文本特征作为Conformer的查询向量,将语音特征作为Conformer的关键字向量和值向量,来提取文本特征和语音特征的匹配关系。利用层次化的语音编码器和文本语音匹配关系,可以缓解不同长度语音信号合成不准确的问题。所提模型的层次化文本-语音编码器可以灵活地嵌入现有的多种解码器中,通过文本和语音之间的互补,提供更为可靠的语音合成结果。在LJSpeech和LibriTTS两个数据集上进行实验验证,实验结果表明,所提方法的梅尔倒谱失真小于现有语音合成方法。 展开更多
关键词 语音合成 文本编码器 语音编码器 层次化模型 CONFORMER
下载PDF
由粗到精的高保真单目三维人脸重建
3
作者 景圣恩 高添 +3 位作者 陶应诚 彭梦昊 侍亚东 王冠 《计算机科学与应用》 2024年第4期255-267,共13页
针对现有单目三维人脸重建方法在细节刻画和身份信息保持方面的不足,本文提出了一种由粗到精的三维人脸重建框架。该框架首先利用从二维人脸图片中提取的特征参数生成初始三维人脸模型,并设计多尺度身份特征提取器捕获个性化特征。然后... 针对现有单目三维人脸重建方法在细节刻画和身份信息保持方面的不足,本文提出了一种由粗到精的三维人脸重建框架。该框架首先利用从二维人脸图片中提取的特征参数生成初始三维人脸模型,并设计多尺度身份特征提取器捕获个性化特征。然后,通过自适应加权策略筛选对重建任务最具贡献的特征信息。在精细重建阶段,本文关注人脸的几何细节重建,将身份和表情编码融入几何细节生成网络中,以生成具有特定身份和表情信息的几何细节。最后,利用可微分渲染器将三维人脸模型渲染为二维人脸图像,进行自监督训练。在CelebA和AFLW2000-3D数据集上的实验结果表明,本文提出的框架能够从单幅图像中重建出更加真实、自然且具有高度个性化特征的三维人脸模型,在细节刻画和身份信息保持方面均优于现有方法,具有广阔的应用前景。 展开更多
关键词 三维人脸重建 三维形变模型 自监督学习 人脸渲染
下载PDF
基于时空采样的视频行为识别
4
作者 王冠 彭梦昊 +2 位作者 陶应诚 徐浩 景圣恩 《人工智能与机器人研究》 2024年第2期300-312,共13页
视频特征包含了行为执行时的时间、空间冗余信息。该信息和行为类别无关,会干扰行为识别,造成行为类别的错误判断。本文提出了一种基于时空采样的视频行为识别模型。模型包括关键帧采样和Token采样的视频Transformer。关键帧采样过程,... 视频特征包含了行为执行时的时间、空间冗余信息。该信息和行为类别无关,会干扰行为识别,造成行为类别的错误判断。本文提出了一种基于时空采样的视频行为识别模型。模型包括关键帧采样和Token采样的视频Transformer。关键帧采样过程,通过量化相邻帧间的像素差异,识别出包含显著变化的关键帧,累积多个连续帧的更新概率处理两个关键帧间的可能存在的长时间间隔,引入一个可训练的采样概率阈值从而将更新概率二值化,增强对于关键帧的建模能力。因此该过程保证了视频关键信息的获取。本文认为不同的Token对识别任务的重要性会有所不同,因此在时空Transformer块中,本文采用一种数据依赖的Token采样策略,通过分层减少Token的数量有效降低空间冗余信息,同时也减少了模型计算量。最终通过全连接层完成视频行为识别。实验在ActivityNet-v1.3、Mini-Kinetics数据集上进行验证。实验表明,本文基于时空采样的视频行为识别方法,具有较小计算量的同时,能够达到现有行为识别方法的准确率。 展开更多
关键词 视频行为识别 时空采样 视频Transformer
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部