期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
基于全局金字塔和注意力机制的双流网络结构 被引量:3
1
作者 岳帆 谭勇 +3 位作者 黄仕建 侯怡冉 陈清明 马欢 《信息技术与信息化》 2023年第3期188-192,共5页
人体行为识别是计算机视觉中最具吸引力和实践性的研究领域之一,近年来,双流卷积神经网络因其可以同时捕获行为的空间信息和运动信息来进行人体行为的识别而越发的流行。然而,现有的基于双流卷积神经网络的行为识别方法的卷积方式无法... 人体行为识别是计算机视觉中最具吸引力和实践性的研究领域之一,近年来,双流卷积神经网络因其可以同时捕获行为的空间信息和运动信息来进行人体行为的识别而越发的流行。然而,现有的基于双流卷积神经网络的行为识别方法的卷积方式无法全面的捕获相邻光流帧之间的运动信息和边缘的表观信息。为了解决这一问题,提出了一种利用全局特征金字塔和空间注意模块的来识别人类行为的双流网络结构。首先,在时间流提出了一个主要由卷积编码器和全局多头自注意(global multi-head self attention,GMSA)机制组成的全局特征金字塔结构.较小的卷积核在早期阶段捕获低维度特性,而较大的卷积核在卷积编码器后捕获其高维特性。而全局多头注意力则捕获全局的运动信息。其次,设计了一个空间注意模块。通过使用平均池化操作来聚合特征映射的空间信息来生成一维映射来表示空间上的平均合并特征,然后经过3*3的卷积核进行卷积来对RGB图像的边缘表观信息进行提取。最后,利用长短期记忆(long short-term memory,LSTM)来提取密集光流中的时间序列信息。在数据集UCF101、HMDB51上进行实验,实验表明,与其它基于深度学习的方法相比,具有一定的优势。 展开更多
关键词 人体行为识别 双流网络 卷积编码器 全局多头自注意机制 空间注意力模块
下载PDF
基于特征加权与自动交互的点击率预测模型
2
作者 陈海青 蔡江辉 +1 位作者 杨海峰 贺艳婷 《计算机技术与发展》 2023年第11期196-201,共6页
在大数据时代的点击率(Click-Through Rate,CTR)预测任务中,输入数据不仅数量多而且特征维度很高,在特征选择时容易出现信息干扰或丢失,在进行特征交互时不同的交互方式也会影响预测性能。针对该问题,文中提出了一种基于特征加权与自动... 在大数据时代的点击率(Click-Through Rate,CTR)预测任务中,输入数据不仅数量多而且特征维度很高,在特征选择时容易出现信息干扰或丢失,在进行特征交互时不同的交互方式也会影响预测性能。针对该问题,文中提出了一种基于特征加权与自动交互的预测模型,用于学习原始特征权重并进行自动交互。首先,引入ECANet模块提出一种不降维的特征加权方法,该方法可以通过对k个相邻特征进行一维卷积有效实现。然后,分别用多头自注意网络和深度神经网络(DNN)去自动学习显式和隐式的特征交互。最后,将两者相结合进行预测,弥补了单一模型的缺陷。一方面,它能对输入特征进行重要性选择;另一方面,它能同时以显式和隐式的方式自动学习任意低阶和高阶的特征交互。通过在四个真实数据集上的实验,验证了其比以往的预测模型获得了更好的准确度。 展开更多
关键词 点击率预测 特征交互 特征加权 深度神经网络 多头自注意网络
下载PDF
特征挖掘与区域增强的弱监督时序动作定位
3
作者 王静 王传旭 《计算机应用研究》 CSCD 北大核心 2023年第8期2555-2560,共6页
弱监督时序动作定位旨在定位视频中行为实例的起止边界及识别相应的行为。现有方法尽管取得了很大进展,但依然存在动作定位不完整及短动作的漏检问题。为此,提出了特征挖掘与区域增强(FMRE)的定位方法。首先,通过基础分支计算视频片段... 弱监督时序动作定位旨在定位视频中行为实例的起止边界及识别相应的行为。现有方法尽管取得了很大进展,但依然存在动作定位不完整及短动作的漏检问题。为此,提出了特征挖掘与区域增强(FMRE)的定位方法。首先,通过基础分支计算视频片段之间的相似分数,并以此分数聚合上下文信息,得到更具有区别性的段分类分数,实现动作的完整定位;然后,添加增强分支,对基础分支定位中持续时间较短的动作提案沿时间维度进行动态上采样,进而采用多头自注意机制对动作提案间的时间结构显式建模,促进具有时间依赖关系的动作定位且防止短动作的漏检;最后,在两个分支之间构建伪标签互监督,逐步改进在训练过程中生成动作提案的质量。该算法在THUMOS14和ActivityNet1.3数据集上分别取得了70.3%和40.7%的检测性能,证明了所提算法的有效性。 展开更多
关键词 时序动作定位 逆变换 动态采样 伪标签互监督 多头自注意
下载PDF
Multi-head attention-based long short-term memory model for speech emotion recognition 被引量:1
4
作者 Zhao Yan Zhao Li +3 位作者 Lu Cheng Li Sunan Tang Chuangao Lian Hailun 《Journal of Southeast University(English Edition)》 EI CAS 2022年第2期103-109,共7页
To fully make use of information from different representation subspaces,a multi-head attention-based long short-term memory(LSTM)model is proposed in this study for speech emotion recognition(SER).The proposed model ... To fully make use of information from different representation subspaces,a multi-head attention-based long short-term memory(LSTM)model is proposed in this study for speech emotion recognition(SER).The proposed model uses frame-level features and takes the temporal information of emotion speech as the input of the LSTM layer.Here,a multi-head time-dimension attention(MHTA)layer was employed to linearly project the output of the LSTM layer into different subspaces for the reduced-dimension context vectors.To provide relative vital information from other dimensions,the output of MHTA,the output of feature-dimension attention,and the last time-step output of LSTM were utilized to form multiple context vectors as the input of the fully connected layer.To improve the performance of multiple vectors,feature-dimension attention was employed for the all-time output of the first LSTM layer.The proposed model was evaluated on the eNTERFACE and GEMEP corpora,respectively.The results indicate that the proposed model outperforms LSTM by 14.6%and 10.5%for eNTERFACE and GEMEP,respectively,proving the effectiveness of the proposed model in SER tasks. 展开更多
关键词 speech emotion recognition long short-term memory(LSTM) multi-head attention mechanism frame-level features self-attention
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部