人脸特征蕴含诸多信息,在面部属性和情感分析任务中具有重要价值,而面部特征的多样性和复杂性使人脸分析任务变得困难。针对上述难题,从面部细粒度特征角度出发,提出基于上下文通道注意力机制的人脸属性估计和表情识别(FAER)模型。首先...人脸特征蕴含诸多信息,在面部属性和情感分析任务中具有重要价值,而面部特征的多样性和复杂性使人脸分析任务变得困难。针对上述难题,从面部细粒度特征角度出发,提出基于上下文通道注意力机制的人脸属性估计和表情识别(FAER)模型。首先,构建基于ConvNext的局部特征编码骨干网络,并运用骨干网络编码局部特征的有效性来充分表征人脸局部特征之间的差异性;其次,提出上下文通道注意力(CC Attention)机制,通过动态自适应调整特征通道上的权重信息,表征深度特征的全局和局部特征,从而弥补骨干网络编码全局特征能力的不足;最后,设计不同分类策略,针对人脸属性估计(FAE)和面部表情识别(FER)任务,分别采用不同损失函数组合,以促使模型学习更多的面部细粒度特征。实验结果表明,所提FAER模型在人脸属性数据集CelebA(CelebFaces Attributes)上取得了91.87%的平均准确率,相较于次优模型SwinFace(Swin transformer for Face)高出0.55个百分点;在面部表情数据集RAF-DB和AffectNet上分别取得了91.75%和66.66%的准确率,相较于次优模型TransFER(Transformers for Facial Expression Recognition)分别高出0.84和0.43个百分点。展开更多
时间动作检测是视频理解领域中具有挑战性的任务。先前的时间动作检测模型主要关注视频帧的分类,而忽略视频帧之间的时序关系,导致时间动作检测模型的性能下降。为此,提出融合时序关系和上下文信息的时间动作检测方法(temporal action d...时间动作检测是视频理解领域中具有挑战性的任务。先前的时间动作检测模型主要关注视频帧的分类,而忽略视频帧之间的时序关系,导致时间动作检测模型的性能下降。为此,提出融合时序关系和上下文信息的时间动作检测方法(temporal action detection based on enhanced temporal relationship and context information,ETRD)。首先,设计了基于增强局部时序关系注意力机制的全局特征编码器,关注相邻帧的时序关系;其次,构建基于上下文信息的时序特征增强模块,融合上下文信息;最后,通过头部输出分类和回归结果。实验结果表明,所提出的ETRD模型在THUMOS14和ActivityNet1.3数据集上的平均mAP(mean average precision,平均精度均值)分别达到了67.5%和36.0%。相比于Actionformer模型的66.8%和35.6%,ETRD模型的平均mAP分别提升了0.7%和0.4%。利用视觉传感器,所提出的模型可检测出行为类别和持续时间。同时,结合心率等生理信号,可实现个体健康状态管理,为远程医疗、智能监控等提供了一种解决方案。展开更多
为实现智能家居环境下多菜品的智能识别,提出了基于改进YOLOv7的轻量级多菜品识别方法(lightweight multi-dish recognition method based on improved YOLOv7,LMDRMIYOLO)。首先,构建中式菜品检测数据集CNF228作为细粒度菜品识别研究对...为实现智能家居环境下多菜品的智能识别,提出了基于改进YOLOv7的轻量级多菜品识别方法(lightweight multi-dish recognition method based on improved YOLOv7,LMDRMIYOLO)。首先,构建中式菜品检测数据集CNF228作为细粒度菜品识别研究对象;其次,针对菜品数据集样本少、多样性不足导致的模型性能上限过低的难题,使用多种数据增强方法以正则化数据、提高模型泛化性;再次,针对菜品识别对精度和实时性的平衡需求,提出基于简单聚合层和混合卷积注意力机制的轻量级骨干网络ECNet;最后,在CNF228数据集上测试表明,LMDRMIYOLO的mAP@0.5:0.95、识别速度和参数量分别为82.8%、164FPS、27.5M。相比YOLOv7的82.6%、133FPS、37.7M而言,所提模型实时性提升、参数量减少且提升了平均精度。本文方法为自动感知居民日常饮食记录提供了智能方法。展开更多
文摘人脸特征蕴含诸多信息,在面部属性和情感分析任务中具有重要价值,而面部特征的多样性和复杂性使人脸分析任务变得困难。针对上述难题,从面部细粒度特征角度出发,提出基于上下文通道注意力机制的人脸属性估计和表情识别(FAER)模型。首先,构建基于ConvNext的局部特征编码骨干网络,并运用骨干网络编码局部特征的有效性来充分表征人脸局部特征之间的差异性;其次,提出上下文通道注意力(CC Attention)机制,通过动态自适应调整特征通道上的权重信息,表征深度特征的全局和局部特征,从而弥补骨干网络编码全局特征能力的不足;最后,设计不同分类策略,针对人脸属性估计(FAE)和面部表情识别(FER)任务,分别采用不同损失函数组合,以促使模型学习更多的面部细粒度特征。实验结果表明,所提FAER模型在人脸属性数据集CelebA(CelebFaces Attributes)上取得了91.87%的平均准确率,相较于次优模型SwinFace(Swin transformer for Face)高出0.55个百分点;在面部表情数据集RAF-DB和AffectNet上分别取得了91.75%和66.66%的准确率,相较于次优模型TransFER(Transformers for Facial Expression Recognition)分别高出0.84和0.43个百分点。
文摘时间动作检测是视频理解领域中具有挑战性的任务。先前的时间动作检测模型主要关注视频帧的分类,而忽略视频帧之间的时序关系,导致时间动作检测模型的性能下降。为此,提出融合时序关系和上下文信息的时间动作检测方法(temporal action detection based on enhanced temporal relationship and context information,ETRD)。首先,设计了基于增强局部时序关系注意力机制的全局特征编码器,关注相邻帧的时序关系;其次,构建基于上下文信息的时序特征增强模块,融合上下文信息;最后,通过头部输出分类和回归结果。实验结果表明,所提出的ETRD模型在THUMOS14和ActivityNet1.3数据集上的平均mAP(mean average precision,平均精度均值)分别达到了67.5%和36.0%。相比于Actionformer模型的66.8%和35.6%,ETRD模型的平均mAP分别提升了0.7%和0.4%。利用视觉传感器,所提出的模型可检测出行为类别和持续时间。同时,结合心率等生理信号,可实现个体健康状态管理,为远程医疗、智能监控等提供了一种解决方案。
文摘为实现智能家居环境下多菜品的智能识别,提出了基于改进YOLOv7的轻量级多菜品识别方法(lightweight multi-dish recognition method based on improved YOLOv7,LMDRMIYOLO)。首先,构建中式菜品检测数据集CNF228作为细粒度菜品识别研究对象;其次,针对菜品数据集样本少、多样性不足导致的模型性能上限过低的难题,使用多种数据增强方法以正则化数据、提高模型泛化性;再次,针对菜品识别对精度和实时性的平衡需求,提出基于简单聚合层和混合卷积注意力机制的轻量级骨干网络ECNet;最后,在CNF228数据集上测试表明,LMDRMIYOLO的mAP@0.5:0.95、识别速度和参数量分别为82.8%、164FPS、27.5M。相比YOLOv7的82.6%、133FPS、37.7M而言,所提模型实时性提升、参数量减少且提升了平均精度。本文方法为自动感知居民日常饮食记录提供了智能方法。