时间动作检测是视频理解领域中具有挑战性的任务。先前的时间动作检测模型主要关注视频帧的分类,而忽略视频帧之间的时序关系,导致时间动作检测模型的性能下降。为此,提出融合时序关系和上下文信息的时间动作检测方法(temporal action d...时间动作检测是视频理解领域中具有挑战性的任务。先前的时间动作检测模型主要关注视频帧的分类,而忽略视频帧之间的时序关系,导致时间动作检测模型的性能下降。为此,提出融合时序关系和上下文信息的时间动作检测方法(temporal action detection based on enhanced temporal relationship and context information,ETRD)。首先,设计了基于增强局部时序关系注意力机制的全局特征编码器,关注相邻帧的时序关系;其次,构建基于上下文信息的时序特征增强模块,融合上下文信息;最后,通过头部输出分类和回归结果。实验结果表明,所提出的ETRD模型在THUMOS14和ActivityNet1.3数据集上的平均mAP(mean average precision,平均精度均值)分别达到了67.5%和36.0%。相比于Actionformer模型的66.8%和35.6%,ETRD模型的平均mAP分别提升了0.7%和0.4%。利用视觉传感器,所提出的模型可检测出行为类别和持续时间。同时,结合心率等生理信号,可实现个体健康状态管理,为远程医疗、智能监控等提供了一种解决方案。展开更多
针对工业生产流水线中工件识别速度慢、精度低的问题,提出1种基于改进YOLOv5(You Only Look Once v5)的工件识别方法,称为YOLO_Meta。对YOLOv5原有的网络架构进行多个阶段的调整,包括利用双路注意力机制模块和深度可分离卷积改进主干特...针对工业生产流水线中工件识别速度慢、精度低的问题,提出1种基于改进YOLOv5(You Only Look Once v5)的工件识别方法,称为YOLO_Meta。对YOLOv5原有的网络架构进行多个阶段的调整,包括利用双路注意力机制模块和深度可分离卷积改进主干特征提取网络,可以更全面地提取特征;引入1种新型解耦头增强模型对各层级特征图的利用效率;利用聚类算法计算随机锚框相似度,对先验框进行过滤以及加入标签平滑算法等。基于MS COCO数据集和自制工件数据集进行实验并根据模型深度和宽度将模型分为大、中、小3款。实验结果表明:在MS COCO数据集上,大、中、小3款模型对比原模型的AP分别提高了3.4%、1.8%、6.9%。在自制工件数据集上,大模型对比原模型mAP提高了19.1%,F1分数提高了15.2%。文章提出的YOLO_Meta模型与原始模型相比,无论是稳定性还是准确率都有很大的提升,可为工件检测任务提供参考。展开更多
随着社交媒体的发展,越来越多的人在社交平台上发表对热点话题的看法,其中讽刺手法的运用严重影响了社交媒体中情感分析的精度。目前面向话题的讽刺识别研究未同时考虑上下文和常识知识的作用,也忽略了在同一个话题下进行讽刺识别的场...随着社交媒体的发展,越来越多的人在社交平台上发表对热点话题的看法,其中讽刺手法的运用严重影响了社交媒体中情感分析的精度。目前面向话题的讽刺识别研究未同时考虑上下文和常识知识的作用,也忽略了在同一个话题下进行讽刺识别的场景。为此,提出了基于上下文和常识的讽刺识别模型(Sarcasm Detection with Context and Common Sense,CCSD)。首先,模型使用C 3 KG常识库生成常识文本,并将目标句、话题上下文和常识文本作为预训练BERT模型的输入。其次,使用注意力机制来关注目标句和常识中重要的信息。最后,通过门控机制和特征融合,实现讽刺识别。文中构建了一个面向话题的讽刺识别数据集,以验证模型在特定话题中的有效性。实验结果表明,相比基线模型,新模型的性能更优。展开更多
针对三维重建对细小特征及边缘区域重建欠佳的问题,提出了一个基于特征对齐与上下文引导的多视图三维重建网络,即AGA-MVSNet。首先,构建了一个特征对齐模块(FA)与特征选择模块(FS),能够将特征金字塔不同层级的特征先对齐之后再进行融合...针对三维重建对细小特征及边缘区域重建欠佳的问题,提出了一个基于特征对齐与上下文引导的多视图三维重建网络,即AGA-MVSNet。首先,构建了一个特征对齐模块(FA)与特征选择模块(FS),能够将特征金字塔不同层级的特征先对齐之后再进行融合,提高对小尺寸物体和边缘区域的特征提取能力;然后,在代价体正则化中加入了一个上下文引导模块,该模块能够在略微增加运行内存的情况下充分利用周围信息,增强成本体积之间的相关性,提高三维重建的精度与完整度;最后,在DTU数据集上进行了实验,实验结果表明,该方法相比于基准网络CasMVSNet精度提升了2.2%,整体重建质量提升了2.5%。此外,在Tanks and Temples数据集上的表现相较一些已知的方法也十分优异,且在BlendedMVS数据集上也生成了不错的点云效果。展开更多
文摘时间动作检测是视频理解领域中具有挑战性的任务。先前的时间动作检测模型主要关注视频帧的分类,而忽略视频帧之间的时序关系,导致时间动作检测模型的性能下降。为此,提出融合时序关系和上下文信息的时间动作检测方法(temporal action detection based on enhanced temporal relationship and context information,ETRD)。首先,设计了基于增强局部时序关系注意力机制的全局特征编码器,关注相邻帧的时序关系;其次,构建基于上下文信息的时序特征增强模块,融合上下文信息;最后,通过头部输出分类和回归结果。实验结果表明,所提出的ETRD模型在THUMOS14和ActivityNet1.3数据集上的平均mAP(mean average precision,平均精度均值)分别达到了67.5%和36.0%。相比于Actionformer模型的66.8%和35.6%,ETRD模型的平均mAP分别提升了0.7%和0.4%。利用视觉传感器,所提出的模型可检测出行为类别和持续时间。同时,结合心率等生理信号,可实现个体健康状态管理,为远程医疗、智能监控等提供了一种解决方案。
文摘针对工业生产流水线中工件识别速度慢、精度低的问题,提出1种基于改进YOLOv5(You Only Look Once v5)的工件识别方法,称为YOLO_Meta。对YOLOv5原有的网络架构进行多个阶段的调整,包括利用双路注意力机制模块和深度可分离卷积改进主干特征提取网络,可以更全面地提取特征;引入1种新型解耦头增强模型对各层级特征图的利用效率;利用聚类算法计算随机锚框相似度,对先验框进行过滤以及加入标签平滑算法等。基于MS COCO数据集和自制工件数据集进行实验并根据模型深度和宽度将模型分为大、中、小3款。实验结果表明:在MS COCO数据集上,大、中、小3款模型对比原模型的AP分别提高了3.4%、1.8%、6.9%。在自制工件数据集上,大模型对比原模型mAP提高了19.1%,F1分数提高了15.2%。文章提出的YOLO_Meta模型与原始模型相比,无论是稳定性还是准确率都有很大的提升,可为工件检测任务提供参考。
文摘随着社交媒体的发展,越来越多的人在社交平台上发表对热点话题的看法,其中讽刺手法的运用严重影响了社交媒体中情感分析的精度。目前面向话题的讽刺识别研究未同时考虑上下文和常识知识的作用,也忽略了在同一个话题下进行讽刺识别的场景。为此,提出了基于上下文和常识的讽刺识别模型(Sarcasm Detection with Context and Common Sense,CCSD)。首先,模型使用C 3 KG常识库生成常识文本,并将目标句、话题上下文和常识文本作为预训练BERT模型的输入。其次,使用注意力机制来关注目标句和常识中重要的信息。最后,通过门控机制和特征融合,实现讽刺识别。文中构建了一个面向话题的讽刺识别数据集,以验证模型在特定话题中的有效性。实验结果表明,相比基线模型,新模型的性能更优。
文摘针对三维重建对细小特征及边缘区域重建欠佳的问题,提出了一个基于特征对齐与上下文引导的多视图三维重建网络,即AGA-MVSNet。首先,构建了一个特征对齐模块(FA)与特征选择模块(FS),能够将特征金字塔不同层级的特征先对齐之后再进行融合,提高对小尺寸物体和边缘区域的特征提取能力;然后,在代价体正则化中加入了一个上下文引导模块,该模块能够在略微增加运行内存的情况下充分利用周围信息,增强成本体积之间的相关性,提高三维重建的精度与完整度;最后,在DTU数据集上进行了实验,实验结果表明,该方法相比于基准网络CasMVSNet精度提升了2.2%,整体重建质量提升了2.5%。此外,在Tanks and Temples数据集上的表现相较一些已知的方法也十分优异,且在BlendedMVS数据集上也生成了不错的点云效果。