人群数量估计是人群管理系统的关键,对于预防踩踏事故和引导人群至关重要,已成为一个日益重要的任务和具有挑战性的研究方向。本文提出一种数据相关的拆分注意力机制的编码器-解码器结构的人群计数方法,称为DNe StCount。为应对视频监...人群数量估计是人群管理系统的关键,对于预防踩踏事故和引导人群至关重要,已成为一个日益重要的任务和具有挑战性的研究方向。本文提出一种数据相关的拆分注意力机制的编码器-解码器结构的人群计数方法,称为DNe StCount。为应对视频监控的尺度变化和透视失真的挑战,将更密集的空洞采样比率应用到密集空洞空间金字塔池化模块DASPP设计中。为提升密度图估计的准确性,将可学习的、数据相关的上采样方法 DUpsampling应用到特征聚合模块DFA设计中。为弥补欧几里德损失可能存在对离群值敏感、训练不稳定等缺点,采用Smooth L1损失设计损失函数。在具有挑战性的数据集上进行的实验和分析表明,本文提出的人群计数方法 DNe St Count与其他主流方法相比更具有竞争力。展开更多
目的 化学结构识别是化学和计算机视觉领域的一个重要问题,传统光学化学结构识别技术在复杂化学结构识别任务中易发生信息丢失或误识别的现象,同时又因为化学物质的结构多样性常导致其无法解析,识别效果不佳。而基于深度学习的模型通常...目的 化学结构识别是化学和计算机视觉领域的一个重要问题,传统光学化学结构识别技术在复杂化学结构识别任务中易发生信息丢失或误识别的现象,同时又因为化学物质的结构多样性常导致其无法解析,识别效果不佳。而基于深度学习的模型通常具有网络结构复杂度高、上下文信息易丢失和识别率低的问题。为此,提出一种结合注意力机制和编码器—解码器架构的化学结构识别方法。方法 首先,使用改进的ResNet50(residual network)作为特征提取器抓取表征信息;其次,使用BLSTM(bi-directional long-short term memory)作为行编码器为ResNet50提取的表征信息加强空间信息;最后,使用去填充模块和基于覆盖注意力机制的LSTM(long short-term memory)网络作为模型解码器,对化学结构图像进行解码,将编码结果解码为SMILES(simplified molecular input line entry system)序列。结果 在Indigo、ChemDraw、CLEF(Conference and Labs of the Evaluation Forum)、JPO(Japanese Patent Office)、UOB(University of Birmingham)、USPTO(United States Patent and Trademark Office)、Staker、ACS(American Chemistry Society)、CASIA-CSDB(Institute of Automation of Chinese Academy of Sciences—Chemical Structure Database)和Mini CASIA-CSDB数据集上,所提方法识别准确率分别为71.1%、70.21%、45.8%、30.3%、53.02%、58.21%、43.39%、46.3%、84.42%和85.78%,高于SwimOCSR、Image2Mol和ChemPix模型得分。结论 与其他模型相比,本文方法通过少量训练集能够获得较高的识别准确率。展开更多
文摘人群数量估计是人群管理系统的关键,对于预防踩踏事故和引导人群至关重要,已成为一个日益重要的任务和具有挑战性的研究方向。本文提出一种数据相关的拆分注意力机制的编码器-解码器结构的人群计数方法,称为DNe StCount。为应对视频监控的尺度变化和透视失真的挑战,将更密集的空洞采样比率应用到密集空洞空间金字塔池化模块DASPP设计中。为提升密度图估计的准确性,将可学习的、数据相关的上采样方法 DUpsampling应用到特征聚合模块DFA设计中。为弥补欧几里德损失可能存在对离群值敏感、训练不稳定等缺点,采用Smooth L1损失设计损失函数。在具有挑战性的数据集上进行的实验和分析表明,本文提出的人群计数方法 DNe St Count与其他主流方法相比更具有竞争力。
文摘目的 化学结构识别是化学和计算机视觉领域的一个重要问题,传统光学化学结构识别技术在复杂化学结构识别任务中易发生信息丢失或误识别的现象,同时又因为化学物质的结构多样性常导致其无法解析,识别效果不佳。而基于深度学习的模型通常具有网络结构复杂度高、上下文信息易丢失和识别率低的问题。为此,提出一种结合注意力机制和编码器—解码器架构的化学结构识别方法。方法 首先,使用改进的ResNet50(residual network)作为特征提取器抓取表征信息;其次,使用BLSTM(bi-directional long-short term memory)作为行编码器为ResNet50提取的表征信息加强空间信息;最后,使用去填充模块和基于覆盖注意力机制的LSTM(long short-term memory)网络作为模型解码器,对化学结构图像进行解码,将编码结果解码为SMILES(simplified molecular input line entry system)序列。结果 在Indigo、ChemDraw、CLEF(Conference and Labs of the Evaluation Forum)、JPO(Japanese Patent Office)、UOB(University of Birmingham)、USPTO(United States Patent and Trademark Office)、Staker、ACS(American Chemistry Society)、CASIA-CSDB(Institute of Automation of Chinese Academy of Sciences—Chemical Structure Database)和Mini CASIA-CSDB数据集上,所提方法识别准确率分别为71.1%、70.21%、45.8%、30.3%、53.02%、58.21%、43.39%、46.3%、84.42%和85.78%,高于SwimOCSR、Image2Mol和ChemPix模型得分。结论 与其他模型相比,本文方法通过少量训练集能够获得较高的识别准确率。