为了改善基于卷积编解码架构的单通道语音增强网络对语音声学特征提取不充分、解码特征丢失严重的问题,提出一种基于多路信息聚合协同解码的单通道语音增强网络MIACD,通过双路编码器充分提取融入了语音自监督学习(SSL)表征的幅度谱和复...为了改善基于卷积编解码架构的单通道语音增强网络对语音声学特征提取不充分、解码特征丢失严重的问题,提出一种基于多路信息聚合协同解码的单通道语音增强网络MIACD,通过双路编码器充分提取融入了语音自监督学习(SSL)表征的幅度谱和复数谱特征,由4层Conformer分别从时间和频率维度对提取特征建模,采用残差连接将双路编码器提取的语音幅度、复数特征引入三路信息聚合解码器,并利用所提通道-时频注意力(CTF-Attention)机制根据语音能量分布情况调节解码器中聚合信息,有效缓解解码时可用声学信息缺失严重的问题。在公开数据集Voice Bank DEMAND上的实验结果表明,与用于单通道语音增强的协作学习框架(GaGNet)相比,MIACD在客观评价指标宽带感知评估语音质量(WB-PESQ)上提升了5.1%,短时客观可懂度(STOI)达到96.7%,验证所提方法可充分利用语音信息重构信号,有效抑制噪声并提升语音可理解性。展开更多
红外与可见光(RGB and Thermal,RGBT)目标跟踪得益于可见光与热红外2种模态数据的互补优势能够很好地提升跟踪器在部分极端环境下的目标定位能力。现有工作主要集中于如何对2种模态的特征进行提取和融合,忽略了不同模态中分层深度特征...红外与可见光(RGB and Thermal,RGBT)目标跟踪得益于可见光与热红外2种模态数据的互补优势能够很好地提升跟踪器在部分极端环境下的目标定位能力。现有工作主要集中于如何对2种模态的特征进行提取和融合,忽略了不同模态中分层深度特征的潜在价值,这些分层深度特征对目标的定位与分类有着重要的作用。为此,提出了一种多层次特征交互的多模态自适应融合目标跟踪算法(Multi-layer Feature Interaction and Modal-adaptation Fusion Network,MIMFNet),通过特征提取器和注意力机制对分层特征进行提取与自适应校准;分层特征聚合子网将不同层的特征进行自上而下相互聚合,使低层特征不仅保留了自身的空间细节也获取了高层特征的语义信息。设计了一种多模态信息传递模块对2种模态的分层信息进行自适应融合,使模型聚焦到质量更高的特征通道上。通过多个公开数据集上的大量实验结果表明,提出的多模态目标跟踪算法具有优良的抗干扰特性,特别是由于尺度变化(Scale Variation,SV)、热交叉(Thermal Crossover,TC)和遮挡(Occlusion,OCC)等因素引起的跟踪漂移得到了显著优化。展开更多
针对在复杂场景下,聚合通道特征(ACF)的行人检测算法存在检测精度较低、误检率较高的问题,提出一种结合纹理和轮廓特征的多通道行人检测算法。算法由训练分类器和检测两部分组成。在训练阶段,首先提取ACF特征、局部二值模式(LBP)纹理特...针对在复杂场景下,聚合通道特征(ACF)的行人检测算法存在检测精度较低、误检率较高的问题,提出一种结合纹理和轮廓特征的多通道行人检测算法。算法由训练分类器和检测两部分组成。在训练阶段,首先提取ACF特征、局部二值模式(LBP)纹理特征和ST(Sketch Tokens)轮廓特征,然后对提取的三类特征均采用Real Ada Boost分类器进行训练;在检测阶段,应用了级联检测的思想,初期使用ACF分类器处理所有实例,保留下来的少数实例应用复杂的LBP及ST分类器进行逐次筛选。实验采用INRIA数据集对算法进行仿真,该算法的平均对数漏检率为13.32%,与ACF算法相比平均对数漏检率降低了3.73个百分点。实验结果表明LBP特征与ST特征能有对ACF特征进行信息互补,从而在复杂场景下去掉部分误判,提高了行人检测的精度,同时应用级联检测保证了多特征算法的计算效率。展开更多
文摘为了改善基于卷积编解码架构的单通道语音增强网络对语音声学特征提取不充分、解码特征丢失严重的问题,提出一种基于多路信息聚合协同解码的单通道语音增强网络MIACD,通过双路编码器充分提取融入了语音自监督学习(SSL)表征的幅度谱和复数谱特征,由4层Conformer分别从时间和频率维度对提取特征建模,采用残差连接将双路编码器提取的语音幅度、复数特征引入三路信息聚合解码器,并利用所提通道-时频注意力(CTF-Attention)机制根据语音能量分布情况调节解码器中聚合信息,有效缓解解码时可用声学信息缺失严重的问题。在公开数据集Voice Bank DEMAND上的实验结果表明,与用于单通道语音增强的协作学习框架(GaGNet)相比,MIACD在客观评价指标宽带感知评估语音质量(WB-PESQ)上提升了5.1%,短时客观可懂度(STOI)达到96.7%,验证所提方法可充分利用语音信息重构信号,有效抑制噪声并提升语音可理解性。
文摘针对在复杂场景下,聚合通道特征(ACF)的行人检测算法存在检测精度较低、误检率较高的问题,提出一种结合纹理和轮廓特征的多通道行人检测算法。算法由训练分类器和检测两部分组成。在训练阶段,首先提取ACF特征、局部二值模式(LBP)纹理特征和ST(Sketch Tokens)轮廓特征,然后对提取的三类特征均采用Real Ada Boost分类器进行训练;在检测阶段,应用了级联检测的思想,初期使用ACF分类器处理所有实例,保留下来的少数实例应用复杂的LBP及ST分类器进行逐次筛选。实验采用INRIA数据集对算法进行仿真,该算法的平均对数漏检率为13.32%,与ACF算法相比平均对数漏检率降低了3.73个百分点。实验结果表明LBP特征与ST特征能有对ACF特征进行信息互补,从而在复杂场景下去掉部分误判,提高了行人检测的精度,同时应用级联检测保证了多特征算法的计算效率。