期刊文献+
共找到109篇文章
< 1 2 6 >
每页显示 20 50 100
Multimodal Sentiment Analysis Based on a Cross-Modal Multihead Attention Mechanism
1
作者 Lujuan Deng Boyi Liu Zuhe Li 《Computers, Materials & Continua》 SCIE EI 2024年第1期1157-1170,共14页
Multimodal sentiment analysis aims to understand people’s emotions and opinions from diverse data.Concate-nating or multiplying various modalities is a traditional multi-modal sentiment analysis fusion method.This fu... Multimodal sentiment analysis aims to understand people’s emotions and opinions from diverse data.Concate-nating or multiplying various modalities is a traditional multi-modal sentiment analysis fusion method.This fusion method does not utilize the correlation information between modalities.To solve this problem,this paper proposes amodel based on amulti-head attention mechanism.First,after preprocessing the original data.Then,the feature representation is converted into a sequence of word vectors and positional encoding is introduced to better understand the semantic and sequential information in the input sequence.Next,the input coding sequence is fed into the transformer model for further processing and learning.At the transformer layer,a cross-modal attention consisting of a pair of multi-head attention modules is employed to reflect the correlation between modalities.Finally,the processed results are input into the feedforward neural network to obtain the emotional output through the classification layer.Through the above processing flow,the model can capture semantic information and contextual relationships and achieve good results in various natural language processing tasks.Our model was tested on the CMU Multimodal Opinion Sentiment and Emotion Intensity(CMU-MOSEI)and Multimodal EmotionLines Dataset(MELD),achieving an accuracy of 82.04% and F1 parameters reached 80.59% on the former dataset. 展开更多
关键词 Emotion analysis deep learning cross-modal attention mechanism
下载PDF
Learning Epipolar Line Window Attention for Stereo Image Super-Resolution Reconstruction
2
作者 Xue Li Hongying Zhang +1 位作者 Zixun Ye Xiaoru 《Computers, Materials & Continua》 SCIE EI 2024年第2期2847-2864,共18页
Transformer-based stereo image super-resolution reconstruction(Stereo SR)methods have significantly improved image quality.However,existing methods have deficiencies in paying attention to detailed features and do not... Transformer-based stereo image super-resolution reconstruction(Stereo SR)methods have significantly improved image quality.However,existing methods have deficiencies in paying attention to detailed features and do not consider the offset of pixels along the epipolar lines in complementary views when integrating stereo information.To address these challenges,this paper introduces a novel epipolar line window attention stereo image super-resolution network(EWASSR).For detail feature restoration,we design a feature extractor based on Transformer and convolutional neural network(CNN),which consists of(shifted)window-based self-attention((S)W-MSA)and feature distillation and enhancement blocks(FDEB).This combination effectively solves the problem of global image perception and local feature attention and captures more discriminative high-frequency features of the image.Furthermore,to address the problem of offset of complementary pixels in stereo images,we propose an epipolar line window attention(EWA)mechanism,which divides windows along the epipolar direction to promote efficient matching of shifted pixels,even in pixel smooth areas.More accurate pixel matching can be achieved using adjacent pixels in the window as a reference.Extensive experiments demonstrate that our EWASSR can reconstruct more realistic detailed features.Comparative quantitative results show that in the experimental results of our EWASSR on the Middlebury and Flickr1024 data sets for 2×SR,compared with the recent network,the Peak signal-to-noise ratio(PSNR)increased by 0.37 dB and 0.34 dB,respectively. 展开更多
关键词 Stereo SR epipolar line window attention feature distillation
下载PDF
A Novel Tensor Decomposition-Based Efficient Detector for Low-Altitude Aerial Objects With Knowledge Distillation Scheme
3
作者 Nianyin Zeng Xinyu Li +2 位作者 Peishu Wu Han Li Xin Luo 《IEEE/CAA Journal of Automatica Sinica》 SCIE EI CSCD 2024年第2期487-501,共15页
Unmanned aerial vehicles(UAVs) have gained significant attention in practical applications, especially the low-altitude aerial(LAA) object detection imposes stringent requirements on recognition accuracy and computati... Unmanned aerial vehicles(UAVs) have gained significant attention in practical applications, especially the low-altitude aerial(LAA) object detection imposes stringent requirements on recognition accuracy and computational resources. In this paper, the LAA images-oriented tensor decomposition and knowledge distillation-based network(TDKD-Net) is proposed,where the TT-format TD(tensor decomposition) and equalweighted response-based KD(knowledge distillation) methods are designed to minimize redundant parameters while ensuring comparable performance. Moreover, some robust network structures are developed, including the small object detection head and the dual-domain attention mechanism, which enable the model to leverage the learned knowledge from small-scale targets and selectively focus on salient features. Considering the imbalance of bounding box regression samples and the inaccuracy of regression geometric factors, the focal and efficient IoU(intersection of union) loss with optimal transport assignment(F-EIoU-OTA)mechanism is proposed to improve the detection accuracy. The proposed TDKD-Net is comprehensively evaluated through extensive experiments, and the results have demonstrated the effectiveness and superiority of the developed methods in comparison to other advanced detection algorithms, which also present high generalization and strong robustness. As a resource-efficient precise network, the complex detection of small and occluded LAA objects is also well addressed by TDKD-Net, which provides useful insights on handling imbalanced issues and realizing domain adaptation. 展开更多
关键词 attention mechanism knowledge distillation(KD) object detection tensor decomposition(TD) unmanned aerial vehicles(UAVs)
下载PDF
Focus-RCNet:a lightweight recyclable waste classification algorithm based on focus and knowledge distillation
4
作者 Dashun Zheng Rongsheng Wang +2 位作者 Yaofei Duan Patrick Cheong-Iao Pang Tao Tan 《Visual Computing for Industry,Biomedicine,and Art》 EI 2023年第1期279-287,共9页
Waste pollution is a significant environmental problem worldwide.With the continuous improvement in the living standards of the population and increasing richness of the consumption structure,the amount of domestic wa... Waste pollution is a significant environmental problem worldwide.With the continuous improvement in the living standards of the population and increasing richness of the consumption structure,the amount of domestic waste generated has increased dramatically,and there is an urgent need for further treatment.The rapid development of artificial intelligence has provided an effective solution for automated waste classification.However,the high computational power and complexity of algorithms make convolutional neural networks unsuitable for real-time embedded applications.In this paper,we propose a lightweight network architecture called Focus-RCNet,designed with reference to the sandglass structure of MobileNetV2,which uses deeply separable convolution to extract features from images.The Focus module is introduced to the field of recyclable waste image classification to reduce the dimensionality of features while retaining relevant information.To make the model focus more on waste image features while keeping the number of parameters small,we introduce the SimAM attention mechanism.In addition,knowledge distillation was used to further compress the number of parameters in the model.By training and testing on the TrashNet dataset,the Focus-RCNet model not only achieved an accuracy of 92%but also showed high deployment mobility. 展开更多
关键词 Waste recycling Waste classification Knowledge distillation LIGHTWEIGHT attention
下载PDF
CSMCCVA:Framework of cross-modal semantic mapping based on cognitive computing of visual and auditory sensations 被引量:1
5
作者 刘扬 Zheng Fengbin Zuo Xianyu 《High Technology Letters》 EI CAS 2016年第1期90-98,共9页
Cross-modal semantic mapping and cross-media retrieval are key problems of the multimedia search engine.This study analyzes the hierarchy,the functionality,and the structure in the visual and auditory sensations of co... Cross-modal semantic mapping and cross-media retrieval are key problems of the multimedia search engine.This study analyzes the hierarchy,the functionality,and the structure in the visual and auditory sensations of cognitive system,and establishes a brain-like cross-modal semantic mapping framework based on cognitive computing of visual and auditory sensations.The mechanism of visual-auditory multisensory integration,selective attention in thalamo-cortical,emotional control in limbic system and the memory-enhancing in hippocampal were considered in the framework.Then,the algorithms of cross-modal semantic mapping were given.Experimental results show that the framework can be effectively applied to the cross-modal semantic mapping,and also provides an important significance for brain-like computing of non-von Neumann structure. 展开更多
关键词 multimedia neural cognitive computing (MNCC) brain-like computing cross-modal semantic mapping (CSM) selective attention limbic system multisensory integration memory-enhancing mechanism
下载PDF
Cross-Modal Entity Resolution for Image and Text Integrating Global and Fine-Grained Joint Attention Mechanism
6
作者 曾志贤 曹建军 +2 位作者 翁年凤 袁震 余旭 《Journal of Shanghai Jiaotong university(Science)》 EI 2023年第6期728-737,共10页
In order to solve the problem that the existing cross-modal entity resolution methods easily ignore the high-level semantic informational correlations between cross-modal data,we propose a novel cross-modal entity res... In order to solve the problem that the existing cross-modal entity resolution methods easily ignore the high-level semantic informational correlations between cross-modal data,we propose a novel cross-modal entity resolution for image and text integrating global and fine-grained joint attention mechanism method.First,we map the cross-modal data to a common embedding space utilizing a feature extraction network.Then,we integrate global joint attention mechanism and fine-grained joint attention mechanism,making the model have the ability to learn the global semantic characteristics and the local fine-grained semantic characteristics of the cross-modal data,which is used to fully exploit the cross-modal semantic correlation and boost the performance of cross-modal entity resolution.Moreover,experiments on Flickr-30K and MS-COCO datasets show that the overall performance of R@sum outperforms by 4.30%and 4.54%compared with 5 state-of-the-art methods,respectively,which can fully demonstrate the superiority of our proposed method. 展开更多
关键词 cross-modal entity resolution joint attention mechanism deep learning feature extraction semantic correlation
原文传递
基于CenterNet的多教师联合知识蒸馏
7
作者 刘绍华 杜康 +1 位作者 佘春东 杨傲 《系统工程与电子技术》 EI CSCD 北大核心 2024年第4期1174-1184,共11页
介绍了一种基于轻量化CenterNet的多教师联合知识蒸馏方案。所提方案能有效解决模型轻量化带来的性能恶化问题,可以显著缩小教师模型和学生模型之间的性能差距。将大规模复杂模型作为教师模型,指导训练轻量化学生模型。相比于模型的传... 介绍了一种基于轻量化CenterNet的多教师联合知识蒸馏方案。所提方案能有效解决模型轻量化带来的性能恶化问题,可以显著缩小教师模型和学生模型之间的性能差距。将大规模复杂模型作为教师模型,指导训练轻量化学生模型。相比于模型的传统训练方案,使用所提知识蒸馏训练方案可以在相同的训练轮数后使轻量化模型达到更优的检测性能。主要贡献是提出了适用于CenterNet目标检测网络的新型知识蒸馏训练方案——多教师联合知识蒸馏。在后续实验中,进一步引入了蒸馏注意力机制,从而优化了多教师联合知识蒸馏的训练效果。在VOC2007数据集(Visual Object Classes 2007 Dataset)上,以MobileNetV2轻量化网络作为主干网络为例,相较于传统的CenterNet(主干网络为ResNet50),所提方案在参数量指标上压缩了74.7%,推理速度提升了70.5%,在平均精度上只有1.99的降低,取得了更好的“性能-速度”平衡。实验证明,同样经过100轮训练,使用多教师联合知识蒸馏训练方案的轻量化模型相较于普通训练方案,平均精度提升了11.30。 展开更多
关键词 轻量化 知识蒸馏 注意力机制 联合训练
下载PDF
复杂环境下输电线路鸟巢目标图像检测模型
8
作者 屠乃威 焦猛 阎馨 《计算机工程》 CAS CSCD 北大核心 2024年第7期216-226,共11页
为了解决复杂环境下电力巡检无人机对输电线路鸟巢识别精度低、错检漏检率高、定位不准等问题,在YOLOv5s模型的基础上,提出一种用于输电线路鸟巢目标检测的改进YOLO-nc-kd模型。设计一种高效的多尺度卷积特征融合模块(MCFFM),实现不同... 为了解决复杂环境下电力巡检无人机对输电线路鸟巢识别精度低、错检漏检率高、定位不准等问题,在YOLOv5s模型的基础上,提出一种用于输电线路鸟巢目标检测的改进YOLO-nc-kd模型。设计一种高效的多尺度卷积特征融合模块(MCFFM),实现不同尺度下的高效特征提取,使模型能获得更加丰富和多样化的特征表示。引入注意力机制,提升主干网络在相似环境背景下的鸟巢特征提取能力。设计改进的定位损失函数,提高边界框的定位精度和小目标检测能力。使用知识蒸馏技术,进一步提升模型精度。实验结果表明,改进YOLO-nc-kd模型的准确率、召回率以及平均精度均值(m AP)相较于YOLOv5s模型分别提升了7.3、5.6、4.9个百分点,具有较好的输电线路鸟巢目标图像检测效果。 展开更多
关键词 鸟巢检测 YOLOv5s模型 注意力机制 损失函数 知识蒸馏
下载PDF
联合归一化模块和多分支特征的行人重识别
9
作者 任丹萍 董会升 +1 位作者 何婷婷 张春华 《计算机工程与设计》 北大核心 2024年第4期1233-1239,共7页
针对行人重识别技术中存在特征挖掘不充分的问题,提出一种联合归一化模块和多分支特征的行人重识别模型。在主干网络中嵌入注意力机制引导的实例归一化模块,减轻背景等杂波信息的影响。在双级特征融合模块对局部特征进行加权后再聚合形... 针对行人重识别技术中存在特征挖掘不充分的问题,提出一种联合归一化模块和多分支特征的行人重识别模型。在主干网络中嵌入注意力机制引导的实例归一化模块,减轻背景等杂波信息的影响。在双级特征融合模块对局部特征进行加权后再聚合形成对行人特征的更细节表达。联合平滑交叉熵损失、三元组损失以及跨分支特征蒸馏损失对网络进行优化。所提模型在Market-1501和DukeMTMC-ReID数据集上首位准确率分别达到了95.7%和89.2%。实验结果表明,该模型增强了对图像特征的提取。 展开更多
关键词 归一化 行人重识别 注意力机制 多分支特征 特征提取 特征蒸馏损失 三元组损失
下载PDF
结合非对称卷积与特征蒸馏的图像超分辨率重建网络
10
作者 朱磊 冯达 +2 位作者 朱奇伟 赵涵 王倩倩 《西安工程大学学报》 CAS 2024年第2期93-100,共8页
为了进一步提高单幅图像超分辨率(single image super-resolution,SISR)轻量化网络的图像重建效果,基于轻量化网络RFDN,提出一种结合非对称卷积与特征蒸馏的图像超分辨率重建网络(asymmetric convolution distillation network,ACDN)。... 为了进一步提高单幅图像超分辨率(single image super-resolution,SISR)轻量化网络的图像重建效果,基于轻量化网络RFDN,提出一种结合非对称卷积与特征蒸馏的图像超分辨率重建网络(asymmetric convolution distillation network,ACDN)。首先利用非对称卷积构建特征提取模块,在残差块中并联2个不同卷积核的非对称卷积,增强网络对特征的提取能力;其次利用均衡注意力机制与非对称卷积改进特征蒸馏模块,强化网络对高频信息的获取;最后在重建模块中加入均衡注意力机制进一步提高网络的最终重建性能。实验结果表明:与RLFN、SMSR等先进轻量化网络相比,提出的ACDN网络能在5个标准数据集上重建出纹理细节更丰富的高质量图像,重建图像的峰值信噪比和结构相似性指标均有提升,并在网络模型的参数量和性能上达到了更好的平衡。 展开更多
关键词 图像超分辨率 特征蒸馏 非对称卷积 注意力机制 RFDN网络
下载PDF
基于改进MobileNet的轻量级外来入侵植物识别模型研究
11
作者 吴鸿飞 刘万学 +2 位作者 冼晓青 赵梦欣 姚青 《植物保护》 CAS CSCD 北大核心 2024年第1期85-96,共12页
外来入侵植物防治的首要任务是准确识别入侵植物种类,然而外来入侵植物种类繁多,存在类间同质和类内异质现象,给技术人员甄别与防治外来入侵植物带来了挑战。为了准确、实时和高效地识别外来入侵植物,本文提出基于改进MobileNet的轻量... 外来入侵植物防治的首要任务是准确识别入侵植物种类,然而外来入侵植物种类繁多,存在类间同质和类内异质现象,给技术人员甄别与防治外来入侵植物带来了挑战。为了准确、实时和高效地识别外来入侵植物,本文提出基于改进MobileNet的轻量级外来入侵植物图像识别模型(MobileNet-LW)。以专业人员鉴定得到的113种11 628幅外来入侵植物图像作为研究对象,并按照6∶2∶2的比例划分训练集、验证集和测试集。通过Retinex、旋转和高斯噪声等方法对图像进行数据增强。为了减少类间同质现象对模型误检的影响,在模型MobileNet基础上添加了SE通道注意力机制和深度连接注意力网络,提高网络对关键特征的提取能力。为了降低模型计算消耗和内存消耗,采用通道剪枝方法对网络瘦身;为了弥补剪枝后造成模型准确率降低,采用教师网络-助教网络-学生网络的形式对剪枝后的网络进行知识蒸馏,学生网络通过软知识的学习来提高识别外来入侵植物的准确率。通过消融试验测试模型的性能,利用平均准确率、平均召回率和平均F1值3个评价指标,对现阶段经典模型与改进后模型MobileNet-LW所获得的识别结果进行评价。消融试验结果显示,在相同数据集条件下,所有改进点对模型的性能都有所提升,且改进后算法在外来入侵植物图像识别中准确率提高了5.4百分点,模型参数量减少了约53%;模型对比试验表明,EfficentNet、DBTNet、ResNet-101、ConvNext和MobileNet-LW 5个模型平均准确率分别为72.3%、74.9%、76.1%、79.7%和86.1%,表明改进后的网络提高了外来入侵植物的识别准确率。基于改进MobileNet的轻量级外来入侵植物识别模型对113种外来入侵植物识别具有较高的准确率,且模型具有轻量化特点。 展开更多
关键词 外来入侵植物 智能识别 通道剪枝 知识蒸馏 注意力机制 MobileNet
下载PDF
基于MA-ConvNext网络和分步关系知识蒸馏的苹果叶片病害识别
12
作者 刘欢 李云红 +4 位作者 张蕾涛 郭越 苏雪平 朱耀麟 侯乐乐 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2024年第9期1757-1767,1780,共12页
针对复杂环境下苹果叶片病害图像背景杂乱、病斑大小不一,以及现有模型参数多、计算量大的问题,提出基于注意力和多尺度特征融合的苹果叶片病害识别网络(MA-ConvNext).通过引入多尺度空间通道重组块(MSCB)和融合三分支注意力机制的特征... 针对复杂环境下苹果叶片病害图像背景杂乱、病斑大小不一,以及现有模型参数多、计算量大的问题,提出基于注意力和多尺度特征融合的苹果叶片病害识别网络(MA-ConvNext).通过引入多尺度空间通道重组块(MSCB)和融合三分支注意力机制的特征提取模块(TAFB),有效提取苹果叶片病害图像不同尺度的特征,增强模型对叶片病斑的关注.采用分步关系知识蒸馏方法,将“教师”网络(MA-ConvNext)和“中间”网络(DenseNet121)融合,指导“学生”网络(EfficientNet-B0)训练,实现模型轻量化.实验结果表明,MA-ConvNext网络识别准确率为99.38%,较ResNet50、MobileNet-V3和EfficientNet-V2网络分别提高了3.98个百分点、7.55个百分点和4.27个百分点.经过分步关系知识蒸馏后,识别准确率较蒸馏前提高了1.76个百分点,并且具有更小的网络规模和参数量,分别为1.56×10^(7)、5.29×10^(6).所提方法能为后续精准农业的病虫害检测提供新思路和技术支持. 展开更多
关键词 苹果叶片病害识别 注意力 多尺度特征融合 分步关系 知识蒸馏
下载PDF
融合动态掩码注意力与多教师多特征知识蒸馏的文本分类
13
作者 王润周 张新生 王明虎 《中文信息学报》 CSCD 北大核心 2024年第3期113-129,共17页
知识蒸馏技术可以将大规模模型中的知识压缩到轻量化的模型中,在文本分类任务中实现更高效的推断。现有的知识蒸馏方法较少同时考虑多种教师与多个特征层之间的信息融合。此外,蒸馏过程采用全局填充,未能动态关注数据中的有效信息。为此... 知识蒸馏技术可以将大规模模型中的知识压缩到轻量化的模型中,在文本分类任务中实现更高效的推断。现有的知识蒸馏方法较少同时考虑多种教师与多个特征层之间的信息融合。此外,蒸馏过程采用全局填充,未能动态关注数据中的有效信息。为此,该文提出一种融合动态掩码注意力机制与多教师多特征知识蒸馏的文本分类模型,不仅引入多种教师模型(RoBERTa、Electra)的知识源,还兼顾不同教师模型在多个特征层的语义信息,并通过设置动态掩码模型注意力机制使得蒸馏过程动态关注不等长数据,减少无用填充信息的干扰。在4种公开数据集上的实验结果表明,经过蒸馏后的学生模型(TinyBRET)在预测性能上均优于其他基准蒸馏策略,并在采用教师模型1/10的参数量、约1/2的平均运行时间的条件下,取得与两种教师模型相当的分类结果,平均准确率仅下降4.18%和3.33%,平均F 1值仅下降2.30%和2.38%。其注意力热度图也表明动态掩码注意力机制切实加强关注了数据尾部与上下文信息。 展开更多
关键词 动态掩码注意力 多教师多特征 知识蒸馏 文本分类
下载PDF
基于反向知识蒸馏的工件异常检测算法研究
14
作者 张晓涌 王黎明 +1 位作者 李璇 韩星程 《激光杂志》 CAS 北大核心 2024年第8期92-97,共6页
工件异常检测是工业生产中极其关键的一环,由于异常样本数量少,随机性大,有监督学习不能完全学习到所有的异常类型,存在模型稳定性差的问题,针对上述问题,研究了一种基于反向知识蒸馏的无监督工件异常检测算法,利用ResNet网络结构设计... 工件异常检测是工业生产中极其关键的一环,由于异常样本数量少,随机性大,有监督学习不能完全学习到所有的异常类型,存在模型稳定性差的问题,针对上述问题,研究了一种基于反向知识蒸馏的无监督工件异常检测算法,利用ResNet网络结构设计的教师模型和学生模型作为主干网络,教师模型真实地提取图像特征,学生模型根据先验知识重构图像,采取逆向结构扩大异常状况的特异性;中间加入记忆模块和掩码注意力模块,提取出样本的多维特征信息,避免遗漏图像中的细节信息;记忆模块之后添加的掩码注意力机制,将图像的多维度、多层次特征整合起来,进一步提升了检测的精确度。在两个公开工业异常检测数据集上进行实验的结果表明,所提算法能有效地定位细小异常,且相比普通知识蒸馏算法AUC提升了5%~7%。 展开更多
关键词 异常检测 知识蒸馏 注意力机制 记忆模块 深度学习 机器视觉。
下载PDF
基于异构知识蒸馏网络的滚动轴承剩余寿命预测
15
作者 徐超 汪永超 +1 位作者 李世昌 李翰儒 《组合机床与自动化加工技术》 北大核心 2024年第8期154-157,162,共5页
针对滚动轴承寿命预测中预测精度低和边缘设备资源有限等问题,提出了一种异构知识蒸馏网络来预测滚动轴承的剩余使用寿命。网络使用教师—学生知识蒸馏架构,首先引入自注意力机制与长短时记忆网络融合构建了一个预测精度较高的教师模型... 针对滚动轴承寿命预测中预测精度低和边缘设备资源有限等问题,提出了一种异构知识蒸馏网络来预测滚动轴承的剩余使用寿命。网络使用教师—学生知识蒸馏架构,首先引入自注意力机制与长短时记忆网络融合构建了一个预测精度较高的教师模型;其次,在卷积神经网络的基础上引入变分自动编码器构建了一个特征提取能力较强、参数量较少、复杂度较低的学生模型;然后,设计了一个复合损失函数,用于训练学生模型对教师模型知识的吸收能力和对训练数据的适应能力;最后,在XJTU-SY轴承数据集上进行寿命预测实验。结果表明,与其他预测方法相比,所提方法能有效降低模型的参数量和复杂度并且预测精度更高。 展开更多
关键词 滚动轴承 剩余使用寿命 知识蒸馏 自注意力机制 变分自动编码器
下载PDF
基于注意力的多尺度蒸馏异常检测
16
作者 乔虹 邢红杰 《计算机科学》 CSCD 北大核心 2024年第S01期634-644,共11页
基于知识蒸馏的异常检测方法中,教师网络远大于学生网络,使得所得特征表示在同一位置对应图像的感受野不同。为解决此问题,可使学生网络与教师网络结构相同。然而,学生与教师网络完全相同,使得在测试阶段,对于异常样本,教师网络与学生... 基于知识蒸馏的异常检测方法中,教师网络远大于学生网络,使得所得特征表示在同一位置对应图像的感受野不同。为解决此问题,可使学生网络与教师网络结构相同。然而,学生与教师网络完全相同,使得在测试阶段,对于异常样本,教师网络与学生网络特征表示差异过小而影响异常检测的性能。为解决该问题,提出了基于高效通道注意力模块的多尺度知识蒸馏异常检测方法(ECA Based Multi-Scale Knowledge Distillation Anomaly Detection,ECA-MSKDAD),并结合数据增强操作提出了相对距离损失函数。使用经过预训练的网络作为教师网络,同时使用与教师网络结构相同的网络作为学生网络。在训练阶段,对训练样本采取数据增强操作以扩充训练集的规模,并在学生网络中引入高效通道注意力(Efficient Channel Attention,ECA)模块,以增加教师网络和学生网络之间的差异,增大异常数据的重构误差,进而提高模型的检测性能。此外,利用相对距离损失函数,将数据间关系从教师网络传递到学生网络,对学生网络的网络参数进行优化。在MVTec AD进行实验,与9种相关方法比较,所提方法在异常检测与异常定位上均取得更优的性能。 展开更多
关键词 深度学习 异常检测 异常定位 知识蒸馏 注意力机制
下载PDF
基于多级残差信息蒸馏的真实图像去噪方法
17
作者 冯妍舟 刘建霞 +2 位作者 王海翼 冯国昊 白宇 《计算机工程》 CAS CSCD 北大核心 2024年第3期216-223,共8页
深度神经网络对真实图像有较强的去噪能力,可以学习含噪图像和干净图像之间复杂的非线性映射关系。然而,过多的卷积操作导致计算成本增加并占据大量内存,限制了去噪技术在低运算能力设备中的应用,现有去噪算法容易损坏细节信息,恢复图... 深度神经网络对真实图像有较强的去噪能力,可以学习含噪图像和干净图像之间复杂的非线性映射关系。然而,过多的卷积操作导致计算成本增加并占据大量内存,限制了去噪技术在低运算能力设备中的应用,现有去噪算法容易损坏细节信息,恢复图像存在边缘过度平滑、纹理缺失、含有残留噪声等问题。针对这些问题,构造一种多级残差信息蒸馏模块。通过对特征通道进行分割,保留部分特征用于后续多级融合,并进一步通过深度提取单元提取细化后的特征信息;引入对比度感知通道注意力机制对不同通道的特征分配权重;使用多级跳跃连接充分融合不同阶段提取到的上下文信息。构建1个轻量级的多级残差信息蒸馏网络,采用块间复杂度低的编码-解码结构,编码部分为含噪图像特征提取模块,解码部分为干净图像恢复模块。为了加快训练速度,采用混合图像尺寸的渐进式训练方法。实验结果表明,该方法在SSID和DND真实图像数据集上的峰值信噪比分别为39.43 dB和39.49 dB,与其他网络相比提升了0.17~15.77 dB和0.02~7.06 dB,而模型参数量仅为6.92×106,所提模型在提高去噪性能的同时具有较少的参数量。 展开更多
关键词 图像复原 真实图像去噪 多级残差信息蒸馏模块 深度提取模块 对比度感知通道注意力
下载PDF
基于双编码器的多模态融合方法
18
作者 黄晓飞 郭卫斌 《计算机科学》 CSCD 北大核心 2024年第9期207-213,共7页
双编码器模型比融合编码器模型具有更快的推理速度,且能在推理过程中对图像和文本进行预计算。然而,双编码器模型中使用的浅交互模块不足以处理复杂的视觉语言理解任务。针对上述问题,提出了一种新的多模态融合方法。首先,提出一种前交... 双编码器模型比融合编码器模型具有更快的推理速度,且能在推理过程中对图像和文本进行预计算。然而,双编码器模型中使用的浅交互模块不足以处理复杂的视觉语言理解任务。针对上述问题,提出了一种新的多模态融合方法。首先,提出一种前交互式桥塔结构(PBTS),在单模态编码器的顶层和跨模态编码器的每层之间建立连接,使得不同语义层次的视觉和文本表示之间能够进行全面、自下而上的交互,从而实现更有效的跨模态对齐和融合。同时,为了更好地学习图像和文本的深度交互,提出了一种两阶段跨模态注意力双蒸馏方法(TCMDD),使用融合编码器模型作为教师模型,在预训练阶段和调优阶段同时对单模态编码器及融合模块的跨模态注意力矩阵进行知识蒸馏。使用400万张图片进行预训练并在3个公开数据集上进行调优来验证该方法的有效性。实验结果表明,所提多模态融合方法在多个视觉语言理解任务中获得了更优的性能。 展开更多
关键词 多模态融合 双编码器 跨模态注意力蒸馏 桥塔结构
下载PDF
基于知识蒸馏的GAN生成图像质量评价方法
19
作者 闫嘉阔 司占军 《印刷与数字媒体技术研究》 CAS 北大核心 2024年第1期51-59,共9页
为了是提高GAN模型生成的图像质量的预测精度,以更好地符合人类对图像质量的主观评价,本研究介绍了一种基于知识蒸馏的半监督图像质量评价(IQA)方法。该方法利用CNN和ViT模型的结合,充分捕获全局和局部信息,学习高质量图像与失真图像之... 为了是提高GAN模型生成的图像质量的预测精度,以更好地符合人类对图像质量的主观评价,本研究介绍了一种基于知识蒸馏的半监督图像质量评价(IQA)方法。该方法利用CNN和ViT模型的结合,充分捕获全局和局部信息,学习高质量图像与失真图像之间特征的分布差异,并通过知识蒸馏传输高级特征信息。模型通过前向传播,得到图像质量评价分数。为了提高输入特征的多样性和模型的处理速度,本研究还采用了级联分组注意(CGA)机制对输入特征处理。通过在多个公共数据集上的实验表明,本研究方法的评价结果优于现有的评价方法,总体效果理想,相对鲁棒性相对优异,可以获得更加符合人类视觉效果的IQA结果。 展开更多
关键词 知识蒸馏 GAN模型 图像质量评价 级联分组注意力
下载PDF
多模态特征融合和自蒸馏的红外-可见光行人重识别
20
作者 万磊 李华锋 张亚飞 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2024年第7期1065-1076,共12页
现有跨模态行人重识别方法大多挖掘模态不变的特征,忽略了不同模态内的具有判别性的自有特征.为了充分地利用不同模态内的自有特征,提出一种多模态特征融合和自蒸馏的红外-可见光行人重识别方法.首先提出一种基于双分类器的注意力融合机... 现有跨模态行人重识别方法大多挖掘模态不变的特征,忽略了不同模态内的具有判别性的自有特征.为了充分地利用不同模态内的自有特征,提出一种多模态特征融合和自蒸馏的红外-可见光行人重识别方法.首先提出一种基于双分类器的注意力融合机制,为各模态的自有特征赋予较大的融合权重,共有特征赋予较小的融合权重,得到含有各模态判别性自有特征的多模态融合特征;为了提升网络特征的鲁棒性以适应行人外观的变化,构建一个记忆存储器来存储行人的多视角特征;还设计了一种自蒸馏无参数动态引导策略,在多模态融合特征和多视角特征的引导下,利用该策略动态强化网络的多模态推理和多视角推理能力;最后网络能够从一个行人的单模态图像推理出另一模态不同视角行人特征,提升模型跨模态行人重识别的性能.基于PyTorch深度学习框架,在公开数据集SYSU-MM01和RegDB上与当前主流的方法进行对比实验,结果表明,所提方法的Rank-1分别达到63.12%和92.55%, mAP分别达到61.51%和89.55%,优于对比方法. 展开更多
关键词 跨模态行人重识别 特征融合 注意力机制 记忆存储机制 自蒸馏
下载PDF
上一页 1 2 6 下一页 到第
使用帮助 返回顶部