期刊文献+
共找到1,333篇文章
< 1 2 67 >
每页显示 20 50 100
Olive Leaf Disease Detection via Wavelet Transform and Feature Fusion of Pre-Trained Deep Learning Models
1
作者 Mahmood A.Mahmood Khalaf Alsalem 《Computers, Materials & Continua》 SCIE EI 2024年第3期3431-3448,共18页
Olive trees are susceptible to a variety of diseases that can cause significant crop damage and economic losses.Early detection of these diseases is essential for effective management.We propose a novel transformed wa... Olive trees are susceptible to a variety of diseases that can cause significant crop damage and economic losses.Early detection of these diseases is essential for effective management.We propose a novel transformed wavelet,feature-fused,pre-trained deep learning model for detecting olive leaf diseases.The proposed model combines wavelet transforms with pre-trained deep-learning models to extract discriminative features from olive leaf images.The model has four main phases:preprocessing using data augmentation,three-level wavelet transformation,learning using pre-trained deep learning models,and a fused deep learning model.In the preprocessing phase,the image dataset is augmented using techniques such as resizing,rescaling,flipping,rotation,zooming,and contrasting.In wavelet transformation,the augmented images are decomposed into three frequency levels.Three pre-trained deep learning models,EfficientNet-B7,DenseNet-201,and ResNet-152-V2,are used in the learning phase.The models were trained using the approximate images of the third-level sub-band of the wavelet transform.In the fused phase,the fused model consists of a merge layer,three dense layers,and two dropout layers.The proposed model was evaluated using a dataset of images of healthy and infected olive leaves.It achieved an accuracy of 99.72%in the diagnosis of olive leaf diseases,which exceeds the accuracy of other methods reported in the literature.This finding suggests that our proposed method is a promising tool for the early detection of olive leaf diseases. 展开更多
关键词 Olive leaf diseases wavelet transform deep learning feature fusion
下载PDF
Defect Detection Model Using Time Series Data Augmentation and Transformation
2
作者 Gyu-Il Kim Hyun Yoo +1 位作者 Han-Jin Cho Kyungyong Chung 《Computers, Materials & Continua》 SCIE EI 2024年第2期1713-1730,共18页
Time-series data provide important information in many fields,and their processing and analysis have been the focus of much research.However,detecting anomalies is very difficult due to data imbalance,temporal depende... Time-series data provide important information in many fields,and their processing and analysis have been the focus of much research.However,detecting anomalies is very difficult due to data imbalance,temporal dependence,and noise.Therefore,methodologies for data augmentation and conversion of time series data into images for analysis have been studied.This paper proposes a fault detection model that uses time series data augmentation and transformation to address the problems of data imbalance,temporal dependence,and robustness to noise.The method of data augmentation is set as the addition of noise.It involves adding Gaussian noise,with the noise level set to 0.002,to maximize the generalization performance of the model.In addition,we use the Markov Transition Field(MTF)method to effectively visualize the dynamic transitions of the data while converting the time series data into images.It enables the identification of patterns in time series data and assists in capturing the sequential dependencies of the data.For anomaly detection,the PatchCore model is applied to show excellent performance,and the detected anomaly areas are represented as heat maps.It allows for the detection of anomalies,and by applying an anomaly map to the original image,it is possible to capture the areas where anomalies occur.The performance evaluation shows that both F1-score and Accuracy are high when time series data is converted to images.Additionally,when processed as images rather than as time series data,there was a significant reduction in both the size of the data and the training time.The proposed method can provide an important springboard for research in the field of anomaly detection using time series data.Besides,it helps solve problems such as analyzing complex patterns in data lightweight. 展开更多
关键词 Defect detection time series deep learning data augmentation data transformation
下载PDF
Performance Evaluation of Low-Carbon and Clean Transformation of China’s Coal Economy
3
作者 Liangfeng Zhu 《Journal of Environmental Science and Engineering(B)》 2024年第1期21-38,共18页
In China,the oversupply of coal occurred in 2009,and from that year onwards,China’s coal economy began a low-carbon and clean transformation.Evaluating transformation performance is the research goal of this paper.Th... In China,the oversupply of coal occurred in 2009,and from that year onwards,China’s coal economy began a low-carbon and clean transformation.Evaluating transformation performance is the research goal of this paper.The data collection for this paper includes data on deep processing of Chinese coal products from 2009 to 2020,as well as data on asset structure evolution and financial performance of 34 listed companies in the Chinese coal mining.Entropy value method is used to calculate the entropy value of low-carbon transformation,and the regression analysis is used to study the performance of cleaner transformation,the conclusion is as follows:(1)From 2009 to 2020,in China’s total energy consumption,coal consumption accounted for 71.6%in 2009 and 56.8%in 2020,the goals set by the state have been achieved.(2)The national goal of reducing the proportion of coal consumption and reducing carbon emissions has forced the transformation of deep processing of coal products.The transformation of coal enterprises towards low-carbon and clean production has achieved remarkable results.(3)From 2009 to 2020,the non coal industry income of 34 listed companies in China’s coal mining industry increased by 8.21%annually.At the same time,the asset structure was adjusted,and nearly 80%of the asset structure evolution showed an orderly development trend.(4)The regression analysis results show that the entropy value of coal deep processing products and the entropy value of asset structure adjustment are significantly related to transformation performance.The paper proposes to summarize the successful experience of China’s coal energy economic transformation,lay a foundation for achieving the carbon peak and carbon neutral goals in the future,further increase the intensity of coal deep processing,increase the proportion of clean energy in total energy consumption,and strive to control asset operation towards the goal of increasing the proportion of non coal industry income. 展开更多
关键词 Coal economy low-carbon and clean transformation deep processing of coal evolution of asset structure performance appraisal
下载PDF
多尺度卷积结合Transformer的抑郁脑电分类研究
4
作者 翟凤文 孙芳林 金静 《西安电子科技大学学报》 EI CAS CSCD 北大核心 2024年第2期182-195,共14页
在通过深度学习模型进行抑郁症类脑电信号分析时,针对单一尺度的卷积存在特征提取不充分的问题和卷积神经网络在感知脑电信号全局依赖性方面的局限性,分别设计了多尺度动态卷积网络模块和门控Transformer编码器模块,并与时间卷积网络相... 在通过深度学习模型进行抑郁症类脑电信号分析时,针对单一尺度的卷积存在特征提取不充分的问题和卷积神经网络在感知脑电信号全局依赖性方面的局限性,分别设计了多尺度动态卷积网络模块和门控Transformer编码器模块,并与时间卷积网络相结合,提出了混合网络模型(MGTTCNet)进行抑郁症患者和健康对照组的脑电信号分类。该模型首先通过多尺度动态卷积从空间域和频率域捕捉脑电信号的多尺度时频信息。其次通过门控Transformer编码器学习脑电信号中的全局依赖关系,其利用多头注意力机制有效增强网络表达相关脑电信号特征的能力。之后利用时间卷积网络提取脑电信号可用的时间特征,最后将提取的抽象特征输入到分类模块进行分类。在公开数据集MODMA上用留出法和十折交叉验证法对提出模型进行实验验证,分别取得了约98.51%和98.53%的分类准确率,相较于基线单尺度模型EEGNet,分类准确率分别提升了约1.89%和1.93%,F1值分别提升了约2.05%和2.08%,kappa系数值分别提高了约0.038 1和0.038 5;同时消融实验验证了文中设计的各个模块的有效性。 展开更多
关键词 脑电信号 抑郁分类 深度学习 transformER 时间卷积网络
下载PDF
基于Depth-wise卷积和视觉Transformer的图像分类模型
5
作者 张峰 黄仕鑫 +1 位作者 花强 董春茹 《计算机科学》 CSCD 北大核心 2024年第2期196-204,共9页
图像分类作为一种常见的视觉识别任务,有着广阔的应用场景。在处理图像分类问题时,传统的方法通常使用卷积神经网络,然而,卷积网络的感受野有限,难以建模图像的全局关系表示,导致分类精度低,难以处理复杂多样的图像数据。为了对全局关... 图像分类作为一种常见的视觉识别任务,有着广阔的应用场景。在处理图像分类问题时,传统的方法通常使用卷积神经网络,然而,卷积网络的感受野有限,难以建模图像的全局关系表示,导致分类精度低,难以处理复杂多样的图像数据。为了对全局关系进行建模,一些研究者将Transformer应用于图像分类任务,但为了满足Transformer的序列化和并行化要求,需要将图像分割成大小相等、互不重叠的图像块,破坏了相邻图像数据块之间的局部信息。此外,由于Transformer具有较少的先验知识,模型往往需要在大规模数据集上进行预训练,因此计算复杂度较高。为了同时建模图像相邻块之间的局部信息并充分利用图像的全局信息,提出了一种基于Depth-wise卷积的视觉Transformer(Efficient Pyramid Vision Transformer,EPVT)模型。EPVT模型可以实现以较低的计算成本提取相邻图像块之间的局部和全局信息。EPVT模型主要包含3个关键组件:局部感知模块(Local Perceptron Module,LPM)、空间信息融合模块(Spatial Information Fusion,SIF)和“+卷积前馈神经网络(Convolution Feed-forward Network,CFFN)。LPM模块用于捕获图像的局部相关性;SIF模块用于融合相邻图像块之间的局部信息,并利用不同图像块之间的远距离依赖关系,提升模型的特征表达能力,使模型学习到输出特征在不同维度下的语义信息;CFFN模块用于编码位置信息和重塑张量。在图像分类数据集ImageNet-1K上,所提模型优于现有的同等规模的视觉Transformer分类模型,取得了82.6%的分类准确度,证明了该模型在大规模数据集上具有竞争力。 展开更多
关键词 深度学习 图像分类 Depth-wise卷积 视觉transformer 注意力机制
下载PDF
基于残差U-Net和自注意力Transformer编码器的磁场预测方法
6
作者 金亮 尹振豪 +2 位作者 刘璐 宋居恒 刘元凯 《电工技术学报》 EI CSCD 北大核心 2024年第10期2937-2952,共16页
利用有限元方法对几何结构复杂的电机和变压器进行磁场分析,存在仿真时间长且无法复用的问题。因此,该文提出一种基于残差U-Net和自注意力Transformer编码器的磁场预测方法。首先建立永磁同步电机(PMSM)和非晶合金变压器(AMT)有限元模型... 利用有限元方法对几何结构复杂的电机和变压器进行磁场分析,存在仿真时间长且无法复用的问题。因此,该文提出一种基于残差U-Net和自注意力Transformer编码器的磁场预测方法。首先建立永磁同步电机(PMSM)和非晶合金变压器(AMT)有限元模型,得到深度学习训练所需的数据集;然后将Transformer模块与U-Net模型结合,并引入短残差机制建立ResUnet-Transformer模型,通过预测图像的像素实现磁场预测;最后通过Targeted Dropout算法和动态学习率调整策略对模型进行优化,解决拟合问题并提高预测精度。计算实例证明,ResUnet-Transformer模型在PMSM和AMT数据集上测试集的平均绝对百分比误差(MAPE)均小于1%,且仅需500组样本。该文提出的磁场预测方法能减少实际工况和多工况下精细模拟和拓扑优化的时间和资源消耗,亦是虚拟传感器乃至数字孪生的关键实现方法之一。 展开更多
关键词 有限元方法 电磁场 深度学习 U-Net transformER
下载PDF
融合卷积注意力和Transformer架构的行人重识别方法
7
作者 王静 李沛橦 +2 位作者 赵容锋 张云 马振玲 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2024年第2期466-476,共11页
行人重识别技术是智能安防系统中的重要方法之一,为构建一个适用各种复杂场景的行人重识别模型,基于现有的卷积神经网络和Transformer模型,提出一种融合卷积注意力和Transformer(FCAT)架构的方法,以增强Transformer对局部细节信息的关... 行人重识别技术是智能安防系统中的重要方法之一,为构建一个适用各种复杂场景的行人重识别模型,基于现有的卷积神经网络和Transformer模型,提出一种融合卷积注意力和Transformer(FCAT)架构的方法,以增强Transformer对局部细节信息的关注。所提方法主要将卷积空间注意力和通道注意力嵌入Transformer架构中,分别加强对图像中重要区域的关注和对重要通道特征的关注,以进一步提高Transformer架构对局部细节特征的提取能力。在3个公开行人重识别数据集上的对比消融实验证明,所提方法在非遮挡数据集上取得了与现有方法相当的结果,在遮挡数据集上的性能得到显著提升。所提方法更加轻量化,在不增加额外计算量和模型参数的情况下,推理速度得到了提升。 展开更多
关键词 行人重识别 深度学习 卷积神经网络 transformER 注意力机制
下载PDF
基于Transformer的司法文书命名实体识别方法
8
作者 王颖洁 张程烨 +1 位作者 白凤波 汪祖民 《计算机科学》 CSCD 北大核心 2024年第S01期113-121,共9页
命名实体识别是自然语言处理领域的关键任务之一,是实现下游任务的基础。目前针对司法领域的相关研究相对较少,司法系统的信息化和智能化转型仍有许多问题亟需解决。相比其他领域的文本,司法文书存在专业性强、语料资源少等局限,导致现... 命名实体识别是自然语言处理领域的关键任务之一,是实现下游任务的基础。目前针对司法领域的相关研究相对较少,司法系统的信息化和智能化转型仍有许多问题亟需解决。相比其他领域的文本,司法文书存在专业性强、语料资源少等局限,导致现有的司法文书识别结果较低。因此,从以下3方面开展研究:首先,提出了一种多标签层级迭代的文本标注方式,可以对原始司法文书文本进行自动化标注,同时有效地提升司法文书命名实体识别任务的实体识别效果;其次,提出了一种交融式的Transformer神经网络模型,对汉字固有属性的深层特征进行了充分利用,用于对司法文书进行命名实体识别;最后,对所提出的标注方法和模型与其他神经网络模型进行了对比实验。所提出的文本标注方式可以较为准确地实现司法文书的标注任务;同时,所提出的模型在通用数据集中相对于对照模型有较大的提高,并在司法领域数据集中取得了良好的效果。 展开更多
关键词 自然语言处理 数据标注 transformer模型 深度学习 司法信息化
下载PDF
V型Transformer的遥感影像障碍物提取方法
9
作者 邓飞 罗文 +2 位作者 蒋先艺 许银坡 王岩 《石油地球物理勘探》 EI CSCD 北大核心 2024年第4期745-754,共10页
遥感影像中的障碍物是地震采集观测系统变观的重要依据之一。传统的人工提取障碍物方法效率低,且易受人为因素影响,难以保证结果的一致性,不适用于复杂地表环境及数量庞大的障碍物。当前通用的卷积神经网络自动提取障碍物方法,由于卷积... 遥感影像中的障碍物是地震采集观测系统变观的重要依据之一。传统的人工提取障碍物方法效率低,且易受人为因素影响,难以保证结果的一致性,不适用于复杂地表环境及数量庞大的障碍物。当前通用的卷积神经网络自动提取障碍物方法,由于卷积核的尺寸受限,无法直接进行远距离的语义交互,也不能准确提取具有较大跨度且部分被遮蔽的障碍物(乡间道路、河流等)。为此,提出了基于V型全自注意力网络(MTNet)提取遥感影像障碍物的方法。首先,MTNet采用端到端的V型编码器—解码器结构,通过跳跃连接实现信息交互;其次,用具有远距离建模能力的Mix-Transformer模块取代传统卷积层,提取和重建更准确的障碍物多尺度特征;最后,用轻量的块扩展层取代转置卷积,实现上采样和图像分割,重建障碍物信息。实验结果表明,该网络分割障碍物的精度和速度显著优于现有方法,尤其在道路识别方面,优势更明显。 展开更多
关键词 观测系统变观 深度学习 障碍物提取 图像语义分割 Mix-transformer
下载PDF
基于CTC与Transformer的普通话单音节发音错误检测
10
作者 杨兴耀 卢进堂 +2 位作者 肖瑞 张利飞 曾利文 《东北师大学报(自然科学版)》 CAS 北大核心 2024年第1期87-95,共9页
提出CTC与Transformer结合的端到端模型,使用多编码器和字层级一致的方法,降低在复杂录制环境下的识别错误率.该端到端模型在自建数据集PSC_Monosyllable的测试集上的词错误率为5.6%.通过预训练,可以实现发音错误检测的正误分类,且比传... 提出CTC与Transformer结合的端到端模型,使用多编码器和字层级一致的方法,降低在复杂录制环境下的识别错误率.该端到端模型在自建数据集PSC_Monosyllable的测试集上的词错误率为5.6%.通过预训练,可以实现发音错误检测的正误分类,且比传统机器学习模型检测结果性能提升了16%,有效地提升了发音错误检出率,得出了较好的结果,检测率为0.589. 展开更多
关键词 语音识别 发音错误检测 语料库建设 深度学习 transformER
下载PDF
基于语言和视觉融合Transformer的指代图像分割
11
作者 段勇 刘铁 《传感技术学报》 CAS CSCD 北大核心 2024年第7期1193-1201,共9页
针对指代图像分割任务中存在语言表达歧义、多模态特征对齐不充分、对图像整体理解不全面等问题,提出一种基于Transformer特征融合与对齐的多模态深度学习模型。该模型使用优化的Darknet53图像特征提取骨干网络,加强了对全局特征理解能... 针对指代图像分割任务中存在语言表达歧义、多模态特征对齐不充分、对图像整体理解不全面等问题,提出一种基于Transformer特征融合与对齐的多模态深度学习模型。该模型使用优化的Darknet53图像特征提取骨干网络,加强了对全局特征理解能力。使用了卷积神经网络结构、双向门控循环单元Bi-GRU结构和自注意力机制相互结合的语言特征提取结构,挖掘深层次语义特征,消除语言表达的歧义性。构建了基于Transformer的特征对齐结构,以提升模型的分割细节和分割精度。最后,采用平均的交并比mIoU和在不同阈值的识别精度作为模型评估指标,通过实验证明所提模型可以充分融合多模态的特征,理解多模态特征的深层语义信息,模型识别结果更加准确。 展开更多
关键词 深度学习 指代图像分割 自然语言处理 注意力机制 transformer模型
下载PDF
融合CNN和Transformer的图像去噪网络
12
作者 姜文涛 卜艺凡 《计算机系统应用》 2024年第7期39-51,共13页
目前基于深度学习的图像去噪算法无法综合考虑局部和全局的特征信息,进而影响细节处的图像去噪效果,针对该问题,提出了融合CNN和Transformer的图像去噪网络(hybrid CNN and Transformer image denoising network,HCT-Net).首先,提出CNN... 目前基于深度学习的图像去噪算法无法综合考虑局部和全局的特征信息,进而影响细节处的图像去噪效果,针对该问题,提出了融合CNN和Transformer的图像去噪网络(hybrid CNN and Transformer image denoising network,HCT-Net).首先,提出CNN和Transformer耦合模块(CNN and Transformer coupling block,CTB),构造融合卷积和通道自注意力的双分支结构,缓解单纯依赖Transformer造成的高额计算开销,同时动态分配注意力权重使网络关注重要图像特征.其次,设计自注意力增强卷积模块(self-attention enhanced convolution module,SAConv),采用递进式组合模块和非线性变换,减弱噪声信号干扰,提升在复杂噪声水平下识别局部特征的能力.在6个基准数据集上的实验结果表明,HCT-Net相比当前一些先进的去噪方法具有更好的特征感知能力,能够抑制高频的噪声信号从而恢复图像的边缘和细节信息. 展开更多
关键词 图像去噪 深度学习 transformER 卷积神经网络 注意力机制
下载PDF
融合Transformer和交互注意力网络的方面级情感分类模型
13
作者 程艳 胡建生 +5 位作者 赵松华 罗品 邹海锋 詹勇鑫 富雁 刘春雷 《智能系统学报》 CSCD 北大核心 2024年第3期728-737,共10页
现有的大多数研究者使用循环神经网络与注意力机制相结合的方法进行方面级情感分类任务。然而,循环神经网络不能并行计算,并且模型在训练过程中会出现截断的反向传播、梯度消失和梯度爆炸等问题,传统的注意力机制可能会给句子中重要情... 现有的大多数研究者使用循环神经网络与注意力机制相结合的方法进行方面级情感分类任务。然而,循环神经网络不能并行计算,并且模型在训练过程中会出现截断的反向传播、梯度消失和梯度爆炸等问题,传统的注意力机制可能会给句子中重要情感词分配较低的注意力权重。针对上述问题,该文提出了一种融合Transformer和交互注意力网络的方面级情感分类模型。首先利用BERT(bidirectional encoder representation from Transformers)预训练模型来构造词嵌入向量,然后使用Transformer编码器对输入的句子进行并行编码,接着使用上下文动态掩码和上下文动态权重机制来关注与特定方面词有重要语义关系的局部上下文信息。最后在5个英文数据集和4个中文评论数据集上的实验结果表明,该文所提模型在准确率和F1上均表现最优。 展开更多
关键词 方面词 情感分类 循环神经网络 transformER 交互注意力网络 BERT 局部特征 深度学习
下载PDF
基于Transformer和GAN的多元时间序列异常检测方法
14
作者 曾凡锋 吕繁钰 《北方工业大学学报》 2024年第1期100-109,共10页
在时序数据分析中,异常检测是最为成熟的应用之一。它在量化交易、网络安全检测、自动驾驶和大型工业设备日常维护等现实领域广泛应用。随着业务组合的复杂性和时序数据量的增加,传统的人工和简单算法方法很难判断异常点。针对上述问题... 在时序数据分析中,异常检测是最为成熟的应用之一。它在量化交易、网络安全检测、自动驾驶和大型工业设备日常维护等现实领域广泛应用。随着业务组合的复杂性和时序数据量的增加,传统的人工和简单算法方法很难判断异常点。针对上述问题,对现有的检测方法进行了改进,提出了一种基于Transformer和生成式对抗网络(Generative Adversarial Networks,GAN)的时间序列异常检测模型,利用改进后的Transformer对时间序列的空间特征进行提取,并使用基于异常分数的异常检测算法和对抗训练以获得稳定性和准确性。模型采用自监督训练的方式,避免了需要手动标注异常数据的麻烦,同时减少了数据集对于监督模型训练的依赖。通过实验验证,本文提出的基于Transformer的时间序列异常检测模型在准确率上与先进的基于Transformer的模型相当,并且表现优于多元时间序列的大型数据集上的监督训练和传统异常检测方法。因此,该模型在实际应用中具有较好的潜力。 展开更多
关键词 深度学习 异常检测 transformER 生成式对抗网络(GAN) 多元时间序列
下载PDF
基于LSTM与Transformer的地面沉降智能预测方法研究——以上海市为例
15
作者 彭文祥 张德英 《时空信息学报》 2024年第1期94-103,共10页
受地面沉降严重威胁到生命财产安全的人口已达19%,开展地面沉降模拟预测对防灾减灾具有非常重要的现实意义。针对现有地面沉降预测在模型参数难以获取、单一深度学习方法在预测精度低等方面的局限性,本文提出了集成大模型核心技术的地... 受地面沉降严重威胁到生命财产安全的人口已达19%,开展地面沉降模拟预测对防灾减灾具有非常重要的现实意义。针对现有地面沉降预测在模型参数难以获取、单一深度学习方法在预测精度低等方面的局限性,本文提出了集成大模型核心技术的地面沉降预测方法。首先,从地面沉降模拟预测的顶层设计,提出了基于深度学习的地面沉降预测包括算力层、数据层、模型层、评估层与应用层的总体架构;其次,基于LSTM与Transformer提出了地面沉降预测的实用方法;最后,利用上海的地面沉降数据进行了实验研究。结果表明:深度学习技术可以在地面沉降模拟预测中取得较好的结果,多模型法对地面沉降变化不大、回弹、变化较大均可进行预测,iTransformer模型对地面沉降变化较小的情况预测效果较好;在微量地面沉降时代,利用大模型的核心技术Transformer可以取得较高的精度。 展开更多
关键词 地面沉降 深度学习 时间序列预测 长短期记忆 transformER 大模型
下载PDF
基于Swin Transformer和CNN的汉字书法教学系统
16
作者 林粤伟 张通 +2 位作者 宋丹 梁汇鑫 薛克程 《青岛大学学报(自然科学版)》 CAS 2024年第1期45-51,共7页
针对日益增长的汉字书法学习需求,将滑动窗口自注意力(Swin Transformer,ST)模型和卷积神经网络(Convolutional Neural Network,CNN)模型相结合,提出手写体汉字识别ST-CNN模型,进而开发了汉字书法教学系统。实测结果表明,ST-CNN模型识... 针对日益增长的汉字书法学习需求,将滑动窗口自注意力(Swin Transformer,ST)模型和卷积神经网络(Convolutional Neural Network,CNN)模型相结合,提出手写体汉字识别ST-CNN模型,进而开发了汉字书法教学系统。实测结果表明,ST-CNN模型识别准确率约为91.6%,较传统的ST模型提升了约0.5个百分点,较传统的CNN模型与ST模型,在收敛速度上分别提升了约10和30个百分点,开发的汉字书法教学系统性能良好。 展开更多
关键词 深度学习 滑动窗口自注意力模型 卷积神经网络 手写体汉字识别
下载PDF
视觉Transformer在低级视觉领域的研究综述 被引量:1
17
作者 朱凯 李理 +2 位作者 张彤 江晟 别一鸣 《计算机工程与应用》 CSCD 北大核心 2024年第4期39-56,共18页
Transformer是一种革命性的神经网络模型架构,最初为自然语言处理而设计,但其由于卓越的性能,在计算机视觉领域获得了广泛的应用。虽然关于Transformer在自然语言处理领域的应用有大量的研究和文献,但针对低级视觉任务的综述相对匮乏。... Transformer是一种革命性的神经网络模型架构,最初为自然语言处理而设计,但其由于卓越的性能,在计算机视觉领域获得了广泛的应用。虽然关于Transformer在自然语言处理领域的应用有大量的研究和文献,但针对低级视觉任务的综述相对匮乏。简要介绍了Transformer的原理并分析归纳了几种变体。在低级视觉任务的应用方面,将重点放在图像恢复、图像增强和图像生成这三个关键领域。通过详细分析不同模型在这些任务中的表现,探讨了它们在常用数据集上的性能差异。对Transformer在低级视觉领域的发展趋势进行了总结和展望,提出了未来的研究方向,以进一步推动Transformer在低级视觉任务中的创新和发展。这一领域的迅猛发展将为计算机视觉和图像处理领域带来更多的突破,为实际应用提供更加强大和高效的解决方案。 展开更多
关键词 transformER 深度学习 注意力机制 计算机视觉 低级视觉任务
下载PDF
面向图像分类的视觉Transformer研究进展 被引量:2
18
作者 彭斌 白静 +2 位作者 李文静 郑虎 马向宇 《计算机科学与探索》 CSCD 北大核心 2024年第2期320-344,共25页
Transformer是一种基于自注意力机制的深度学习模型,在计算机视觉中展现出巨大的潜力。而在图像分类任务中,关键的挑战是高效而准确地捕捉输入图片的局部和全局特征。传统方法使用卷积神经网络的底层提取其局部特征,并通过卷积层堆叠扩... Transformer是一种基于自注意力机制的深度学习模型,在计算机视觉中展现出巨大的潜力。而在图像分类任务中,关键的挑战是高效而准确地捕捉输入图片的局部和全局特征。传统方法使用卷积神经网络的底层提取其局部特征,并通过卷积层堆叠扩大感受野以获取图像的全局特征。但这种策略在相对短的距离内聚合信息,难以建立长期依赖关系。相比之下,Transformer的自注意力机制通过直接比较特征在所有空间位置上的相关性,捕捉了局部和全局的长距离依赖关系,具备更强的全局建模能力。因此,深入探讨Transformer在图像分类任务中的问题是非常有必要的。首先以Vision Transformer为例,详细介绍了Transformer的核心原理和架构。然后以图像分类任务为切入点,围绕与视觉Transformer研究中的性能提升、计算成本和训练优化相关的三个重要方面,总结了视觉Transformer研究中的关键问题和最新进展。此外,总结了Transformer在医学图像、遥感图像和农业图像等多个特定领域的应用情况。这些领域中的应用展示了Transformer的多功能性和通用性。最后,通过综合分析视觉Transformer在图像分类方面的研究进展,对视觉Transformer的未来发展方向进行了展望。 展开更多
关键词 深度学习 视觉transformer 网络架构 图像分类 自注意力机制
下载PDF
UAV-Assisted Dynamic Avatar Task Migration for Vehicular Metaverse Services: A Multi-Agent Deep Reinforcement Learning Approach 被引量:1
19
作者 Jiawen Kang Junlong Chen +6 位作者 Minrui Xu Zehui Xiong Yutao Jiao Luchao Han Dusit Niyato Yongju Tong Shengli Xie 《IEEE/CAA Journal of Automatica Sinica》 SCIE EI CSCD 2024年第2期430-445,共16页
Avatars, as promising digital representations and service assistants of users in Metaverses, can enable drivers and passengers to immerse themselves in 3D virtual services and spaces of UAV-assisted vehicular Metavers... Avatars, as promising digital representations and service assistants of users in Metaverses, can enable drivers and passengers to immerse themselves in 3D virtual services and spaces of UAV-assisted vehicular Metaverses. However, avatar tasks include a multitude of human-to-avatar and avatar-to-avatar interactive applications, e.g., augmented reality navigation,which consumes intensive computing resources. It is inefficient and impractical for vehicles to process avatar tasks locally. Fortunately, migrating avatar tasks to the nearest roadside units(RSU)or unmanned aerial vehicles(UAV) for execution is a promising solution to decrease computation overhead and reduce task processing latency, while the high mobility of vehicles brings challenges for vehicles to independently perform avatar migration decisions depending on current and future vehicle status. To address these challenges, in this paper, we propose a novel avatar task migration system based on multi-agent deep reinforcement learning(MADRL) to execute immersive vehicular avatar tasks dynamically. Specifically, we first formulate the problem of avatar task migration from vehicles to RSUs/UAVs as a partially observable Markov decision process that can be solved by MADRL algorithms. We then design the multi-agent proximal policy optimization(MAPPO) approach as the MADRL algorithm for the avatar task migration problem. To overcome slow convergence resulting from the curse of dimensionality and non-stationary issues caused by shared parameters in MAPPO, we further propose a transformer-based MAPPO approach via sequential decision-making models for the efficient representation of relationships among agents. Finally, to motivate terrestrial or non-terrestrial edge servers(e.g., RSUs or UAVs) to share computation resources and ensure traceability of the sharing records, we apply smart contracts and blockchain technologies to achieve secure sharing management. Numerical results demonstrate that the proposed approach outperforms the MAPPO approach by around 2% and effectively reduces approximately 20% of the latency of avatar task execution in UAV-assisted vehicular Metaverses. 展开更多
关键词 AVATAR blockchain metaverses multi-agent deep reinforcement learning transformer UAVS
下载PDF
基于感知增强Swin Transformer的遥感图像检测 被引量:1
20
作者 祝冰艳 陈志华 盛斌 《计算机工程》 CSCD 北大核心 2024年第1期216-223,共8页
随着遥感技术的快速发展,遥感图像检测被广泛应用于农业、军事、国防安全等众多领域。遥感图像相较于传统图像检测存在诸多难点,如何实现高效精准的遥感图像检测成为该领域的研究热点。针对遥感图像检测中存在的计算复杂度高、正负样本... 随着遥感技术的快速发展,遥感图像检测被广泛应用于农业、军事、国防安全等众多领域。遥感图像相较于传统图像检测存在诸多难点,如何实现高效精准的遥感图像检测成为该领域的研究热点。针对遥感图像检测中存在的计算复杂度高、正负样本不平衡、目标尺度小等问题,提出一种基于感知增强Swin Transformer的遥感图像检测网络,以提升遥感图像检测性能。在主干网络设计过程中,利用Swin Transformer分层设计和移动窗口的优点有效减小计算复杂度,同时插入空间局部感知块,加强网络对局部相关性和结构信息的提取能力。设计区域分布回归损失为小目标分配更大的权重,解决了正负样本不平衡的问题,同时结合改进的IoU-aware分类损失消除不同分支之间的差距,降低分类和回归损失。在公共遥感数据集DOTA上的多组实验结果表明,该网络获得了78.47%的平均精度均值和10.8帧/s的检测速度,检测性能优于经典的目标检测网络Faster R-CNN、Mask R-CNN以及现有优秀的遥感图像检测网络,并且在各类不同尺度的目标上均具有较好的性能表现。 展开更多
关键词 遥感图像 目标检测 Swin transformer 多尺度特征 深度学习
下载PDF
上一页 1 2 67 下一页 到第
使用帮助 返回顶部