-
题名面向图像分类的视觉Transformer研究进展
被引量:3
- 1
-
-
作者
彭斌
白静
李文静
郑虎
马向宇
-
机构
北方民族大学计算机科学与工程学院
图像图形智能信息处理国家民委重点实验室
-
出处
《计算机科学与探索》
CSCD
北大核心
2024年第2期320-344,共25页
-
基金
国家自然科学基金(62162001,61762003)
宁夏自然科学基金(2022AAC02041)
宁夏优秀人才支持计划。
-
文摘
Transformer是一种基于自注意力机制的深度学习模型,在计算机视觉中展现出巨大的潜力。而在图像分类任务中,关键的挑战是高效而准确地捕捉输入图片的局部和全局特征。传统方法使用卷积神经网络的底层提取其局部特征,并通过卷积层堆叠扩大感受野以获取图像的全局特征。但这种策略在相对短的距离内聚合信息,难以建立长期依赖关系。相比之下,Transformer的自注意力机制通过直接比较特征在所有空间位置上的相关性,捕捉了局部和全局的长距离依赖关系,具备更强的全局建模能力。因此,深入探讨Transformer在图像分类任务中的问题是非常有必要的。首先以Vision Transformer为例,详细介绍了Transformer的核心原理和架构。然后以图像分类任务为切入点,围绕与视觉Transformer研究中的性能提升、计算成本和训练优化相关的三个重要方面,总结了视觉Transformer研究中的关键问题和最新进展。此外,总结了Transformer在医学图像、遥感图像和农业图像等多个特定领域的应用情况。这些领域中的应用展示了Transformer的多功能性和通用性。最后,通过综合分析视觉Transformer在图像分类方面的研究进展,对视觉Transformer的未来发展方向进行了展望。
-
关键词
深度学习
视觉Transformer
网络架构
图像分类
自注意力机制
-
Keywords
deep learning
Vision Transformer
network structure
image classification
self-attention mechanism
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名预加权调制密集图卷积网络三维人体姿态估计
- 2
-
-
作者
马金林
崔琦磊
马自萍
闫琦
曹浩杰
武江涛
-
机构
北方民族大学计算机科学与工程学院
图像图形智能信息处理国家民委重点实验室
北方民族大学数学与信息科学学院
-
出处
《计算机科学与探索》
CSCD
北大核心
2024年第4期963-977,共15页
-
基金
北方民族大学中央高校基本科研业务费专项(2021KJCX09,FWNX21)
宁夏自然科学基金(2022AAC03268,2020AAC3215)。
-
文摘
图卷积网络(GCN)日益成为三维人体姿态估计(3D HPE)的主要研究热点之一,使用GCN对人体关节点之间的关系建模的方法使三维人体姿态估计获得了良好的性能。然而,基于GCN的三维人体姿态估计方法存在过平滑和未区分关节点与相邻关节点重要性的问题。为解决这些问题,设计了调制密集连接模块(MDC)和预加权图卷积模块,并基于这两个模块提出了预加权调制密集图卷积网络的三维人体姿态估计方法(WMDGCN)。针对过平滑问题,调制密集连接通过超参数α和β更好地实现特征重用(超参数α表示第l层和之前各层总特征的权重比例,超参数β表示之前各层特征到第l层的传播策略),从而有效地提高特征的表达能力。针对未区分关节点与相邻关节点重要性的问题,使用预加权图卷积为当前关节点赋予更高的权重,并对当前关节点及其相邻关节点使用不同的权重矩阵,更有效地捕获人体关节点特征。Human3.6M数据集上的对比实验结果表明,该方法在参数量和性能上均取得了最佳性能,WMDGCN的参数量、MPJPE和P-MPJPE值分别为0.27 MB、37.46 mm和28.85 mm。
-
关键词
三维人体姿态估计
图卷积网络
预加权
-
Keywords
3D human pose estimation
graph convolution network
pre-weighted
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名HSKDLR:同类自知识蒸馏的轻量化唇语识别方法
被引量:1
- 3
-
-
作者
马金林
刘宇灏
马自萍
巩元文
朱艳彬
-
机构
北方民族大学计算机科学与工程学院
图像图形智能信息处理国家民委重点实验室
北方民族大学数学与信息科学学院
-
出处
《计算机科学与探索》
CSCD
北大核心
2023年第11期2689-2702,共14页
-
基金
宁夏自然科学基金(2022AAC03268,2020AAC3215)
北方民族大学中央高校基本科研业务费专项(2021KJCX09,FWNX21)
北方民族大学“计算机视觉与虚拟现实”创新团队项目。
-
文摘
针对唇语识别模型的识别率较低和计算量较大的问题,提出一种同类自知识蒸馏的轻量化唇语识别模型(HSKDLR)。首先,提出关注唇部图像空间特征的S-SE注意力模块,用其构建提取唇部图像通道特征和空间特征的i-Ghost Bottleneck模块,以提升唇语识别模型的准确率;其次,基于i-Ghost Bottleneck构建唇语识别模型,该模型通过优化瓶颈结构的组合方式降低模型计算量;然后,为提升模型准确率,减少模型运行时间,提出同类自知识蒸馏(HSKD)的模型训练方法;最后,使用同类自知识蒸馏方法训练唇语识别模型,并检验其识别性能。实验结果表明:与其他方法相比,HSKDLR具有更高的识别准确率和更低的计算量,在LRW数据集上的准确率达87.3%,浮点数运算量低至2.564 GFLOPs,参数量低至3.8723×107;同类自知识蒸馏可被应用于大多数唇语识别模型,帮助其有效提升识别准确率,减少训练时间。
-
关键词
唇语识别
轻量化
知识蒸馏
自知识
Ghost
Bottleneck
-
Keywords
lip reading
lightweight
knowledge distillation
self-knowledge
Ghost Bottleneck
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名新型冠状病毒肺炎的深度学习诊断方法综述
被引量:2
- 4
-
-
作者
马金林
裘硕
马自萍
陈勇
-
机构
北方民族大学计算机科学与工程学院
图像图形智能信息处理国家民委重点实验室
北方民族大学数学与信息科学学院
宁夏医科大学总医院放射介入科
-
出处
《计算机工程与应用》
CSCD
北大核心
2022年第12期51-65,共15页
-
基金
北方民族大学中央高校基本科研业务费专项(2021KJCX09,FWNX21)
宁夏自然科学基金(2020AAC3215)
北方民族大学“计算机视觉与虚拟现实”创新团队。
-
文摘
新型冠状病毒肺炎的高感染率导致其在全球范围内迅速传播,常用的逆转录-聚合酶反应(RT-PCR)检测方法存在耗时、假阴性率偏高和医学用具不足的缺陷,因此开发高效、准确、低成本的影像检测技术对新型冠状病毒肺炎的诊断和治疗至关重要。随着人工智能在医学领域的成功应用,深度学习技术成为辅助检验和识别新型冠状病毒肺炎的有效方法。对近年来涌现的新型冠状病毒肺炎的深度学习诊断方法进行了研究和总结:介绍了深度学习方法使用的两种新型冠状病毒肺炎数据集;介绍了基于VGGNet、Inception、ResNet、DenseNet、EfficientNet和CapsNet模型的六种深度学习诊断方法;介绍了三种深度学习与其他机器学习方法结合的诊断方法;对基于深度学习的新型冠状病毒肺炎诊断方法的研究趋势进行了展望。
-
关键词
新型冠状病毒肺炎
深度学习
X射线
CT
轻量化
-
Keywords
COVID-19
deep learning
X-ray
CT
lightweight
-
分类号
R563.1
[医药卫生—呼吸系统]
-
-
题名唇语识别的深度学习方法综述
被引量:4
- 5
-
-
作者
马金林
朱艳彬
马自萍
巩元文
陈德光
刘宇灏
-
机构
北方民族大学计算机科学与工程学院
图像图形智能信息处理国家民委重点实验室
北方民族大学数学与信息科学学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2021年第24期61-73,共13页
-
基金
北方民族大学中央高校基本科研业务费专项(2021KJCX09,FWNX21,ZDZX201801)
宁夏自然科学基金(2020AAC03215)
+1 种基金
北方民族大学“计算机视觉与虚拟现实”创新团队项目
国家自然科学基金(61462002)。
-
文摘
随着深度学习的不断发展,唇语识别领域的研究取得了重大进展,涌现了许多唇语识别的深度学习算法。依据识别对象的连续性,将唇语识别分为孤立唇语识别和连续唇语识别,并对各识别任务的深度学习方法进行了详细和深入的分析总结。从孤立唇语识别的深度学习方法和连续唇语识别的深度方法两个方面介绍了主流唇语识别方法,并对各方法的优缺点和性能进行比较;对不同数据集下代表性方法的特点和性能进行比较,对两类方法的优缺点和适用范围进行阐述;讨论了唇语识别方法存在的问题和挑战,并对唇语识别方法的研究趋势进行了展望。
-
关键词
唇语识别
深度学习
卷积神经网络
注意力机制
-
Keywords
lip recognition
deep learning
convolutional neural networks
attentional mechanisms
-
分类号
TP389.1
[自动化与计算机技术—计算机系统结构]
-