文摘胸部X光(Chest X-ray,CR)图像是诊断胸部病灶的重要依据,针对胸片多标签疾病分类任务中难以充分挖掘疾病特征与疾病依赖关系的问题,提出一种基于Vision Transformer的胸片多标签疾病分类模型(CR Multi-label Disease Classification Model based on Vision Transformer,CDC-ViT)。首先使用Efficientnet-B0作为特征提取器提取特征图,特征图经过映射后添加分类嵌入块及位置嵌入块并输入到Transformer模块,通过Transformer网络计算特征之间的权重矩阵,更好地挖掘疾病特征之间的联系;然后通过相互注意力权重选择(Mutual Attention Weight Selection,MAWS)对多层Encoder模块收集到的所有病灶的特征块(Token)进行特征选择,选择最有助于分类的特征;最后,通过全连接网络映射其分类结果,并使用ASL损失函数计算与标签差异进行反向传播优化模型参数。将本模型应用于公开数据集ChestX-ray14,实验结果表明,提出的CDC-ViT对14种胸部疾病分类的平均AUC值达到0.8228,高出对比模型最优结果约2%,性能优于多种现有的分类模型。