跨模态哈希检索以其较高的检索效率和较低的存储成本,在跨模态检索领域受到了广泛的关注.现有的跨模态哈希大多直接从多模态数据中学习哈希码,不能充分利用数据的语义信息,因此无法保证数据低维特征在模态间的分布一致性,解决这个问题...跨模态哈希检索以其较高的检索效率和较低的存储成本,在跨模态检索领域受到了广泛的关注.现有的跨模态哈希大多直接从多模态数据中学习哈希码,不能充分利用数据的语义信息,因此无法保证数据低维特征在模态间的分布一致性,解决这个问题的关键之一是要准确地度量多模态数据之间的相似度.为此,提出一种基于对抗投影学习的哈希(adversarial projection learning based Hashing for cross-modal retrieval,APLH)方法用于跨模态检索.利用对抗训练学习来自不同模态的低维特征,并保证低维特征在模态间的分布一致性.在此基础上,利用跨模态投影匹配约束(cross-modal projection matching,CMPM),最小化特征投影匹配分布和标签投影匹配分布之间的KL(Kullback-Leibler)散度,利用标签信息使数据低维特征之间的相似度结构与语义空间中的相似度结构趋于一致.此外,在哈希码学习阶段,引入加权余弦三元组损失进一步利用数据的语义信息;且为减小哈希码的量化损失,使用离散优化的方法优化哈希函数.在3个跨模态数据集MIRFlickr25K,NUS-WIDE,Wikipedia上,以不同码位计算mAP,且所提方法的mAP值均优于其他算法,验证了其在跨模态哈希检索上的优越性、鲁棒性以及CMPM的有效性.展开更多
对人脸进行检测与跟踪是诸如人机交互、视频监控等众多应用的基础。在众多方法当中,连续自适应均值偏移(Con-tinuously Adaptive Mean Shift,简称Camshift)算法在兼具良好跟踪性能的同时做到了较低的计算成本。然而在经典Camshift算法中...对人脸进行检测与跟踪是诸如人机交互、视频监控等众多应用的基础。在众多方法当中,连续自适应均值偏移(Con-tinuously Adaptive Mean Shift,简称Camshift)算法在兼具良好跟踪性能的同时做到了较低的计算成本。然而在经典Camshift算法中,反映像素类肤色概率的"反向投影图"会受到初始搜索框内背景像素的影响,是几乎所有基于经典Camshift的算法中普遍存在的一个问题。针对反向投影图的原理进行分析,并采用人脸检测结果作为替代方案,从而对传统Camshift算法进行改进。同时,对YCrCb色彩空间中的人脸检测进行多时段分析,并借此自动确定初始跟踪区域,较传统Camshift算法具有更好的效果。展开更多
目的糖尿病性视网膜病变(diabetic retinopathy,DR)是一种常见的致盲性视网膜疾病,需要患者在早期就能够被诊断并接受治疗,否则将会造成永久性的视力丧失。能否检测到视网膜图像中的微小病变如微血管瘤,是糖尿病性视网膜病变分级的关键...目的糖尿病性视网膜病变(diabetic retinopathy,DR)是一种常见的致盲性视网膜疾病,需要患者在早期就能够被诊断并接受治疗,否则将会造成永久性的视力丧失。能否检测到视网膜图像中的微小病变如微血管瘤,是糖尿病性视网膜病变分级的关键。然而这些病变过于细小导致使用一般方法难以正确地辨别。为了解决这一问题,本文提出了一种基于多通道注意力选择机制的细粒度分级方法(fine-grained grading method based on multichannel attention selection,FGMAS)用于糖尿病性视网膜病变的分级。方法该方法结合了细粒度分类方法和多通道注意力选择机制,通过获取局部特征提升分级的准确度。此外考虑到每一层通道特征信息量与分类置信度的关系,本文引入了排序损失以优化每一层通道的信息量,用于获取更加具有信息量的局部区域。结果使用两个公开的视网膜数据集(Kaggle和Messidor)来评估提出的细粒度分级方法和多通道注意力选择机制的有效性。实验结果表明:FGMAS在Kaggle数据集上进行的五级分类任务中相较于现有方法,在平均准确度(average of classification accuracy,ACA)上取得了3.4%~10.4%的提升。尤其是对于病变点最小的1级病变,准确率提升了11%~18.9%。此外,本文使用FGMAS在Messidor数据集上进行二分类任务。在推荐转诊/不推荐转诊分类上FGMAS得到的准确度(accuracy,Acc)为0.912,比现有方法提升了0.1%~1.9%,同时AUC(area under the curve)为0.962,比现有方法提升了0.5%~9.9%;在正常/不正常分类上FGMAS得到的准确度为0.909,比现有方法提升了2.9%~8.8%,AUC为0.950,比现有方法提升了0.4%~8.9%。实验结果表明,本文方法在五分类和二分类上均优于现有方法。结论本文所提细粒度分级模型,综合了细粒度提取局部区域的思路以及多通道注意力选择机制,可以获得较为准确的分级结果。展开更多
文摘跨模态哈希检索以其较高的检索效率和较低的存储成本,在跨模态检索领域受到了广泛的关注.现有的跨模态哈希大多直接从多模态数据中学习哈希码,不能充分利用数据的语义信息,因此无法保证数据低维特征在模态间的分布一致性,解决这个问题的关键之一是要准确地度量多模态数据之间的相似度.为此,提出一种基于对抗投影学习的哈希(adversarial projection learning based Hashing for cross-modal retrieval,APLH)方法用于跨模态检索.利用对抗训练学习来自不同模态的低维特征,并保证低维特征在模态间的分布一致性.在此基础上,利用跨模态投影匹配约束(cross-modal projection matching,CMPM),最小化特征投影匹配分布和标签投影匹配分布之间的KL(Kullback-Leibler)散度,利用标签信息使数据低维特征之间的相似度结构与语义空间中的相似度结构趋于一致.此外,在哈希码学习阶段,引入加权余弦三元组损失进一步利用数据的语义信息;且为减小哈希码的量化损失,使用离散优化的方法优化哈希函数.在3个跨模态数据集MIRFlickr25K,NUS-WIDE,Wikipedia上,以不同码位计算mAP,且所提方法的mAP值均优于其他算法,验证了其在跨模态哈希检索上的优越性、鲁棒性以及CMPM的有效性.
文摘对人脸进行检测与跟踪是诸如人机交互、视频监控等众多应用的基础。在众多方法当中,连续自适应均值偏移(Con-tinuously Adaptive Mean Shift,简称Camshift)算法在兼具良好跟踪性能的同时做到了较低的计算成本。然而在经典Camshift算法中,反映像素类肤色概率的"反向投影图"会受到初始搜索框内背景像素的影响,是几乎所有基于经典Camshift的算法中普遍存在的一个问题。针对反向投影图的原理进行分析,并采用人脸检测结果作为替代方案,从而对传统Camshift算法进行改进。同时,对YCrCb色彩空间中的人脸检测进行多时段分析,并借此自动确定初始跟踪区域,较传统Camshift算法具有更好的效果。
文摘目的糖尿病性视网膜病变(diabetic retinopathy,DR)是一种常见的致盲性视网膜疾病,需要患者在早期就能够被诊断并接受治疗,否则将会造成永久性的视力丧失。能否检测到视网膜图像中的微小病变如微血管瘤,是糖尿病性视网膜病变分级的关键。然而这些病变过于细小导致使用一般方法难以正确地辨别。为了解决这一问题,本文提出了一种基于多通道注意力选择机制的细粒度分级方法(fine-grained grading method based on multichannel attention selection,FGMAS)用于糖尿病性视网膜病变的分级。方法该方法结合了细粒度分类方法和多通道注意力选择机制,通过获取局部特征提升分级的准确度。此外考虑到每一层通道特征信息量与分类置信度的关系,本文引入了排序损失以优化每一层通道的信息量,用于获取更加具有信息量的局部区域。结果使用两个公开的视网膜数据集(Kaggle和Messidor)来评估提出的细粒度分级方法和多通道注意力选择机制的有效性。实验结果表明:FGMAS在Kaggle数据集上进行的五级分类任务中相较于现有方法,在平均准确度(average of classification accuracy,ACA)上取得了3.4%~10.4%的提升。尤其是对于病变点最小的1级病变,准确率提升了11%~18.9%。此外,本文使用FGMAS在Messidor数据集上进行二分类任务。在推荐转诊/不推荐转诊分类上FGMAS得到的准确度(accuracy,Acc)为0.912,比现有方法提升了0.1%~1.9%,同时AUC(area under the curve)为0.962,比现有方法提升了0.5%~9.9%;在正常/不正常分类上FGMAS得到的准确度为0.909,比现有方法提升了2.9%~8.8%,AUC为0.950,比现有方法提升了0.4%~8.9%。实验结果表明,本文方法在五分类和二分类上均优于现有方法。结论本文所提细粒度分级模型,综合了细粒度提取局部区域的思路以及多通道注意力选择机制,可以获得较为准确的分级结果。