期刊文献+
共找到173篇文章
< 1 2 9 >
每页显示 20 50 100
A Dual Discriminator Method for Generalized Zero-Shot Learning
1
作者 Tianshu Wei Jinjie Huang 《Computers, Materials & Continua》 SCIE EI 2024年第4期1599-1612,共14页
Zero-shot learning enables the recognition of new class samples by migrating models learned from semanticfeatures and existing sample features to things that have never been seen before. The problems of consistencyof ... Zero-shot learning enables the recognition of new class samples by migrating models learned from semanticfeatures and existing sample features to things that have never been seen before. The problems of consistencyof different types of features and domain shift problems are two of the critical issues in zero-shot learning. Toaddress both of these issues, this paper proposes a new modeling structure. The traditional approach mappedsemantic features and visual features into the same feature space;based on this, a dual discriminator approachis used in the proposed model. This dual discriminator approach can further enhance the consistency betweensemantic and visual features. At the same time, this approach can also align unseen class semantic features andtraining set samples, providing a portion of information about the unseen classes. In addition, a new feature fusionmethod is proposed in the model. This method is equivalent to adding perturbation to the seen class features,which can reduce the degree to which the classification results in the model are biased towards the seen classes.At the same time, this feature fusion method can provide part of the information of the unseen classes, improvingits classification accuracy in generalized zero-shot learning and reducing domain bias. The proposed method isvalidated and compared with othermethods on four datasets, and fromthe experimental results, it can be seen thatthe method proposed in this paper achieves promising results. 展开更多
关键词 Generalized zero-shot learning modality consistent DISCRIMINATOR domain shift problem feature fusion
下载PDF
基于反向投影的zero-shot learning目标分类算法研究 被引量:1
2
作者 冯鹏 庹红娅 +2 位作者 乔凌峰 王洁欣 敬忠良 《计算机应用研究》 CSCD 北大核心 2017年第11期3291-3294,共4页
Zero-shot learning(ZSL)是针对没有训练样本的类别进行分类的问题。传统回归方法的核心是将视觉特征投影到语义空间,没有充分利用视觉特征自身包含的样本信息,同时训练计算量大。提出基于反向投影的ZSL目标分类方法,将类别原型投影到... Zero-shot learning(ZSL)是针对没有训练样本的类别进行分类的问题。传统回归方法的核心是将视觉特征投影到语义空间,没有充分利用视觉特征自身包含的样本信息,同时训练计算量大。提出基于反向投影的ZSL目标分类方法,将类别原型投影到视觉空间,利用视觉特征的语义性学习出映射函数,参数优化过程仅通过解析解就可以获得。在两个基准数据集的实验结果表明,提出的反向投影方法分类结果较传统回归方法和其他现有方法有大幅提升,并且训练时间大大减少,可以更好地推广到未知类别的分类问题上。 展开更多
关键词 zero-shot LEARNING 目标分类 反向投影 解析解
下载PDF
A Novel Siamese Network for Few/Zero-Shot Handwritten Character Recognition Tasks
3
作者 Nagwa Elaraby Sherif Barakat Amira Rezk 《Computers, Materials & Continua》 SCIE EI 2023年第1期1837-1854,共18页
Deep metric learning is one of the recommended methods for the challenge of supporting few/zero-shot learning by deep networks.It depends on building a Siamese architecture of two homogeneous Convolutional Neural Netw... Deep metric learning is one of the recommended methods for the challenge of supporting few/zero-shot learning by deep networks.It depends on building a Siamese architecture of two homogeneous Convolutional Neural Networks(CNNs)for learning a distance function that can map input data from the input space to the feature space.Instead of determining the class of each sample,the Siamese architecture deals with the existence of a few training samples by deciding if the samples share the same class identity or not.The traditional structure for the Siamese architecture was built by forming two CNNs from scratch with randomly initialized weights and trained by binary cross-entropy loss.Building two CNNs from scratch is a trial and error and time-consuming phase.In addition,training with binary crossentropy loss sometimes leads to poor margins.In this paper,a novel Siamese network is proposed and applied to few/zero-shot Handwritten Character Recognition(HCR)tasks.The novelties of the proposed network are in.1)Utilizing transfer learning and using the pre-trained AlexNet as a feature extractor in the Siamese architecture.Fine-tuning a pre-trained network is typically faster and easier than building from scratch.2)Training the Siamese architecture with contrastive loss instead of the binary cross-entropy.Contrastive loss helps the network to learn a nonlinear mapping function that enables it to map the extracted features in the vector space with an optimal way.The proposed network is evaluated on the challenging Chars74K datasets by conducting two experiments.One is for testing the proposed network in few-shot learning while the other is for testing it in zero-shot learning.The recognition accuracy of the proposed network reaches to 85.6%and 82%in few-and zero-shot learning respectively.In addition,a comparison between the performance of the proposed Siamese network and the traditional Siamese CNNs is conducted.The comparison results show that the proposed network achieves higher recognition results in less time.The proposed network reduces the training time from days to hours in both experiments. 展开更多
关键词 Handwritten character recognition(HCR) few-shot learning zero-shot learning deep metric learning transfer learning contrastive loss Chars74K datasets
下载PDF
Explanatory Multi-Scale Adversarial Semantic Embedding Space Learning for Zero-Shot Recognition
4
作者 Huiting Li 《Open Journal of Applied Sciences》 2022年第3期317-335,共19页
The goal of zero-shot recognition is to classify classes it has never seen before, which needs to build a bridge between seen and unseen classes through semantic embedding space. Therefore, semantic embedding space le... The goal of zero-shot recognition is to classify classes it has never seen before, which needs to build a bridge between seen and unseen classes through semantic embedding space. Therefore, semantic embedding space learning plays an important role in zero-shot recognition. Among existing works, semantic embedding space is mainly taken by user-defined attribute vectors. However, the discriminative information included in the user-defined attribute vector is limited. In this paper, we propose to learn an extra latent attribute space automatically to produce a more generalized and discriminative semantic embedded space. To prevent the bias problem, both user-defined attribute vector and latent attribute space are optimized by adversarial learning with auto-encoders. We also propose to reconstruct semantic patterns produced by explanatory graphs, which can make semantic embedding space more sensitive to usefully semantic information and less sensitive to useless information. The proposed method is evaluated on the AwA2 and CUB dataset. These results show that our proposed method achieves superior performance. 展开更多
关键词 zero-shot Recognition Semantic Embedding Space Adversarial Learning Explanatory Graph
下载PDF
Zero-shot Fine-grained Classification by Deep Feature Learning with Semantics 被引量:7
5
作者 Ao-Xue Li Ke-Xin Zhang Li-Wei Wang 《International Journal of Automation and computing》 EI CSCD 2019年第5期563-574,共12页
Fine-grained image classification, which aims to distinguish images with subtle distinctions, is a challenging task for two main reasons: lack of sufficient training data for every class and difficulty in learning dis... Fine-grained image classification, which aims to distinguish images with subtle distinctions, is a challenging task for two main reasons: lack of sufficient training data for every class and difficulty in learning discriminative features for representation. In this paper, to address the two issues, we propose a two-phase framework for recognizing images from unseen fine-grained classes, i.e., zeroshot fine-grained classification. In the first feature learning phase, we finetune deep convolutional neural networks using hierarchical semantic structure among fine-grained classes to extract discriminative deep visual features. Meanwhile, a domain adaptation structure is induced into deep convolutional neural networks to avoid domain shift from training data to test data. In the second label inference phase, a semantic directed graph is constructed over attributes of fine-grained classes. Based on this graph, we develop a label propagation algorithm to infer the labels of images in the unseen classes. Experimental results on two benchmark datasets demonstrate that our model outperforms the state-of-the-art zero-shot learning models. In addition, the features obtained by our feature learning model also yield significant gains when they are used by other zero-shot learning models, which shows the flexility of our model in zero-shot finegrained classification. 展开更多
关键词 FINE-GRAINED image CLASSIFICATION zero-shot LEARNING DEEP FEATURE LEARNING domain adaptation semantic graph
原文传递
基于关系有向图正则化的属性三因子分解模型
6
作者 张嘉睿 李瑞林 +1 位作者 孔毅 余南南 《郑州大学学报(理学版)》 CAS 北大核心 2025年第1期67-73,共7页
针对零样本图像分类中属性和特征之间映射不全面以及属性空间结构挖掘不充分问题,提出了基于关系有向图正则化的属性三因子分解模型。首先,利用属性矩阵三因子分解实现了属性空间和特征空间的映射;其次,通过权值矩阵构建了属性关系有向... 针对零样本图像分类中属性和特征之间映射不全面以及属性空间结构挖掘不充分问题,提出了基于关系有向图正则化的属性三因子分解模型。首先,利用属性矩阵三因子分解实现了属性空间和特征空间的映射;其次,通过权值矩阵构建了属性关系有向图;最后,在属性空间或特征空间计算测试样本和各测试类别的相似性,进而实现图像分类。在aPY和SUN数据集上的实验结果表明,所提模型有效地提高了零样本图像分类精度。 展开更多
关键词 零样本图像 属性三因子分解 关系有向图 正则化
下载PDF
Fabric Recognition Using Zero-Shot Learning 被引量:1
7
作者 Feng Wang Huaping Liu +1 位作者 Fuchun Sun Haihong Pan 《Tsinghua Science and Technology》 SCIE EI CAS CSCD 2019年第6期645-653,共9页
In this work, we use a deep learning method to tackle the Zero-Shot Learning(ZSL) problem in tactile material recognition by incorporating the advanced semantic information into a training model. Our main technical co... In this work, we use a deep learning method to tackle the Zero-Shot Learning(ZSL) problem in tactile material recognition by incorporating the advanced semantic information into a training model. Our main technical contribution is our proposal of an end-to-end deep learning framework for solving the tactile ZSL problem. In this framework, we use a Convolutional Neural Network(CNN) to extract the spatial features and Long Short-Term Memory(LSTM) to extract the temporal features in dynamic tactile sequences, and develop a loss function suitable for the ZSL setting. We present the results of experimental evaluations on publicly available datasets, which show the effectiveness of the proposed method. 展开更多
关键词 zero-shot-Learning (ZSL) FABRIC recog nition TACTILE recog nition DEEP lear ning
原文传递
基于视觉-语言预训练模型的零样本迁移学习方法综述
8
作者 孙仁科 许靖昊 +2 位作者 皇甫志宇 李仲年 许新征 《计算机工程》 CAS CSCD 北大核心 2024年第10期1-15,共15页
近年来随着人工智能(AI)技术在计算机视觉与自然语言处理等单模态领域表现出愈发优异的性能,多模态学习的重要性和必要性逐渐展现出来,其中基于视觉-语言预训练模型的零样本迁移(ZST)方法得到了国内外研究者的广泛关注。得益于预训练模... 近年来随着人工智能(AI)技术在计算机视觉与自然语言处理等单模态领域表现出愈发优异的性能,多模态学习的重要性和必要性逐渐展现出来,其中基于视觉-语言预训练模型的零样本迁移(ZST)方法得到了国内外研究者的广泛关注。得益于预训练模型强大的泛化性能,使用视觉-语言预训练模型不仅能提高零样本识别任务的准确率,而且能够解决部分传统方法无法解决的零样本下游任务问题。对基于视觉-语言预训练模型的ZST方法进行概述,首先介绍了零样本学习(FSL)的传统方法,并对其主要形式加以总结;然后阐述了基于视觉-语言预训练模型的ZST和FSL的区别及其可以解决的新任务;其次介绍了基于视觉-语言预训练模型的ZST方法在样本识别、目标检测、语义分割、跨模态生成等下游任务中的应用情况;最后对现有的基于视觉-语言预训练模型的ZST方法存在的问题进行分析并对未来的研究方向进行展望。 展开更多
关键词 零样本学习 视觉-语言预训练模型 零样本迁移 多模态 计算机视觉
下载PDF
面向域外说话人适应场景的多层级解耦个性化语音合成
9
作者 高盛祥 杨元樟 +3 位作者 王琳钦 莫尚斌 余正涛 董凌 《广西师范大学学报(自然科学版)》 CAS 北大核心 2024年第4期11-21,共11页
个性化语音合成任务旨在合成特定说话人音色的语音。传统方法在合成域外说话人语音时,与真实语音存在明显音色差异,解耦说话人特征仍较为困难。本文提出面向训练时未出现的域外说话人适应场景下的多层级解耦个性化语音合成方法,通过不... 个性化语音合成任务旨在合成特定说话人音色的语音。传统方法在合成域外说话人语音时,与真实语音存在明显音色差异,解耦说话人特征仍较为困难。本文提出面向训练时未出现的域外说话人适应场景下的多层级解耦个性化语音合成方法,通过不同粒度特征融合,有效提升零资源条件下域外说话人语音合成性能。本文方法采用快速傅里叶卷积提取说话人全局特征,以提高模型对域外说话人的泛化能力,实现句子粒度的说话人解耦;借助语音识别模型解耦音素粒度说话人特征,并通过注意力机制捕捉音素级音色特征,实现音素粒度的说话人解耦。实验结果表明:在公开数据集AISHELL3上,本文方法对域外说话人在客观评价指标说话人特征向量余弦相似度上达到0.697,相比基线模型提高6.25%,有效提升对域外说话人音色特征建模能力。 展开更多
关键词 语音合成 零资源 说话人表征 域外说话人 特征解耦
下载PDF
语义增强图像-文本预训练模型的零样本三维模型分类
10
作者 丁博 张立宝 +1 位作者 秦健 何勇军 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第8期3314-3323,共10页
目前,基于对比学习的图像-文本预训练模型(CLIP)在零样本3维模型分类任务上表现出了巨大潜力,然而3维模型和文本之间存在巨大的模态鸿沟,影响了分类准确率的进一步提高。针对以上问题,该文提出一种语义增强CLIP的零样本3维模型分类方法... 目前,基于对比学习的图像-文本预训练模型(CLIP)在零样本3维模型分类任务上表现出了巨大潜力,然而3维模型和文本之间存在巨大的模态鸿沟,影响了分类准确率的进一步提高。针对以上问题,该文提出一种语义增强CLIP的零样本3维模型分类方法。该方法首先将3维模型表示成多视图;然后为了增强零样本学习对未知类别的识别能力,通过视觉语言生成模型获得每张视图及其类别的语义描述性文本,并将其作为视图和类别提示文本之间的语义桥梁,语义描述性文本采用图像字幕和视觉问答两种方式获取;最后微调语义编码器将语义描述性文本具化为类别的语义描述,其拥有丰富的语义信息和较好的可解释性,有效减小了视图和类别提示文本的语义鸿沟。实验表明,该文方法在ModelNet10和ModelNet40数据集上的分类性能优于现有的零样本分类方法。 展开更多
关键词 3维模型分类 零样本 基于对比学习的图像-文本预训练模型 语义描述性文本
下载PDF
面向社会媒体的立场检测研究综述
11
作者 赵小兵 尹召宁 +2 位作者 王子豪 张袁硕 陈波 《计算机应用研究》 CSCD 北大核心 2024年第11期3201-3214,共14页
随着互联网的不断发展,人们广泛使用微博、推特等社交媒体平台,导致每日涌现出巨量的用户生成内容。针对热点/关注话题,分析这些内容背后用户的态度具有重要意义,可以帮助相关人员决策,因此立场检测任务的目标是根据指定的目标和给定的... 随着互联网的不断发展,人们广泛使用微博、推特等社交媒体平台,导致每日涌现出巨量的用户生成内容。针对热点/关注话题,分析这些内容背后用户的态度具有重要意义,可以帮助相关人员决策,因此立场检测任务的目标是根据指定的目标和给定的文本,确定用户对目标的立场(支持/反对/中立)。针对立场检测方面的研究阐述了立场检测任务、应用、相关数据资源和相关方法。在任务方面,除了常规的单/多/跨目标立场检测任务,还梳理了零/少样本立场检测的相关工作;在数据资源方面,对近年来公开的数据资源进行了详细梳理介绍;在方法方面,除了传统机器学习方法、神经网络等方法,还梳理了基于预训练模型的方法。最后对立场检测的发展现状进行了总结阐述,并展望了接下来可能的研究热点。 展开更多
关键词 目标 立场 立场检测 零/少样本立场检测 预训练模型
下载PDF
基于语义-视觉一致性约束的零样本图像语义分割网络
12
作者 陈琼 冯媛 +1 位作者 李志群 杨咏 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2024年第10期41-50,共10页
零样本图像语义分割是零样本学习在视觉领域的重要任务之一,旨在分割训练中未见的新类别。目前基于像素级视觉特征生成的方法合成的视觉特征分布和真实的视觉特征分布存在不一致性的问题,合成的视觉特征难以准确反映类语义信息,导致合... 零样本图像语义分割是零样本学习在视觉领域的重要任务之一,旨在分割训练中未见的新类别。目前基于像素级视觉特征生成的方法合成的视觉特征分布和真实的视觉特征分布存在不一致性的问题,合成的视觉特征难以准确反映类语义信息,导致合成的视觉特征缺乏鉴别性;现有的一些视觉特征生成方法为了得到语义特征所表达的区分性信息,需要消耗巨大的计算资源。为此,文中提出了一种基于语义-视觉一致性约束的零样本图像语义分割网络(SVCCNet)。该网络通过语义-视觉一致性约束模块对语义特征与视觉特征进行相互转换,以提高两者的关联度,减小真实视觉特征与合成视觉特征空间结构的差异性,从而缓解合成视觉特征与真实视觉特征分布不一致的问题。语义-视觉一致性约束模块通过两个相互约束的重建映射,实现了视觉特征与类别语义的对应关系,同时保持了较低的模型复杂度。在PASCAL-VOC及PASCAL-Context数据集上的实验结果表明,SVCCNet的像素准确率、平均准确率、平均交并比、调和交并比均优于比较的主流方法。 展开更多
关键词 语义分割 特征生成 零样本学习 计算机视觉 深度学习
下载PDF
基于包络谱语义构建的零样本滚动轴承复合故障诊断方法
13
作者 甄冬 孙赫明 +3 位作者 冯国金 崔展博 田少宁 孔金震 《振动与冲击》 EI CSCD 北大核心 2024年第14期189-200,283,共13页
深度学习算法在训练集完备的情况下可以实现较高的故障识别率,然而在真实工业场景中,滚动轴承的多种故障可能复合存在,通常难以获取充足的数据用于训练。为解决该问题,提出了一种基于包络谱语义构建的零样本复合故障诊断方法,在训练阶... 深度学习算法在训练集完备的情况下可以实现较高的故障识别率,然而在真实工业场景中,滚动轴承的多种故障可能复合存在,通常难以获取充足的数据用于训练。为解决该问题,提出了一种基于包络谱语义构建的零样本复合故障诊断方法,在训练阶段使用单一故障数据构建了一个语义空间和一个特征空间,然后在识别阶段通过语义空间和特征空间的复合,实现对零样本情况下的复合故障识别。此外,考虑到包络谱能很好地表征滚动轴承故障特征,采用包络谱预处理故障信号以增强轴承故障的特征,并借助信号包络谱的物理含义来构建轴承单一故障和复合故障的语义。试验结果显示,所提模型在复合故障识别上取得了87.83%的准确率,优于对比模型。 展开更多
关键词 滚动轴承 复合故障诊断 零样本 包络谱 语义构建
下载PDF
属性蒸馏的零样本识别方法
14
作者 李厚君 韦柏全 《计算机工程与应用》 CSCD 北大核心 2024年第9期219-227,共9页
零样本识别是计算机视觉领域最具挑战性的任务之一,其关键在于如何从已见类中学到稳定和可迁移的知识。为提高零样本识别的准确率,对零样本识别问题进行了系统研究,并利用知识蒸馏的思想,精心设计了一个简单有效的属性蒸馏分类器。它符... 零样本识别是计算机视觉领域最具挑战性的任务之一,其关键在于如何从已见类中学到稳定和可迁移的知识。为提高零样本识别的准确率,对零样本识别问题进行了系统研究,并利用知识蒸馏的思想,精心设计了一个简单有效的属性蒸馏分类器。它符合人类认识事物的过程,首先从Vision Transformer大模型中获得全面细致的视觉特征,再运用属性概念蒸馏出物体的属性知识,最后迁移到未见类识别任务中。公开数据集上的实验表明,该方法取得了具有竞争力的结果,其识别准确率虽略低于最新的属性引导算法,但优于其他传统方法,而且识别架构简单具有更快的处理速度。同时,研究也指出了减少属性描述的稀疏性,以及增加多视角高清图像,将有利于提高零样本识别方法的准确率。 展开更多
关键词 计算机视觉 零样本识别 知识蒸馏 属性蒸馏
下载PDF
Comparing Fine-Tuning, Zero and Few-Shot Strategies with Large Language Models in Hate Speech Detection in English
15
作者 Ronghao Pan JoséAntonio García-Díaz Rafael Valencia-García 《Computer Modeling in Engineering & Sciences》 SCIE EI 2024年第9期2849-2868,共20页
Large Language Models(LLMs)are increasingly demonstrating their ability to understand natural language and solve complex tasks,especially through text generation.One of the relevant capabilities is contextual learning... Large Language Models(LLMs)are increasingly demonstrating their ability to understand natural language and solve complex tasks,especially through text generation.One of the relevant capabilities is contextual learning,which involves the ability to receive instructions in natural language or task demonstrations to generate expected outputs for test instances without the need for additional training or gradient updates.In recent years,the popularity of social networking has provided a medium through which some users can engage in offensive and harmful online behavior.In this study,we investigate the ability of different LLMs,ranging from zero-shot and few-shot learning to fine-tuning.Our experiments show that LLMs can identify sexist and hateful online texts using zero-shot and few-shot approaches through information retrieval.Furthermore,it is found that the encoder-decoder model called Zephyr achieves the best results with the fine-tuning approach,scoring 86.811%on the Explainable Detection of Online Sexism(EDOS)test-set and 57.453%on the Multilingual Detection of Hate Speech Against Immigrants and Women in Twitter(HatEval)test-set.Finally,it is confirmed that the evaluated models perform well in hate text detection,as they beat the best result in the HatEval task leaderboard.The error analysis shows that contextual learning had difficulty distinguishing between types of hate speech and figurative language.However,the fine-tuned approach tends to produce many false positives. 展开更多
关键词 Hate speech detection zero-shot few-shot fine-tuning natural language processing
下载PDF
大规模多任务中文理解能力测试
16
作者 曾辉 《电脑知识与技术》 2024年第15期17-20,共4页
中文大模型发展迅速,然而缺乏相应的能力测试。本研究提出了一种评估大模型在中文多任务中准确度的方法,涵盖医疗、法律、心理学和教育等4个领域。通过zero-shot和few-shot两种测试模式,发现即使是参数量最大的模型,其在特定领域任务上... 中文大模型发展迅速,然而缺乏相应的能力测试。本研究提出了一种评估大模型在中文多任务中准确度的方法,涵盖医疗、法律、心理学和教育等4个领域。通过zero-shot和few-shot两种测试模式,发现即使是参数量最大的模型,其在特定领域任务上的准确率也未达到专家水平,尤其是在法律领域。此外,模型在子任务上的表现不均衡,凸显了其在理解和解决不同领域问题的能力上仍有改进空间。研究结果表明,模型的参数量、训练方式和数据质量对其性能有重要影响,未来研究应致力于提高模型在垂直领域任务的准确性。 展开更多
关键词 中文大模型 多任务评测 zero-shot few-shot 垂直领域任务
下载PDF
基于Transformer的零样本食品图像检测
17
作者 宋静茹 闵巍庆 +5 位作者 周鹏飞 饶全瑞 盛国瑞 杨延村 王丽丽 蒋树强 《食品工业科技》 CAS 北大核心 2024年第22期18-26,共9页
食品检测作为食品计算的一项基本任务,能够对输入的食品图像进行定位和识别,在智慧食堂结算和饮食健康管理等食品应用领域发挥着至关重要的作用。然而在实际场景下,食品类别会不断更新,基于固定类别训练的食品检测器很难对未见过的食品... 食品检测作为食品计算的一项基本任务,能够对输入的食品图像进行定位和识别,在智慧食堂结算和饮食健康管理等食品应用领域发挥着至关重要的作用。然而在实际场景下,食品类别会不断更新,基于固定类别训练的食品检测器很难对未见过的食品类别进行精准的检测。为了解决这一问题,本文提出了一种零样本食品图像检测方法。首先,构建了一个基于Transformer的食品基元生成器,其中每个基元都包含与食品类别相关的细粒度属性,根据食品的特性,可以有选择地组装这些基元,以合成未见类特征。其次,为了给未见类的视觉特征更多约束,本文提出了一个视觉特征解纠缠的增强组件,将食品图像的视觉特征分解为语义相关特征和语义不相关特征,以此能更好地将食品类别的语义知识转移到其视觉特征。所提出的方法在ZSFooD和UEC-FOOD256两个食品数据集上进行了大量实验和消融研究,在零样本检测(Zero-Shot Detection,ZSD)设置下,未见类别取得了最优的平均精度,分别达到了4.9%和24.1%,在广义零样本检测(Generalized Zero-Shot Detection,GZSD)的设置下,可见类和未见类的调和平均值(Harmonic Mean,HM)分别达到了5.8%和22.0%,证明了所提出方法的有效性。 展开更多
关键词 食品图像检测 零样本学习 生成式模型 TRANSFORMER 深度学习
下载PDF
提示学习研究综述
18
作者 崔金满 李冬梅 +3 位作者 田萱 孟湘皓 杨宇 崔晓晖 《计算机工程与应用》 CSCD 北大核心 2024年第23期1-27,共27页
经过微调的预训练语言模型在各领域任务中均取得了显著的性能。但是,预训练和微调之间在训练数据和目标函数方面存在着巨大差距,阻碍了预训练语言模型对下游任务的有效适应。提示学习的提出缩小了预训练和微调之间的差距,并可以很好地... 经过微调的预训练语言模型在各领域任务中均取得了显著的性能。但是,预训练和微调之间在训练数据和目标函数方面存在着巨大差距,阻碍了预训练语言模型对下游任务的有效适应。提示学习的提出缩小了预训练和微调之间的差距,并可以很好地应用到小样本甚至零样本场景中。提示学习的核心思想是将提示模板插入到原始输入中,将下游任务数据转化为自然语言的形式输入到预训练模型中,输出预测结果,然后通过语言表达器将输出映射到相应的标签。系统地梳理了当前提示学习的相关工作,根据提示学习的实现步骤,从提示模板和语言表达器构建两个阶段介绍该类方法的研究进展。将基于提示模板的方法细分为人工构建、自动构建、引入外部知识构建提示和思维提示方法4种;将基于语言表达器的方法细分为人工构建的表达器、基于搜索的表达器、软表达器和引入外部知识构建表达器的方法4种。总结了提示学习在自然语言处理、计算机视觉和多模态领域的主要应用,并对提示学习相关实验进行了分析。最后,概述了提示学习的现状和挑战,展望了提示学习的未来发展方向。 展开更多
关键词 提示学习 预训练模型 预训练和微调 小样本学习 零样本学习
下载PDF
零样本深度学习驱动的杨树叶片表型检测方法研究
19
作者 周磊 张慧春 边黎明 《林业工程学报》 CSCD 北大核心 2024年第6期152-160,共9页
叶片表型检测是感知杨树生长状态的重要手段之一,叶片颜色、姿态、纹理等形态结构表型信息可揭示植株所受胁迫的程度。其中,单个叶片分割是计算、统计其表型参数的基础。当前流行的AI算法已可满足叶片分割任务的性能需求,然而常规深度... 叶片表型检测是感知杨树生长状态的重要手段之一,叶片颜色、姿态、纹理等形态结构表型信息可揭示植株所受胁迫的程度。其中,单个叶片分割是计算、统计其表型参数的基础。当前流行的AI算法已可满足叶片分割任务的性能需求,然而常规深度学习模型训练需要大量人工标签,制约了其发展和应用。本研究提出一种融合零样本学习和迁移学习的杨树叶片实例分割方法:运用视觉大模型GroundingDINO检索杨树苗图像中的叶片,获取对应的边界框;使用Segment Anything 2模型(segment anything model v2,SAM2)分割图像中全部对象,得到对应的掩膜(mask);将GroundingDINO模型生成的边界框作为提示,辅助SAM2过滤出叶片类别的掩膜;利用迁移学习策略,将AI生成的叶片掩膜作为标签信息,训练轻量化的YOLOv8-Segment模型。此外,构建独立测试集用于评估模型分割精度,选择交并比阈值为50%的平均精度(average precision using 50%intersection over union threshold,AP_(50))和平均交并比(mean intersection over union,mIoU)作为性能指标。结果表明,基于“Leaf”这一检索词,GroundingDINO与SAM2的组合(权重约810 MB)可实现高性能的杨树叶片分割,AP_(50)为0.936,mIoU为0.778。通过过滤异常尺寸的提示边界框,AP_(50)提升至0.942。迁移学习得到的YOLOv8-Segment模型权重仅6.5 MB,AP_(50)为0.888,大幅精简模型的同时保障了精度。本研究涉及的叶片分割模型构建过程均无须人工标注,实现了高效率、低成本的杨树叶片实例分割,可为杨树叶片计数和叶面积计算等后续表型分析应用提供技术支持。 展开更多
关键词 杨树 叶片表型 深度学习 零样本学习 迁移学习
下载PDF
基于自上而下注意力机制的零样本目标检测
20
作者 齐鑫伟 侍洪波 +1 位作者 宋冰 陶阳 《华东理工大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第6期859-868,共10页
由于可见类和未见类目标数据分布的差异性,目前基于映射迁移策略的零样本目标检测算法在测试时容易偏向可见类别的目标,且因为不同类别在属性上的相似性,特征分布比较混乱。本文提出一种新的零样本目标检测框架,利用所设计的先验知识提... 由于可见类和未见类目标数据分布的差异性,目前基于映射迁移策略的零样本目标检测算法在测试时容易偏向可见类别的目标,且因为不同类别在属性上的相似性,特征分布比较混乱。本文提出一种新的零样本目标检测框架,利用所设计的先验知识提取模块和自上而下注意力机制模块,为检测过程提供任务导向,引导模型在训练期间关注出现的未见类特征,提高模型对不同数据分布的判别性;还设计了一种新的对比约束以提高特征之间的聚类能力;在MSCOCO标准数据集上进行了大量实验。结果表明,该模型在标准和广义零样本目标检测任务上都取得了显著效果。 展开更多
关键词 计算机视觉 目标检测 零样本目标检测 自上而下注意力机制 对比约束
下载PDF
上一页 1 2 9 下一页 到第
使用帮助 返回顶部