期刊文献+
共找到20篇文章
< 1 >
每页显示 20 50 100
基于视觉-语言预训练模型的零样本迁移学习方法综述
1
作者 孙仁科 许靖昊 +2 位作者 皇甫志宇 李仲年 许新征 《计算机工程》 CAS CSCD 北大核心 2024年第10期1-15,共15页
近年来随着人工智能(AI)技术在计算机视觉与自然语言处理等单模态领域表现出愈发优异的性能,多模态学习的重要性和必要性逐渐展现出来,其中基于视觉-语言预训练模型的零样本迁移(ZST)方法得到了国内外研究者的广泛关注。得益于预训练模... 近年来随着人工智能(AI)技术在计算机视觉与自然语言处理等单模态领域表现出愈发优异的性能,多模态学习的重要性和必要性逐渐展现出来,其中基于视觉-语言预训练模型的零样本迁移(ZST)方法得到了国内外研究者的广泛关注。得益于预训练模型强大的泛化性能,使用视觉-语言预训练模型不仅能提高零样本识别任务的准确率,而且能够解决部分传统方法无法解决的零样本下游任务问题。对基于视觉-语言预训练模型的ZST方法进行概述,首先介绍了零样本学习(FSL)的传统方法,并对其主要形式加以总结;然后阐述了基于视觉-语言预训练模型的ZST和FSL的区别及其可以解决的新任务;其次介绍了基于视觉-语言预训练模型的ZST方法在样本识别、目标检测、语义分割、跨模态生成等下游任务中的应用情况;最后对现有的基于视觉-语言预训练模型的ZST方法存在的问题进行分析并对未来的研究方向进行展望。 展开更多
关键词 零样本学习 视觉-语言训练模型 零样本迁移 多模态 计算机视觉
下载PDF
语义增强图像-文本预训练模型的零样本三维模型分类
2
作者 丁博 张立宝 +1 位作者 秦健 何勇军 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第8期3314-3323,共10页
目前,基于对比学习的图像-文本预训练模型(CLIP)在零样本3维模型分类任务上表现出了巨大潜力,然而3维模型和文本之间存在巨大的模态鸿沟,影响了分类准确率的进一步提高。针对以上问题,该文提出一种语义增强CLIP的零样本3维模型分类方法... 目前,基于对比学习的图像-文本预训练模型(CLIP)在零样本3维模型分类任务上表现出了巨大潜力,然而3维模型和文本之间存在巨大的模态鸿沟,影响了分类准确率的进一步提高。针对以上问题,该文提出一种语义增强CLIP的零样本3维模型分类方法。该方法首先将3维模型表示成多视图;然后为了增强零样本学习对未知类别的识别能力,通过视觉语言生成模型获得每张视图及其类别的语义描述性文本,并将其作为视图和类别提示文本之间的语义桥梁,语义描述性文本采用图像字幕和视觉问答两种方式获取;最后微调语义编码器将语义描述性文本具化为类别的语义描述,其拥有丰富的语义信息和较好的可解释性,有效减小了视图和类别提示文本的语义鸿沟。实验表明,该文方法在ModelNet10和ModelNet40数据集上的分类性能优于现有的零样本分类方法。 展开更多
关键词 3维模型分类 零样本 基于对比学习的图像-文本训练模型 语义描述性文本
下载PDF
多模态预训练模型综述 被引量:6
3
作者 王惠茹 李秀红 +3 位作者 李哲 马春明 任泽裕 杨丹 《计算机应用》 CSCD 北大核心 2023年第4期991-1004,共14页
预训练模型(PTM)通过利用复杂的预训练目标和大量的模型参数,可以有效地获得无标记数据中的丰富知识。而在多模态中,PTM的发展还处于初期。根据具体模态的不同,将目前大多数的多模态PTM分为图像‒文本PTM和视频‒文本PTM;根据数据融合方... 预训练模型(PTM)通过利用复杂的预训练目标和大量的模型参数,可以有效地获得无标记数据中的丰富知识。而在多模态中,PTM的发展还处于初期。根据具体模态的不同,将目前大多数的多模态PTM分为图像‒文本PTM和视频‒文本PTM;根据数据融合方式的不同,还可将多模态PTM分为单流模型和双流模型两类。首先,总结了常见的预训练任务和验证实验所使用的下游任务;接着,梳理了目前多模态预训练领域的常见模型,并用表格列出各个模型的下游任务以及模型的性能和实验数据比较;然后,介绍了M6(Multi-Modality to Multi-Modality Multitask Mega-transformer)模型、跨模态提示调优(CPT)模型、VideoBERT(Video Bidirectional Encoder Representations from Transformers)模型和AliceMind(Alibaba’s collection of encoder-decoders from Mind)模型在具体下游任务中的应用场景;最后,总结了多模态PTM相关工作面临的挑战以及未来可能的研究方向。 展开更多
关键词 多模态 训练模型 图像-文本训练模型 视频-文本训练模型 神经网络 单流模型 双流模型
下载PDF
基于CLIP和双空间自适应归一化的图像翻译 被引量:1
4
作者 李田芳 普园媛 +2 位作者 赵征鹏 徐丹 钱文华 《计算机工程》 CAS CSCD 北大核心 2024年第5期229-240,共12页
现有的图像翻译方法大多依赖数据集域标签来完成翻译任务,这种依赖往往限制了它们的应用范围。针对完全无监督图像翻译任务的方法能够解决域标签的限制问题,但是普遍存在源域信息丢失的现象。为了解决上述2个问题,提出一种基于对比学习... 现有的图像翻译方法大多依赖数据集域标签来完成翻译任务,这种依赖往往限制了它们的应用范围。针对完全无监督图像翻译任务的方法能够解决域标签的限制问题,但是普遍存在源域信息丢失的现象。为了解决上述2个问题,提出一种基于对比学习语言-图像预训练(CLIP)的无监督图像翻译模型。首先,引入CLIP相似性损失对图像的风格特征施加约束,以在不使用数据集域标签的情况下增强模型传递图像风格信息的能力和准确性;其次,对自适应实例归一化(AdaIN)进行改进,设计一个新的双空间自适应归一化(DSAdaIN)模块,在特征的风格化阶段添加网络的学习和自适应交互过程,以加强对内容源域信息的保留;最后,设计一个鉴别器对比损失来平衡对抗网络损失的训练和优化过程。在多个公开数据集上的实验结果表明,与Star GANv2、Style DIS等模型相比,该模型可在准确传递图像风格信息的同时保留一定的源域信息,且在定量评估指标FID分数和KID分数上分别提升了近3.35和0.57×102,实现了较好的图像翻译性能。 展开更多
关键词 图像翻译 生成对抗网络 对比学习语言-图像训练模型 自适应实例归一化 对比学习
下载PDF
基于深度学习的图像-文本匹配研究综述 被引量:6
5
作者 刘萌 齐孟津 +3 位作者 詹圳宇 曲磊钢 聂秀山 聂礼强 《计算机学报》 EI CAS CSCD 北大核心 2023年第11期2370-2399,共30页
图像-文本匹配任务旨在衡量图像和文本描述之间的相似性,其在桥接视觉和语言中起着至关重要的作用.近年来,图像与句子的全局对齐以及区域与单词的局部对齐研究方面取得了很大的进展.本文对当前先进的研究方法进行分类和描述.具体地,本... 图像-文本匹配任务旨在衡量图像和文本描述之间的相似性,其在桥接视觉和语言中起着至关重要的作用.近年来,图像与句子的全局对齐以及区域与单词的局部对齐研究方面取得了很大的进展.本文对当前先进的研究方法进行分类和描述.具体地,本文将现有方法划分为基于全局特征的图像-文本匹配方法、基于局部特征的图像-文本匹配方法、基于外部知识的图像-文本匹配方法、基于度量学习的图像-文本匹配方法以及多模态预训练模型,对于基于全局特征的图像-文本匹配方法,本文依据流程类型划分为两类:基于嵌入的方法和基于交互的方法;而对于基于局部特征的图像-文本匹配方法,依据其交互模式的不同,则被细分为三类:基于模态内关系建模的方法、基于模态间关系建模的方法以及基于混合交互建模的方法.随后,本文对当前图像-文本匹配任务的相关数据集进行了整理,并对现有方法的实验结果进行分析与总结.最后,对未来研究可能面临的挑战进行了展望. 展开更多
关键词 图像-文本匹配 跨模态图像检索 多模态训练模型 综述 深度学习 人工智能
下载PDF
大规模预训练模型在太空态势感知领域的应用思考
6
作者 尹港港 张峰 郭继光 《空天预警研究学报》 CSCD 2023年第5期355-363,共9页
随着航天科技和人类太空活动的快速演进,太空态势感知(SSA)的需求愈发突出.近些年,大规模预训练模型(LPTMs)在自然语言处理、图像处理、模式识别等领域表现卓越,在SSA中,这些技术也展现出巨大的应用潜力.为有效应对不断演变的太空环境... 随着航天科技和人类太空活动的快速演进,太空态势感知(SSA)的需求愈发突出.近些年,大规模预训练模型(LPTMs)在自然语言处理、图像处理、模式识别等领域表现卓越,在SSA中,这些技术也展现出巨大的应用潜力.为有效应对不断演变的太空环境带来的挑战,首先分析了SSA领域存在的瓶颈问题;然后针对SSA领域中的应用需求,提出了一系列潜在优势和应用方向;最后探讨了大规模预训练模型在SSA领域应用过程中所面临的关键挑战及可能的解决方案. 展开更多
关键词 太空态势感知 大规模训练模型 自然语言处理 图像处理
下载PDF
Region-Aware Fashion Contrastive Learning for Unified Attribute Recognition and Composed Retrieval
7
作者 WANG Kangping ZHAO Mingbo 《Journal of Donghua University(English Edition)》 CAS 2024年第4期405-415,共11页
Clothing attribute recognition has become an essential technology,which enables users to automatically identify the characteristics of clothes and search for clothing images with similar attributes.However,existing me... Clothing attribute recognition has become an essential technology,which enables users to automatically identify the characteristics of clothes and search for clothing images with similar attributes.However,existing methods cannot recognize newly added attributes and may fail to capture region-level visual features.To address the aforementioned issues,a region-aware fashion contrastive language-image pre-training(RaF-CLIP)model was proposed.This model aligned cropped and segmented images with category and multiple fine-grained attribute texts,achieving the matching of fashion region and corresponding texts through contrastive learning.Clothing retrieval found suitable clothing based on the user-specified clothing categories and attributes,and to further improve the accuracy of retrieval,an attribute-guided composed network(AGCN)as an additional component on RaF-CLIP was introduced,specifically designed for composed image retrieval.This task aimed to modify the reference image based on textual expressions to retrieve the expected target.By adopting a transformer-based bidirectional attention and gating mechanism,it realized the fusion and selection of image features and attribute text features.Experimental results show that the proposed model achieves a mean precision of 0.6633 for attribute recognition tasks and a recall@10(recall@k is defined as the percentage of correct samples appearing in the top k retrieval results)of 39.18 for composed image retrieval task,satisfying user needs for freely searching for clothing through images and texts. 展开更多
关键词 attribute recognition image retrieval contrastive language-image pre-training(CLIP) image text matching transformer
下载PDF
基于图像和LM的标准术语检测技术比较研究
8
作者 张庆国 《计算机应用文摘》 2024年第9期120-122,共3页
标准术语是指特定领域内具有特定含义和用途的字词组合。在使用标准术语时,应确保没有缺字、添字、替换字或字序错乱等情况,特别是在涉及意识形态领域时更应如此。文章回顾了图像处理、预训练语言模型等深度学习技术的发展历程,并探讨... 标准术语是指特定领域内具有特定含义和用途的字词组合。在使用标准术语时,应确保没有缺字、添字、替换字或字序错乱等情况,特别是在涉及意识形态领域时更应如此。文章回顾了图像处理、预训练语言模型等深度学习技术的发展历程,并探讨了深度学习技术在标准术语检测中的应用;提出了基于深度学习图像特征和基于预训练语言模型的2种方法来实现标准术语的检测,并对自行构建的测试数据进行了验证。实验结果显示,基于预训练语言模型的标准术语检测方法表现更优,平均准确率达到了99.4%。文章采用的方法适用于各个领域,尤其在意识形态领域具有广泛应用价值。 展开更多
关键词 深度学习 图像处理 训练语言模型 标准术语检测
下载PDF
基于扩散生成对抗网络的文本生成图像模型研究 被引量:1
9
作者 赵宏 李文改 《电子与信息学报》 EI CSCD 北大核心 2023年第12期4371-4381,共11页
文本生成图像是一项结合计算机视觉(CV)和自然语言处理(NLP)领域的综合性任务。以生成对抗网络(GANs)为基础的方法在文本生成图像方面取得了显著进展,但GANs方法的模型存在训练不稳定的问题。为解决这一问题,该文提出一种基于扩散Wasser... 文本生成图像是一项结合计算机视觉(CV)和自然语言处理(NLP)领域的综合性任务。以生成对抗网络(GANs)为基础的方法在文本生成图像方面取得了显著进展,但GANs方法的模型存在训练不稳定的问题。为解决这一问题,该文提出一种基于扩散Wasserstein生成对抗网络(WGAN)的文本生成图像模型(D-WGAN)。在DWGAN中,利用向判别器中输入扩散过程中随机采样的实例噪声,在实现模型稳定训练的同时,生成高质量和多样性的图像。考虑到扩散过程的采样成本较高,引入一种随机微分的方法,以简化采样过程。为了进一步对齐文本与图像的信息,提出使用基于对比学习的语言-图像预训练模型(CLIP)获得文本与图像信息之间的跨模态映射关系,从而提升文本和图像的一致性。在MSCOCO,CUB-200数据集上的实验结果表明,D-WGAN在实现稳定训练的同时,与当前最好的方法相比,FID分数分别降低了16.43%和1.97%,IS分数分别提升了3.38%和30.95%,说明D-WGAN生成的图像质量更高,更具有实用价值。 展开更多
关键词 文本生成图像 生成对抗网络 扩散过程 对比学习的语言-图像训练模型 语义匹配
下载PDF
基于文本感知和非重复单词生成的图像语义理解 被引量:1
10
作者 杨晨露 万旺根 +2 位作者 王旭智 孙学涛 张振 《工业控制计算机》 2023年第11期105-106,109,共3页
在描述图像时,阅读视觉场景中的文本对于理解关键信息至关重要。传统的视觉语言预训练任务都无法指导模型关注图像中的文本信息,以及图像中的文本信息和图像内容的关系。针对此问题,提出基于图像文本信息的预训练任务,包括掩模语言建模(... 在描述图像时,阅读视觉场景中的文本对于理解关键信息至关重要。传统的视觉语言预训练任务都无法指导模型关注图像中的文本信息,以及图像中的文本信息和图像内容的关系。针对此问题,提出基于图像文本信息的预训练任务,包括掩模语言建模(MLM)、图像-文本匹配(ITM)以及相对空间位置预测(RPP)。在解码过程中,为解决生成语句冗余问题,提出重复掩码模块,以避免预测语句中出现重复的单词。最后在Textcaps数据集上的实验结果表明,所提的方法可以有效地提高生成描述语句的准确率。 展开更多
关键词 图像语义理解 自然语言处理 视觉-语言训练任务 TRANSFORMER
下载PDF
基于CLIP的视频时刻检索预训练模型
11
作者 缪翌 张卫锋 徐领 《计算机应用研究》 2024年第12期3866-3872,共7页
视频时刻检索作为下游任务,依赖预训练模型提取特征的能力。近年的研究表明,以CLIP为代表的图像-语言预训练模型在大规模数据集下能学习到有效且通用的语义知识,从而在图像分类等任务上表现出强大的迁移能力和零样本能力。然而其迁移到... 视频时刻检索作为下游任务,依赖预训练模型提取特征的能力。近年的研究表明,以CLIP为代表的图像-语言预训练模型在大规模数据集下能学习到有效且通用的语义知识,从而在图像分类等任务上表现出强大的迁移能力和零样本能力。然而其迁移到视频时刻检索任务仍效果不佳。为解决上述难题,提出了视频时刻检索网络VMRNet,该网络以CLIP预训练模型为骨干,并设计了用于增强CLIP模型时序建模能力和跨模态交互能力的视频时序增强模块VTEMo。该模块采用旁路层级结构,引入查询文本引导的视觉提示,引导视觉编码器学习当前查询任务关注的视觉信息和时序信息。在QVHighlights、Charades-STA等常用数据集上进行了验证实验,VMRNet的R1@0.5指标在两个数据集上分别提高0.83和1.27,模型总体性能优于其他代表性的模型。实验结果充分表明,提出的VTEMo可在查询文本引导下有效学习视频视觉特征和时序特征,VMRNet结合VTEMo可在视频时刻检索任务上获得更为优秀的表现。 展开更多
关键词 多模态 视频时刻检索 图像-语言训练模型 参数微调
下载PDF
融合图文预训练的汉越多模态神经机器翻译
12
作者 韦浩翔 高盛祥 +1 位作者 余正涛 王晓聪 《电子技术应用》 2024年第12期48-54,共7页
由于汉语和越南语之间存在显著的语法差异及语料稀缺,汉越神经机器翻译任务面临名词翻译不准确的挑战。提出了一种新颖的多模态神经机器翻译方法,该方法融合了文本预训练模型和视觉语言联合预训练模型。通过文本预训练模型,能够捕获深... 由于汉语和越南语之间存在显著的语法差异及语料稀缺,汉越神经机器翻译任务面临名词翻译不准确的挑战。提出了一种新颖的多模态神经机器翻译方法,该方法融合了文本预训练模型和视觉语言联合预训练模型。通过文本预训练模型,能够捕获深层的语言结构和语义;而视觉语言联合训练模型则提供了与文本相关联的视觉上下文,这有助于模型更准确地理解和翻译名词。两种模型通过一个简洁高效的映射网络结合,并通过Gumbel门控模块动态地整合多模态信息,以优化翻译输出。在汉越及越汉翻译任务中,该方法相比传统Transformer模型分别提升了7.13和4.27的BLEU值。 展开更多
关键词 汉越神经机器翻译 视觉-语言联合训练 多模态 注意力
下载PDF
基于检索器-鉴别器架构的电力地址匹配模型研究
13
作者 赵坚鹏 盛方 +3 位作者 徐川子 陈奕 罗庆 陈聪 《电力大数据》 2023年第1期35-43,共9页
为解决电力地址库与外部地址库地址的匹配问题,保证电力地址准确性,实现电力系统与外部系统间数据信息共享互通,本文提出一种基于检索器-鉴别器架构的地址匹配模型。首先介绍地址匹配模型的详细结构,包括用于缩小地址检索范围的地址检... 为解决电力地址库与外部地址库地址的匹配问题,保证电力地址准确性,实现电力系统与外部系统间数据信息共享互通,本文提出一种基于检索器-鉴别器架构的地址匹配模型。首先介绍地址匹配模型的详细结构,包括用于缩小地址检索范围的地址检索器和最终分辨地址是否匹配正确的地址鉴别器,其中地址检索器基于词频-逆文档频率算法构建,地址鉴别器基于中文预训练语言模型NEZHA构建。还提出了一种负样本训练方法提升地址鉴别器辨别效果。详细介绍了实验分析所使用的两个数据集。实验结果表明基于检索器-鉴别器架构的电力地址匹配模型能够准确从外部地址库中找出与电力地址匹配的地址,其中,地址鉴别器能够非常准确地从多个候选地址中找出准确匹配地址,其F1分数达0.99以上。 展开更多
关键词 地址匹配 电力地址 词频-逆文档频率 中文训练语言模型 负样本
下载PDF
视觉语言多模态预训练综述 被引量:11
14
作者 张浩宇 王天保 +3 位作者 李孟择 赵洲 浦世亮 吴飞 《中国图象图形学报》 CSCD 北大核心 2022年第9期2652-2682,共31页
在多模态机器学习领域,为特定任务而制作的人工标注数据昂贵,且不同任务难以进行迁移,从而需要大量重新训练,导致训练多个任务时效率低下、资源浪费。预训练模型通过以自监督为代表的方式进行大规模数据训练,对数据集中不同模态的信息... 在多模态机器学习领域,为特定任务而制作的人工标注数据昂贵,且不同任务难以进行迁移,从而需要大量重新训练,导致训练多个任务时效率低下、资源浪费。预训练模型通过以自监督为代表的方式进行大规模数据训练,对数据集中不同模态的信息进行提取和融合,以学习其中蕴涵的通用知识表征,从而服务于广泛的相关下游视觉语言多模态任务,这一方法逐渐成为人工智能各领域的主流方法。依靠互联网所获取的大规模图文对与视频数据,以及以自监督学习为代表的预训练方法的进步,视觉语言多模态预训练模型在很大程度上打破了不同视觉语言任务之间的壁垒,提升了多个任务训练的效率并促进了具体任务的性能表现。本文总结视觉语言多模态预训练领域的进展,首先对常见的预训练数据集和预训练方法进行汇总,然后对目前最新方法以及经典方法进行系统概述,按输入来源分为图像—文本预训练模型和视频—文本多模态模型两大类,阐述了各方法之间的共性和差异,并将各模型在具体下游任务上的实验情况进行汇总。最后,总结了视觉语言预训练面临的挑战和未来发展趋势。 展开更多
关键词 多模态机器学习 视觉语言多模态 训练 自监督学习 图像文本训练 视频文本训练
原文传递
基于视觉语言提示学习的少样本图像分类方法
15
作者 李宝安 王欣宇 +1 位作者 滕尚志 吕学强 《北京邮电大学学报》 EI CAS CSCD 北大核心 2024年第2期11-17,共7页
为了提高少样本图像分类的性能和泛化能力,充分利用大规模视觉语言预训练模型,提出了一种高效处理少样本图像分类问题的方法。首先,在文本编码部分,整合多个可学习的文本提示,充分挖掘图像类别标签在提示语句中不同位置对模型泛化性能... 为了提高少样本图像分类的性能和泛化能力,充分利用大规模视觉语言预训练模型,提出了一种高效处理少样本图像分类问题的方法。首先,在文本编码部分,整合多个可学习的文本提示,充分挖掘图像类别标签在提示语句中不同位置对模型泛化性能的影响;其次,在图像编码部分,引入可学习的视觉提示,使图像预训练参数能更好地表征少样本图像;最后,在图像和文本特征编码器后添加特征适配器,并在图像分类数据集上微调网络,以提升网络在少样本图像分类数据集上的性能。在10个公开数据集上进行了大量实验,结果表明,相较于现有方法,所提方法在单样本分类的平均准确度上提高了2.9%。 展开更多
关键词 提示学习 视觉语言模型 少样本学习 图像分类 训练模型
原文传递
一种顾及空间语义的跨模态遥感影像检索技术
16
作者 金澄 弋步荣 +4 位作者 曾志昊 刘扬 陈旭 赵裴 康栋 《中国电子科学研究院学报》 北大核心 2023年第4期328-335,385,共9页
随着遥感影像获取的场景和目标内容日益丰富,传统的基于关键字和属性字段的检索手段无法反映对于影像内容的语义检索,导致用户无法从大规模影像中获取满足需求语义的数据。OpenAI发布的语言-图像预训练对比模型(CLIP),为跨模态开放要素... 随着遥感影像获取的场景和目标内容日益丰富,传统的基于关键字和属性字段的检索手段无法反映对于影像内容的语义检索,导致用户无法从大规模影像中获取满足需求语义的数据。OpenAI发布的语言-图像预训练对比模型(CLIP),为跨模态开放要素检索提供了重要的模型支撑,但其在顾及空间语义关系等复杂跨模态检索任务上能力不足。本文提出了一种顾及空间语义关系的跨模态遥感影像检索技术,基于CLIP构建跨模态遥感影像检索模型GEOCLIP,通过对比学习方法训练,习得富含空间语义与开放信息的双模态语义对齐公共表示空间,特别针对遥感影像跨模态空间语义检索问题,引入遥感影像和文本表达中的空间关系提取,实现融合空间语义的跨模态检索。本文提出的顾及空间语义的跨模态遥感影像检索技术,在RSICD Dataset数据集上进行了验证,其R@1,R@5,R@10和mR指标均达到目前最优,其中平均召回率mR相较于CLIP提升了3.45%,相较于已公开发表的最优方法GaLR提升了77.22%。GEOCLIP在各种空间查询上的平均召回率mR全部优于CLIP,其中针对at、near、around的空间查询提升效果最大,分别为3.72%、8.85%、7.11%。 展开更多
关键词 对比语言-图像预训练 跨模态检索 遥感影像 空间语义
下载PDF
融合BERT与词嵌入双重表征的汉越神经机器翻译方法 被引量:2
17
作者 张迎晨 高盛祥 +2 位作者 余正涛 王振晗 毛存礼 《计算机工程与科学》 CSCD 北大核心 2023年第3期546-553,共8页
神经机器翻译是目前主流的机器翻译方法,但在汉-越这类低资源的机器翻译任务中,由于双语平行语料规模小,神经机器翻译的效果并不理想。考虑到预训练语言模型中包含丰富的语言信息,将预训练语言模型表征融入神经机器翻译系统可能对低资... 神经机器翻译是目前主流的机器翻译方法,但在汉-越这类低资源的机器翻译任务中,由于双语平行语料规模小,神经机器翻译的效果并不理想。考虑到预训练语言模型中包含丰富的语言信息,将预训练语言模型表征融入神经机器翻译系统可能对低资源的机器翻译有积极作用,提出一种融合BERT预训练语言模型与词嵌入双重表征的低资源神经机器翻译方法。首先,使用预训练语言模型和词嵌入分别对源语言序列进行表示学习,通过注意力机制建立2种表征之间的联系后,使用拼接操作得到双重表征向量;然后,经过线性变换和自注意力机制,使词嵌入表征和预训练语言模型表征完全自适应融合在一起,得到对输入文本的充分表征,以此提高神经机器翻译模型性能。在汉越语言对上的翻译结果表明,相比基准系统,在包含127000个平行句对的汉越训练数据中,该方法的BLEU值提升了1.99,在包含70000个平行句对的汉越训练数据中,该方法的BLEU值提升了4.34,表明融合BERT预训练语言模型和词嵌入双重表征的方法能够有效提升汉越机器翻译的性能。 展开更多
关键词 神经机器翻译 训练语言模型 词嵌入 汉语-越南语
下载PDF
基于实体信息和图神经网络的药物相互作用关系抽取 被引量:2
18
作者 杨霞 韩春燕 琚生根 《四川大学学报(自然科学版)》 CAS CSCD 北大核心 2022年第2期42-50,共9页
药物相互作用是指药物与药物之间相互促进或抑制.针对现有的药物关系抽取方法利用外部背景知识和自然语言处理工具导致错误传播和积累的问题,以及现有大多数研究在数据预处理阶段对药物实体进行盲化,忽略了有助于识别关系类别的目标药... 药物相互作用是指药物与药物之间相互促进或抑制.针对现有的药物关系抽取方法利用外部背景知识和自然语言处理工具导致错误传播和积累的问题,以及现有大多数研究在数据预处理阶段对药物实体进行盲化,忽略了有助于识别关系类别的目标药物实体信息的问题.论文提出了基于预训练生物医学语言模型和词汇图神经网络的药物相互作用关系抽取模型,该模型通过预训练语言模型获得句子的原始特征表示,在基于数据集构建的词汇图上进行卷积操作获得与句子相关的全局特征信息表示,最后与药物目标实体对特征进行拼接从而构建药物相互作用关系提取任务的特征表示,在获得丰富的全局特征信息的同时避免了使用自然语言处理工具和外部背景知识,提升模型的准确率.论文的模型在DDIExtraction 2013数据集上的F;值达到了83.25%,优于目前最新方法2.35%. 展开更多
关键词 药物-药物相互作用关系抽取 训练生物医学语言模型 目标药物实体对 图神经网络
下载PDF
基于CLIP模型的跨模态哈希检索研究 被引量:3
19
作者 张程皓 蒋政 《信息与电脑》 2022年第15期85-87,共3页
随着移动互联网的快速发展,不同种类的媒体数据在互联网上迅速增长,如何快速高效地检索不同模态数据成为了人们关心的问题。目前,预训练模型在学习文本和视觉特征上的表现让人印象深刻。使用对比性语言-图像预训练(Contrastive Language... 随着移动互联网的快速发展,不同种类的媒体数据在互联网上迅速增长,如何快速高效地检索不同模态数据成为了人们关心的问题。目前,预训练模型在学习文本和视觉特征上的表现让人印象深刻。使用对比性语言-图像预训练(Contrastive Language-Image Pre-Training,CLIP)模型作为主干网络执行多模态哈希检索任务,预先对齐不同模态的语义信息,再选取合适的目标函数,并使用有监督训练的方法,在此基础上提出简单、高效的CLIP2CMH模型。在两个基准数据集上的实验表明,该算法可以在跨模态哈希检索领域表现出良好性能。 展开更多
关键词 跨模态检索 哈希 训练模型 对比性语言-图像训练(CLIP)
下载PDF
国防科技领域两阶段开放信息抽取方法
20
作者 胡明昊 王芳 +4 位作者 徐先涛 罗威 刘晓鹏 罗准辰 谭玉珊 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2023年第9期1309-1316,共8页
互联网开源渠道蕴含大量国防科技信息资源,是获取高价值军事情报的重要数据来源。国防科技领域开放信息抽取(open information extraction,OpenIE)旨在从海量信息资源中进行主谓宾-宾补(SAO-C)结构元组抽取,其对于国防科技领域本体归纳... 互联网开源渠道蕴含大量国防科技信息资源,是获取高价值军事情报的重要数据来源。国防科技领域开放信息抽取(open information extraction,OpenIE)旨在从海量信息资源中进行主谓宾-宾补(SAO-C)结构元组抽取,其对于国防科技领域本体归纳、知识图谱构建等具有重要意义。然而,相比其他领域的信息抽取,国防科技领域开放信息抽取面临元组重叠嵌套、实体跨度长且难识别、领域标注数据缺乏等问题。本文提出一种国防科技领域两阶段开放信息抽取方法,首先利用基于预训练语言模型的序列标注算法抽取谓语,然后引入多头注意力机制来学习预测要素边界。结合领域专家知识,利用基于实体边界的标注策略构建了国防科技领域标注数据集,并在该数据集上进行了实验,结果显示该方法的F1值在两阶段上比长短期记忆结合条件随机场(LSTM+CRF)方法分别提高了3.92%和16.67百分点。 展开更多
关键词 国防科技 开放信息抽取 主谓宾-宾补结构 知识图谱 训练语言模型
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部