期刊文献+
共找到50篇文章
< 1 2 3 >
每页显示 20 50 100
Leveraging Vision-Language Pre-Trained Model and Contrastive Learning for Enhanced Multimodal Sentiment Analysis
1
作者 Jieyu An Wan Mohd Nazmee Wan Zainon Binfen Ding 《Intelligent Automation & Soft Computing》 SCIE 2023年第8期1673-1689,共17页
Multimodal sentiment analysis is an essential area of research in artificial intelligence that combines multiple modes,such as text and image,to accurately assess sentiment.However,conventional approaches that rely on... Multimodal sentiment analysis is an essential area of research in artificial intelligence that combines multiple modes,such as text and image,to accurately assess sentiment.However,conventional approaches that rely on unimodal pre-trained models for feature extraction from each modality often overlook the intrinsic connections of semantic information between modalities.This limitation is attributed to their training on unimodal data,and necessitates the use of complex fusion mechanisms for sentiment analysis.In this study,we present a novel approach that combines a vision-language pre-trained model with a proposed multimodal contrastive learning method.Our approach harnesses the power of transfer learning by utilizing a vision-language pre-trained model to extract both visual and textual representations in a unified framework.We employ a Transformer architecture to integrate these representations,thereby enabling the capture of rich semantic infor-mation in image-text pairs.To further enhance the representation learning of these pairs,we introduce our proposed multimodal contrastive learning method,which leads to improved performance in sentiment analysis tasks.Our approach is evaluated through extensive experiments on two publicly accessible datasets,where we demonstrate its effectiveness.We achieve a significant improvement in sentiment analysis accuracy,indicating the supe-riority of our approach over existing techniques.These results highlight the potential of multimodal sentiment analysis and underscore the importance of considering the intrinsic semantic connections between modalities for accurate sentiment assessment. 展开更多
关键词 multimodal sentiment analysis vision–language pre-trained model contrastive learning sentiment classification
下载PDF
Multimodality Prediction of Chaotic Time Series with Sparse Hard-Cut EM Learning of the Gaussian Process Mixture Model 被引量:1
2
作者 周亚同 樊煜 +1 位作者 陈子一 孙建成 《Chinese Physics Letters》 SCIE CAS CSCD 2017年第5期22-26,共5页
The contribution of this work is twofold: (1) a multimodality prediction method of chaotic time series with the Gaussian process mixture (GPM) model is proposed, which employs a divide and conquer strategy. It au... The contribution of this work is twofold: (1) a multimodality prediction method of chaotic time series with the Gaussian process mixture (GPM) model is proposed, which employs a divide and conquer strategy. It automatically divides the chaotic time series into multiple modalities with different extrinsic patterns and intrinsic characteristics, and thus can more precisely fit the chaotic time series. (2) An effective sparse hard-cut expec- tation maximization (SHC-EM) learning algorithm for the GPM model is proposed to improve the prediction performance. SHO-EM replaces a large learning sample set with fewer pseudo inputs, accelerating model learning based on these pseudo inputs. Experiments on Lorenz and Chua time series demonstrate that the proposed method yields not only accurate multimodality prediction, but also the prediction confidence interval SHC-EM outperforms the traditional variational 1earning in terms of both prediction accuracy and speed. In addition, SHC-EM is more robust and insusceptible to noise than variational learning. 展开更多
关键词 GPM multimodality Prediction of Chaotic Time Series with Sparse Hard-Cut EM learning of the Gaussian Process Mixture model EM SHC
下载PDF
基于CLIP和交叉注意力的多模态情感分析模型
3
作者 陈燕 赖宇斌 +2 位作者 肖澳 廖宇翔 陈宁江 《郑州大学学报(工学版)》 CAS 北大核心 2024年第2期42-50,共9页
针对多模态情感分析中存在的标注数据量少、模态间融合不充分以及信息冗余等问题,提出了一种基于对比语言-图片训练(CLIP)和交叉注意力(CA)的多模态情感分析(MSA)模型CLIP-CA-MSA。首先,该模型使用CLIP预训练的BERT模型、PIFT模型来提... 针对多模态情感分析中存在的标注数据量少、模态间融合不充分以及信息冗余等问题,提出了一种基于对比语言-图片训练(CLIP)和交叉注意力(CA)的多模态情感分析(MSA)模型CLIP-CA-MSA。首先,该模型使用CLIP预训练的BERT模型、PIFT模型来提取视频特征向量与文本特征;其次,使用交叉注意力机制将图像特征向量和文本特征向量进行交互,以加强不同模态之间的信息传递;最后,利用不确定性损失特征融合后计算输出最终的情感分类结果。实验结果表明:该模型比其他多模态模型准确率提高5百分点至14百分点,F1值提高3百分点至12百分点,验证了该模型的优越性,并使用消融实验验证该模型各模块的有效性。该模型能够有效地利用多模态数据的互补性和相关性,同时利用不确定性损失来提高模型的鲁棒性和泛化能力。 展开更多
关键词 情感分析 多模态学习 交叉注意力 CLIP模型 TRANSFORMER 特征融合
下载PDF
多模态方面级情感分析的多视图交互学习网络
4
作者 王旭阳 庞文倩 赵丽婕 《计算机工程与应用》 CSCD 北大核心 2024年第7期92-100,共9页
以往的多模态方面级情感分析方法只利用预训练模型的一般文本和图片表示,对方面和观点词相关性的识别不敏感,且不能动态获取图片信息对单词表示的贡献,因而不能充分识别多模态与方面之间的相关性。针对上述问题,提出一种多视图交互学习... 以往的多模态方面级情感分析方法只利用预训练模型的一般文本和图片表示,对方面和观点词相关性的识别不敏感,且不能动态获取图片信息对单词表示的贡献,因而不能充分识别多模态与方面之间的相关性。针对上述问题,提出一种多视图交互学习网络模型。将句子从上下文和句法两个视图上分别提取特征,以便在多模态交互时充分利用到文本的全局特征;对文本、图片和方面之间的关系进行建模,使模型实现多模态交互;同时融合不同模态的交互表示,动态获取视觉信息对文本中每个单词的贡献程度,充分提取模态与方面之间的相关性。最后通过全连接层和Softmax层获取情感分类结果。在两个数据集上进行实验,实验结果表明该模型能够有效增强多模态方面级情感分类的效果。 展开更多
关键词 多模态方面级情感分析 预训练模型 多视图学习 多模态交互 动态融合
下载PDF
脑肿瘤三维可视化模型自动重建技术的开发及临床应用
5
作者 刘培龙 蒋理 +4 位作者 谢延风 詹彦 邓博 徐伟竣 石全红 《重庆医科大学学报》 CAS CSCD 北大核心 2024年第4期471-477,共7页
目的:研究和开发一种基于头颅多模态核磁共振成像(magnetic resonance imaging,MRI)的影像学数据,自动重建常见脑肿瘤及其周围重要结构的三维可视化模型,并验证其效能及临床适用性。方法:收集常见脑肿瘤头颅多模态核磁共振影像数据,并... 目的:研究和开发一种基于头颅多模态核磁共振成像(magnetic resonance imaging,MRI)的影像学数据,自动重建常见脑肿瘤及其周围重要结构的三维可视化模型,并验证其效能及临床适用性。方法:收集常见脑肿瘤头颅多模态核磁共振影像数据,并将其分为训练集、验证集和临床测试集。在训练及验证中,通过3D深度卷积神经网络的算法训练系统自动分割并重建出脑肿瘤及周围结构的能力;在临床测试集中分别用系统及人工手动的方法完成重建,比较本系统自动重建与手动重建之间的重建效率及图像质量。结果:在完成1例肿瘤及周围结构一体化模型重建的时间花费上面,系统用时由人工用时的(5 442±623) s减少至(657±78) s,差异有统计学意义(t=27.530,P=0.000)。且系统重建出的模型与原始影像学图像具有高度一致性(Dice系数为0.92),系统重建出的图像与人工重建的图像在质量方面并无明显差异。结论:基于多模态影像学数据,运用深度学习等算法对脑肿瘤及周围结构进行自动分割及全自动三维可视化重建,具有准确、高效、可靠的优点,对于脑肿瘤的诊断和手术计划的制定具有重要意义。 展开更多
关键词 机器学习 多模态MRI 脑肿瘤 三维可视化模型
下载PDF
基于多模态对比学习的代码表征增强预训练方法
6
作者 杨宏宇 马建辉 +2 位作者 侯旻 沈双宏 陈恩红 《软件学报》 EI CSCD 北大核心 2024年第4期1601-1617,共17页
代码表征旨在融合源代码的特征,以获取其语义向量,在基于深度学习的代码智能中扮演着重要角色.传统基于手工的代码表征依赖领域专家的标注,繁重耗时,且无法灵活地复用于特定下游任务,这与绿色低碳的发展理念极不相符.因此,近年来,许多... 代码表征旨在融合源代码的特征,以获取其语义向量,在基于深度学习的代码智能中扮演着重要角色.传统基于手工的代码表征依赖领域专家的标注,繁重耗时,且无法灵活地复用于特定下游任务,这与绿色低碳的发展理念极不相符.因此,近年来,许多自监督学习的编程语言大规模预训练模型(如CodeBERT)应运而生,为获取通用代码表征提供了有效途径.这些模型通过预训练获得通用的代码表征,然后在具体任务上进行微调,取得了显著成果.但是,要准确表示代码的语义信息,需要融合所有抽象层次的特征(文本级、语义级、功能级和结构级).然而,现有模型将编程语言仅视为类似于自然语言的普通文本序列,忽略了它的功能级和结构级特征.因此,旨在进一步提高代码表征的准确性,提出了基于多模态对比学习的代码表征增强的预训练模型(representation enhanced contrastive multimodal pretraining,REcomp).REcomp设计了新的语义级-结构级特征融合算法,将它用于序列化抽象语法树,并通过多模态对比学习的方法将该复合特征与编程语言的文本级和功能级特征相融合,以实现更精准的语义建模.最后,在3个真实的公开数据集上进行了实验,验证了REcomp在提高代码表征准确性方面的有效性. 展开更多
关键词 代码表征 预训练模型 多模态 对比学习
下载PDF
面向多模态模型训练的高效样本检索技术
7
作者 唐秀 伍赛 +1 位作者 侯捷 陈刚 《软件学报》 EI CSCD 北大核心 2024年第3期1125-1139,共15页
深度学习中,多模态模型的训练通常需要大量高质量不同类型的标注数据,如图像、文本、音频等.然而,获取大规模的多模态标注数据是一项具有挑战性和昂贵的任务.为了解决这一问题,主动学习作为一种有效的学习范式被广泛应用,能够通过有针... 深度学习中,多模态模型的训练通常需要大量高质量不同类型的标注数据,如图像、文本、音频等.然而,获取大规模的多模态标注数据是一项具有挑战性和昂贵的任务.为了解决这一问题,主动学习作为一种有效的学习范式被广泛应用,能够通过有针对性地选择最有信息价值的样本进行标注,从而降低标注成本并提高模型性能.现有的主动学习方法往往面临着低效的数据扫描和数据位置调整问题,当索引需要进行大范围的更新时,会带来巨大的维护代价.为解决这些问题,提出了一种面向多模态模型训练的高效样本检索技术So-CBI.该方法通过感知模型训练类间边界点,精确评估样本对模型的价值;设计了半有序的高效样本索引,通过结合数据排序信息和部分有序性,降低了索引维护代价和时间开销.在多组多模态数据集上通过与传统主动学习训练方法实验对比,验证了So-CBI方法在主动学习下的训练样本检索问题上的有效性. 展开更多
关键词 多模态模型训练 主动学习 样本检索
下载PDF
基于多模态关系建模的三维形状识别方法
8
作者 陈浩楠 朱映映 +1 位作者 赵骏骐 田奇 《软件学报》 EI CSCD 北大核心 2024年第5期2208-2219,共12页
为了充分利用点云和多视图两种模态数据之间的局部空间关系以进一步提高三维形状识别精度,提出一个基于多模态关系的三维形状识别网络,首先设计多模态关系模块(multimodal relation module,MRM),该模块可以提取任意一个点云的局部特征... 为了充分利用点云和多视图两种模态数据之间的局部空间关系以进一步提高三维形状识别精度,提出一个基于多模态关系的三维形状识别网络,首先设计多模态关系模块(multimodal relation module,MRM),该模块可以提取任意一个点云的局部特征和一个多视图的局部特征之间的关系信息,以得到对应的关系特征.然后,采用由最大池化和广义平均池化组成的级联池化对关系特征张量进行处理,得到全局关系特征.多模态关系模块分为两种类型,分别输出点-视图关系特征和视图-点关系特征.提出的门控模块采用自注意力机制来发现特征内部的关联信息,从而将聚合得到的全局特征进行加权来实现对冗余信息的抑制.详尽的实验表明多模态关系模块可以使网络获得更优的表征能力;门控模块可以让最终的全局特征更具判别力,提升检索任务的性能.所提网络在三维形状识别标准数据集ModelNet40和ModelNet10上分别取得了93.8%和95.0%的分类准确率以及90.5%和93.4%的平均检索精度,在同类工作中处于先进水平. 展开更多
关键词 三维形状识别 关系建模 多模态学习
下载PDF
融合“七性”的混合式教学模式构建与应用
9
作者 胡萍 《铜仁学院学报》 2024年第2期42-51,59,共11页
课堂教学是新工科人才培养主阵地,当前教学模式改革的首要任务是培养并强化学生的实践动手能力、合作能力和创新能力。按照“模式构建-实证应用-成效分析”的思路,基于工科教学模式变迁,结合项目式学习在教学设计、评价方法、交互活动... 课堂教学是新工科人才培养主阵地,当前教学模式改革的首要任务是培养并强化学生的实践动手能力、合作能力和创新能力。按照“模式构建-实证应用-成效分析”的思路,基于工科教学模式变迁,结合项目式学习在教学设计、评价方法、交互活动、技术环境等方面的应用,构建了融合“七性”的混合式教学模式。该模式经过五轮工科教学应用优化,通过多模态数据分析,验证了其在提高教学成效方面的有效性。最后从教学模式的实施方面提出了一些建议,为新工科人才培养的新模式提供参考。 展开更多
关键词 新工科 混合式教学 多模态数据 教学模式
下载PDF
吴泽霖民族学田野实践及其田野观管窥
10
作者 张柳丹 《铜仁学院学报》 2024年第2期52-59,共8页
民族学研究是吴泽霖一生中最为热忱、研究最为深入、成果最为斐然的领域。他曾多次亲赴少数民族地区进行田野调查研究,写就了丰富的田野民族志,并对田野调查有独到的见解。通过对吴泽霖田野调查观点和见解的梳理,吴泽霖的田野观可以简... 民族学研究是吴泽霖一生中最为热忱、研究最为深入、成果最为斐然的领域。他曾多次亲赴少数民族地区进行田野调查研究,写就了丰富的田野民族志,并对田野调查有独到的见解。通过对吴泽霖田野调查观点和见解的梳理,吴泽霖的田野观可以简要概述为:学以致用,学术为现实服务;学科综合,自觉进行方法论探索;着眼细节,从局部研究整体;关注妇女,强调女性角色在田野调查中的价值四个方面。其思想见解极具深邃性与前瞻性,是我国民族学人类学的学术遗产和精神财富,至今仍具有重要指导和借鉴意义。 展开更多
关键词 吴泽霖 民族学 田野实践 田野观
下载PDF
2023年深度学习技术主要发展动向分析
11
作者 王亚珅 葛悦涛 +3 位作者 鞠卓亚 郭大宇 韩嘉祺 刘文华 《无人系统技术》 2024年第1期50-58,共9页
深度学习已成为人工智能领域的研究热点和主流发展方向之一,为诸多重要应用领域带来了革命性的进步。对2023年深度学习技术热门领域的主要发展动向进行了综合评述。首先介绍了深度学习技术发展现状,其次探讨了深度学习技术的军事应用任... 深度学习已成为人工智能领域的研究热点和主流发展方向之一,为诸多重要应用领域带来了革命性的进步。对2023年深度学习技术热门领域的主要发展动向进行了综合评述。首先介绍了深度学习技术发展现状,其次探讨了深度学习技术的军事应用任务和挑战,最后盘点了深度学习技术的未来重点发展方向。综述表明,大语言模型是深度学习领域在2023年最突出的亮点,世界模型框架下的自监督学习技术、强化学习框架下的人工智能智能体技术等也呈现加速发展态势;环境恶劣与强干扰复杂条件下的高鲁棒性深度学习、面向实时流数据高效处理与内在逻辑关联的深度学习、面向多变作战场景自主决策与快速决策的深度学习、面向跨域数据协同感知与协同推理的深度学习等,是深度学习技术未来重要的发展方向。 展开更多
关键词 深度学习 人工智能 大语言模型 多模态 自监督学习 强化学习 人工智能智能体
下载PDF
Vision Enhanced Generative Pre-trained Language Model for Multimodal Sentence Summarization
12
作者 Liqiang Jing Yiren Li +3 位作者 Junhao Xu Yongcan Yu Pei Shen Xuemeng Song 《Machine Intelligence Research》 EI CSCD 2023年第2期289-298,共10页
Multimodal sentence summarization(MMSS)is a new yet challenging task that aims to generate a concise summary of a long sentence and its corresponding image.Although existing methods have gained promising success in MM... Multimodal sentence summarization(MMSS)is a new yet challenging task that aims to generate a concise summary of a long sentence and its corresponding image.Although existing methods have gained promising success in MMSS,they overlook the powerful generation ability of generative pre-trained language models(GPLMs),which have shown to be effective in many text generation tasks.To fill this research gap,we propose to using GPLMs to promote the performance of MMSS.Notably,adopting GPLMs to solve MMSS inevitably faces two challenges:1)What fusion strategy should we use to inject visual information into GPLMs properly?2)How to keep the GPLM′s generation ability intact to the utmost extent when the visual feature is injected into the GPLM.To address these two challenges,we propose a vision enhanced generative pre-trained language model for MMSS,dubbed as Vision-GPLM.In Vision-GPLM,we obtain features of visual and textual modalities with two separate encoders and utilize a text decoder to produce a summary.In particular,we utilize multi-head attention to fuse the features extracted from visual and textual modalities to inject the visual feature into the GPLM.Meanwhile,we train Vision-GPLM in two stages:the vision-oriented pre-training stage and fine-tuning stage.In the vision-oriented pre-training stage,we particularly train the visual encoder by the masked language model task while the other components are frozen,aiming to obtain homogeneous representations of text and image.In the fine-tuning stage,we train all the components of Vision-GPLM by the MMSS task.Extensive experiments on a public MMSS dataset verify the superiority of our model over existing baselines. 展开更多
关键词 multimodal sentence summarization(MMSS) generative pre-trained language model(GPLM) natural language generation deep learning artificial intelligence
原文传递
基于多时相多参数融合的麦玉轮作小麦产量估算方法 被引量:1
13
作者 李阳 苑严伟 +3 位作者 赵博 王吉中 伟利国 董鑫 《农业机械学报》 EI CAS CSCD 北大核心 2023年第12期186-196,共11页
为了进一步提高冬小麦产量预测的准确性,针对麦玉轮作体系缺乏直接把前茬作物信息纳入到当季作物的产量估算及管理中的研究状况,利用前茬玉米季中长势遥感信息及产量信息,融合小麦拔节期、灌浆期及成熟期长势遥感信息、播前施肥信息及... 为了进一步提高冬小麦产量预测的准确性,针对麦玉轮作体系缺乏直接把前茬作物信息纳入到当季作物的产量估算及管理中的研究状况,利用前茬玉米季中长势遥感信息及产量信息,融合小麦拔节期、灌浆期及成熟期长势遥感信息、播前施肥信息及土壤特性信息等多时相多模态数据,基于GPR算法,建立多时相多模态参数融合的麦玉轮作体系小麦产量估算模型,结果显示:基于多生育期的产量估算模型较单生育期最优产量估算模型性能有所提升,R2提高0.01~0.03。其中基于拔节期产量估算模型精度略低于多生育期产量估算模型,但精度相近。基于多模态参数融合的产量估算模型中,除玉米作物信息与土壤特性信息融合构建的产量估算模型,多模态参数融合的产量估算模型精度较相应低模态参数融合的产量估算模型精度高。四模态参数融合的GPR模型决定系数R^(2)为0.92,RMSE为213.75 kg/hm^(2),较其他模型,R^(2)提高0.02~0.41。对于小麦产量估算模型,各模态参数影响由大到小依次为施肥信息、小麦遥感信息、土壤特性信息、玉米作物信息。玉米作物信息对于多模态参数融合的小麦产量估算模型精度提升最小,R^(2)总体提升0.02~0.07。玉米作物信息在一定程度表征了收获后土壤肥力状况,是土壤特性信息的高空间分辨率补充,可以进一步提高量化土壤肥力的能力,与其他参数信息结合,提高了小麦产量估算精度,为麦玉轮作体系土壤-作物数据的综合利用及轮作体系的综合管理提供了科学依据和方法思路。 展开更多
关键词 小麦 玉米 产量估算模型 作物信息 多模态参数融合 机器学习
下载PDF
视觉语言预训练综述 被引量:3
14
作者 殷炯 张哲东 +5 位作者 高宇涵 杨智文 李亮 肖芒 孙垚棋 颜成钢 《软件学报》 EI CSCD 北大核心 2023年第5期2000-2023,共24页
近年来深度学习在计算机视觉(CV)和自然语言处理(NLP)等单模态领域都取得了十分优异的性能.随着技术的发展,多模态学习的重要性和必要性已经慢慢展现.视觉语言学习作为多模态学习的重要部分,得到国内外研究人员的广泛关注.得益于Transfo... 近年来深度学习在计算机视觉(CV)和自然语言处理(NLP)等单模态领域都取得了十分优异的性能.随着技术的发展,多模态学习的重要性和必要性已经慢慢展现.视觉语言学习作为多模态学习的重要部分,得到国内外研究人员的广泛关注.得益于Transformer框架的发展,越来越多的预训练模型被运用到视觉语言多模态学习上,相关任务在性能上得到了质的飞跃.系统地梳理了当前视觉语言预训练模型相关的工作,首先介绍了预训练模型的相关知识,其次从两种不同的角度分析比较预训练模型结构,讨论了常用的视觉语言预训练技术,详细介绍了5类下游预训练任务,最后介绍了常用的图像和视频预训练任务的数据集,并比较和分析了常用预训练模型在不同任务下不同数据集上的性能. 展开更多
关键词 多模态学习 预训练模型 TRANSFORMER 视觉语言学习
下载PDF
基于统一网络架构的多模态航空影像质量评价研究 被引量:1
15
作者 闫婧 武林伟 +1 位作者 刘伟杰 韩如雪 《现代电子技术》 2023年第17期43-47,共5页
高质量无人机航空影像是目标检测、分析、识别的重要前提条件,但各类传感器成像机理不同,质量影响因素多样,往往需要根据不同模态数据的特性设计不同的网络模型,从而大大增加了质量评价算法在无人机上的应用难度。针对这一问题,提出一... 高质量无人机航空影像是目标检测、分析、识别的重要前提条件,但各类传感器成像机理不同,质量影响因素多样,往往需要根据不同模态数据的特性设计不同的网络模型,从而大大增加了质量评价算法在无人机上的应用难度。针对这一问题,提出一种基于统一网络框架的无参考多模态影像质量评价模型,通过自适应地学习图像块内部的局部特征与图像块之间的相互关系,完成空间维度上的全局信息融合和时间维度上的时序信息融合,实现对多种模态影像数据的质量评估,进而快速有效地监测筛选采集数据的质量,提高有效数据采集效率。实验结果表明,该方法在多种模态的影像数据质量评价上具备泛用性和有效性。 展开更多
关键词 深度学习 无参考模型 网络结构 多模态数据 影像质量评价 卷积神经网络 特征提取 特征融合
下载PDF
基于多级残差映射器的文本驱动人脸图像生成和编辑
16
作者 李宗霖 张盛平 +3 位作者 刘杨 张兆心 张维刚 黄庆明 《软件学报》 EI CSCD 北大核心 2023年第5期2101-2115,共15页
尽管生成对抗网络在人脸图像生成和编辑领域取得了巨大的成功,但在其潜在编码空间中寻找可以操作人脸语义属性的方向仍然是计算机视觉的一大挑战,这一挑战的实现需要大量标记数据不断进行网络调优,而搜集、标注类似数据存在诸多难点,比... 尽管生成对抗网络在人脸图像生成和编辑领域取得了巨大的成功,但在其潜在编码空间中寻找可以操作人脸语义属性的方向仍然是计算机视觉的一大挑战,这一挑战的实现需要大量标记数据不断进行网络调优,而搜集、标注类似数据存在诸多难点,比如较高的技术门槛以及大量的人工成本.最近的一些工作都在试图借助预训练模型来克服标记数据短缺的问题.虽然这种做法已经被验证能够完成上述任务,但在操作的准确性和结果的真实性上都无法满足真实人脸编辑场景的需求.借助对比语言-图像预训练模型(CLIP)的图像文本联合表示能力将图像和文本内容编码在一个共享的潜在编码空间中,借助于精心设计的网络结构和损失函数,所提框架可以精准识别相关面部属性并学习一个多级残差映射网络,所提网络可根据图像和文本内容编码预测潜在编码残差,再借助图像生成预训练模型StyleGAN2完成高质量的人脸图像生成和编辑任务.大量实验也证明了所提方法在操作准确性、视觉真实性和无关属性保留方面的优异表现. 展开更多
关键词 多模态学习 预训练模型 人脸图像生成 人脸图像编辑 对抗生成网络
下载PDF
多模态大模型的教育应用研究与展望 被引量:5
17
作者 卢宇 余京蕾 +1 位作者 陈鹏鹤 余胜泉 《电化教育研究》 北大核心 2023年第6期38-44,共7页
多模态大模型逐渐成为人工智能领域研究的热点,目前已在通用领域有显著进展,但在教育领域仍处于起步阶段。文章提出可以构建教育领域通用大模型,并使其通过下游任务适配形成三类多模态教育大模型,从而形成三种典型教育应用,即教学资源... 多模态大模型逐渐成为人工智能领域研究的热点,目前已在通用领域有显著进展,但在教育领域仍处于起步阶段。文章提出可以构建教育领域通用大模型,并使其通过下游任务适配形成三类多模态教育大模型,从而形成三种典型教育应用,即教学资源自动生成、人机协同过程支持与教师教学智能辅助。在此基础上,文章以“多模态汉字学习系统”为例,利用多模态大模型实现跨模态释义生成,展示了多模态大模型在辅助语言学习方面的应用潜力。最后,文章针对教育领域通用大模型研究、多模态教育大模型的创新应用及其带来的潜在风险与可能触发的教育变革,提出针对性的建议与展望。 展开更多
关键词 多模态大模型 人工智能教育应用 多模态汉字学习 教育大模型
下载PDF
面向分布式机器学习的网络模态创新 被引量:2
18
作者 郭泽华 朱昊文 徐同文 《电信科学》 2023年第6期44-51,共8页
分布式机器学习作为人工智能的主流计算架构,目前仍然存在数据性能传输不高、模型训练速度慢等缺陷,传统的网络模态无法满足分布式机器学习场景的通信语义,继而无法解决这些缺陷以进一步提升模型训练性能。采用多模态网络技术,基于应用... 分布式机器学习作为人工智能的主流计算架构,目前仍然存在数据性能传输不高、模型训练速度慢等缺陷,传统的网络模态无法满足分布式机器学习场景的通信语义,继而无法解决这些缺陷以进一步提升模型训练性能。采用多模态网络技术,基于应用特点设计了面向分布式机器学习场景的新型网络模态及其运行逻辑,为多模态网络技术在垂直行业的应用提供了借鉴意义。 展开更多
关键词 多模态网络 分布式机器学习 模型训练 人工智能
下载PDF
基于深度学习的图像-文本匹配研究综述 被引量:2
19
作者 刘萌 齐孟津 +3 位作者 詹圳宇 曲磊钢 聂秀山 聂礼强 《计算机学报》 EI CAS CSCD 北大核心 2023年第11期2370-2399,共30页
图像-文本匹配任务旨在衡量图像和文本描述之间的相似性,其在桥接视觉和语言中起着至关重要的作用.近年来,图像与句子的全局对齐以及区域与单词的局部对齐研究方面取得了很大的进展.本文对当前先进的研究方法进行分类和描述.具体地,本... 图像-文本匹配任务旨在衡量图像和文本描述之间的相似性,其在桥接视觉和语言中起着至关重要的作用.近年来,图像与句子的全局对齐以及区域与单词的局部对齐研究方面取得了很大的进展.本文对当前先进的研究方法进行分类和描述.具体地,本文将现有方法划分为基于全局特征的图像-文本匹配方法、基于局部特征的图像-文本匹配方法、基于外部知识的图像-文本匹配方法、基于度量学习的图像-文本匹配方法以及多模态预训练模型,对于基于全局特征的图像-文本匹配方法,本文依据流程类型划分为两类:基于嵌入的方法和基于交互的方法;而对于基于局部特征的图像-文本匹配方法,依据其交互模式的不同,则被细分为三类:基于模态内关系建模的方法、基于模态间关系建模的方法以及基于混合交互建模的方法.随后,本文对当前图像-文本匹配任务的相关数据集进行了整理,并对现有方法的实验结果进行分析与总结.最后,对未来研究可能面临的挑战进行了展望. 展开更多
关键词 图像-文本匹配 跨模态图像检索 多模态预训练模型 综述 深度学习 人工智能
下载PDF
融合语音、脑电和人脸表情的多模态情绪识别 被引量:2
20
作者 方伟杰 张志航 +2 位作者 王恒畅 梁艳 潘家辉 《计算机系统应用》 2023年第1期337-347,共11页
本文提出了一种多模态情绪识别方法,该方法融合语音、脑电及人脸的情绪识别结果来从多个角度综合判断人的情绪,有效地解决了过去研究中准确率低、模型鲁棒性差的问题.对于语音信号,本文设计了一个轻量级全卷积神经网络,该网络能够很好... 本文提出了一种多模态情绪识别方法,该方法融合语音、脑电及人脸的情绪识别结果来从多个角度综合判断人的情绪,有效地解决了过去研究中准确率低、模型鲁棒性差的问题.对于语音信号,本文设计了一个轻量级全卷积神经网络,该网络能够很好地学习语音情绪特征且在轻量级方面拥有绝对的优势.对于脑电信号,本文提出了一个树状LSTM模型,可以全面学习每个阶段的情绪特征.对于人脸信号,本文使用GhostNet进行特征学习,并改进了GhostNet的结构使其性能大幅提升.此外,我们设计了一个最优权重分布算法来搜寻各模态识别结果的可信度来进行决策级融合,从而得到更全面、更准确的结果.上述方法在EMO-DB与CK+数据集上分别达到了94.36%与98.27%的准确率,且提出的融合方法在MAHNOB-HCI数据库的唤醒效价两个维度上分别得到了90.25%与89.33%的准确率.我们的实验结果表明,与使用单一模态以及传统的融合方式进行情绪识别相比,本文提出的多模态情绪识别方法有效地提高了识别准确率. 展开更多
关键词 多模态情绪识别 决策级融合 轻量级模型 LSTM GhostNet 深度学习
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部