期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
GPT-4对多模态大模型在多模态理解、生成、交互上的启发 被引量:12
1
作者 刘静 郭龙腾 《中国科学基金》 CSCD 北大核心 2023年第5期793-802,共10页
对话式聊天机器人ChatGPT以近乎摧枯拉朽的气势席卷社会,拨开了通用人工智能的曙光。ChatGPT的升级版GPT-4是个多模态大模型,它从单调的文本交互,升级为可以接受文本与图像组合的多模态输入,相比传统的单模态大模型,多模态大模型更加符... 对话式聊天机器人ChatGPT以近乎摧枯拉朽的气势席卷社会,拨开了通用人工智能的曙光。ChatGPT的升级版GPT-4是个多模态大模型,它从单调的文本交互,升级为可以接受文本与图像组合的多模态输入,相比传统的单模态大模型,多模态大模型更加符合人类的多渠道感认知方式,能够应对更加复杂丰富的环境、场景和任务。GPT-4表明在多模态大模型中引入基于人类知识的自然语言理解与生成能力能够带来模型在多模态理解、生成、交互能力上的巨大提升。本文将介绍多模态大模型的概念、关键技术、近期进展和应用场景、GPT-4的技术特性,并重点探讨以GPT-4为代表的大语言模型对构建多模态大模型的几点启发。具体而言,将讨论如何充分利用大语言模型的语言能力,在多模态大模型的构建中,借助语言的帮助更好地感知理解世界、创作生成内容、与人和环境交互。 展开更多
关键词 GPT-4 多模态大模型 多模态理解 多模态生成 多模态交互
原文传递
知识驱动的多模态语义理解研究综述
2
作者 郑祎豪 郭奕君 +1 位作者 毋立芳 黄岩 《模式识别与人工智能》 EI CSCD 北大核心 2023年第12期1127-1138,共12页
基于深度学习模型的多模态学习方法已在静态、可控等简单场景下取得较优的语义理解性能,但在动态、开放等复杂场景下的泛化性仍然较低.近期已有不少研究工作尝试将类人知识引入多模态语义理解方法中,并取得不错效果.为了更深入了解当前... 基于深度学习模型的多模态学习方法已在静态、可控等简单场景下取得较优的语义理解性能,但在动态、开放等复杂场景下的泛化性仍然较低.近期已有不少研究工作尝试将类人知识引入多模态语义理解方法中,并取得不错效果.为了更深入了解当前知识驱动的多模态语义理解研究进展,文中在对相关方法进行系统调研与分析的基础上,归纳总结关系型和对齐型这两类主要的多模态知识表示框架.然后选择多个代表性应用进行具体介绍,包括图文匹配、目标检测、语义分割、视觉-语言导航等.此外,文中总结当前相关方法的优缺点并展望未来可能的发展趋势. 展开更多
关键词 机器学习 深度学习 多模态语义理解 多模态知识表示 多模态语义分析 知识驱动
下载PDF
基于大型语言模型的应急人机协同救援关键技术
3
作者 石响 王天乐 +1 位作者 夏乾臣 陈善广 《指挥与控制学报》 CSCD 北大核心 2024年第3期276-283,共8页
现有的应急救援指挥系统存在灾情信息分析效率低下、人机协作过程不够人性化等问题,具备较强自然语言理解能力和多模态理解能力的大型语言模型(LLM)将有望解决上述难题。通过调研LLM最新研究进展和应急救援控制领域对LLM的任务需求并进... 现有的应急救援指挥系统存在灾情信息分析效率低下、人机协作过程不够人性化等问题,具备较强自然语言理解能力和多模态理解能力的大型语言模型(LLM)将有望解决上述难题。通过调研LLM最新研究进展和应急救援控制领域对LLM的任务需求并进行梳理和分析,评估了现有LLM应用于应急救援领域的技术成熟度,并就灾情信息分析理解等5个任务场景探讨了可能的LLM应用构建方案和综合构建方案,对LLM技术对应急救援系统的未来发展的影响进行展望。 展开更多
关键词 应急救援 大型语言模型 人机协同 多模态理解
下载PDF
融合知识图谱的影视视频标签分类算法研究
4
作者 蒋洪迅 张琳 孙彩虹 《计算机科学与探索》 CSCD 北大核心 2024年第1期161-174,共14页
鉴于视频感知方式的多样性,视频标签层级分类算法均从视觉和文本模态入手,训练联合模型共同推断视频内容。但现有研究通常只适用于粗粒度的分类,针对影视剧名的分类,则需要更加细粒度的识别。提出了一个融合知识图谱的影视视频标签分类... 鉴于视频感知方式的多样性,视频标签层级分类算法均从视觉和文本模态入手,训练联合模型共同推断视频内容。但现有研究通常只适用于粗粒度的分类,针对影视剧名的分类,则需要更加细粒度的识别。提出了一个融合知识图谱的影视视频标签分类算法。首先,使用了基于大规模通用数据训练的多模态预训练模型提取了视觉和文本的特征,训练了一个多任务的视频标签预测模型,得到视频的类型、题材和实体三级标签;通过在多任务学习网络中引入相似性任务提高分类模型训练的难度,使得同类样本特征更加紧密,且更好地表达样本差异。其次,对于最细粒度的实体标签,提出了一个局部注意力头扩展的实体纠错模型,引入外部知识图谱的共现信息对前置模型的预测结果做修正,得到更准确的实体标签预测结果。采集豆瓣的半结构化数据构建了影视知识图谱并对影视视频标签分类模型进行了实证研究。视频标签分类的实验结果表明,首先,基于多任务网络结构,在训练分类任务时加入交叉熵损失函数和相似性损失函数对模型进行共同约束优化了特征表达,在类型、题材、实体标签的Top-1分类准确率上分别提升了3.70%、3.35%和16.57%;其次,针对前置模型的困难样本提出的全局-局部注意力机制模型,在引入了知识图谱信息之后,实体标签的Top-1分类准确率从38.7%提升到45.6%。该研究是使用图片-文本对数据在多模态视频标签分类问题上新的尝试,为少量数据样本情况下的短视频标签分类提供了新的研究思路。 展开更多
关键词 知识图谱 视频标签分类 多模态内容理解 实体纠错
下载PDF
The Effect of Verbal Anchoring on the Processing of Advertising Pictorial Metaphors 被引量:1
5
作者 Shuo CAO Xuanyi ZHAO Ziya XU 《Chinese Journal of Applied Linguistics》 2021年第1期68-89,127,共23页
Although investigating metaphors in advertising is gaining in popularity, there are still certain unresolved arguments, such as the interaction between elements of different modalities. This study,composed of three be... Although investigating metaphors in advertising is gaining in popularity, there are still certain unresolved arguments, such as the interaction between elements of different modalities. This study,composed of three behavioral experiments, aims to identify how verbal anchoring(literal anchoring, metaphor anchoring and unrelated anchoring) influences the processing of pictorial metaphors in advertising, by observing the cognitive and affective indicators, advertising comprehension and advertising likeability. The results showed 1) that metaphors in pictorial modality were recognized more quickly than those in verbal modality, 2) that verbal anchoring facilitated participants ’ comprehending and appreciating of pictorial metaphors and 3) that literally-anchored metaphors with a moderate level of novelty yielded the most favorable cognitive responses. The study not only enriches the existing theoretical framework of multimodal metaphors in advertising, but also proposes an optimal match between pictorial metaphors and verbal elements, for advertisers and manufacturers to design effective multimodal advertisements. 展开更多
关键词 pictorial metaphor verbal anchoring MULTIMODALITY advertisement comprehension advertisement likeability
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部