期刊文献+
共找到14篇文章
< 1 >
每页显示 20 50 100
基于模态类别的多模态信息处理与融合综述
1
作者 黄文栋 王怡凡 《计算机与现代化》 2024年第7期47-62,共16页
随着人工智能和深度学习技术的不断发展,多模态信息处理与融合领域的相关研究受到了研究者们的广泛关注。本文总结多模态信息处理的发展历史和里程碑式的工作,以及多模态融合策略和模型。根据模态类别的不同,分类整理多模态信息处理与... 随着人工智能和深度学习技术的不断发展,多模态信息处理与融合领域的相关研究受到了研究者们的广泛关注。本文总结多模态信息处理的发展历史和里程碑式的工作,以及多模态融合策略和模型。根据模态类别的不同,分类整理多模态信息处理与融合的主流数据集。以模态类型作为分类标准,本文系统地梳理多模态信息处理与融合的研究进展,强调不同模态之间的区别,并将多模态信息处理与融合分为:视听处理与融合、声文处理与融合、视觉-文本处理与融合和视觉-音频-文本处理与融合4种类别,对不同输入模态的处理融合方法与模型进行详细的研究。最后针对多模态处理与融合领域的发展进行总结与展望。 展开更多
关键词 多模态处理 多模态信息处理 多模态融合 深度学习
下载PDF
MCM-ICE:联合独立编码和协同编码的多模态分类模型
2
作者 郭锐锋 魏靖烜 +1 位作者 于碧辉 孙林壮 《小型微型计算机系统》 CSCD 北大核心 2024年第9期2080-2086,共7页
多模态数据处理是一个重要的研究领域,它可以通过结合文本、图像等多种信息来提高模型性能.然而,由于不同模态之间的异构性以及信息融合的挑战,设计有效的多模态分类模型仍然是一个具有挑战性的问题.本文提出了一种新的多模态分类模型—... 多模态数据处理是一个重要的研究领域,它可以通过结合文本、图像等多种信息来提高模型性能.然而,由于不同模态之间的异构性以及信息融合的挑战,设计有效的多模态分类模型仍然是一个具有挑战性的问题.本文提出了一种新的多模态分类模型——MCM-ICE,它通过联合独立编码和协同编码策略来解决特征表示和特征融合的挑战.MCM-ICE在Fashion-Gen和Hateful Memes Challenge两个数据集上进行了实验,结果表明该模型在这两项任务中均优于现有的最先进方法.本文还探究了协同编码模块Transformer输出层的不同向量选取对结果的影响,结果表明选取[CLS]向量和去除[CLS]的向量的平均池化向量可以获得最佳结果.消融研究和探索性分析支持了MCM-ICE模型在处理多模态分类任务方面的有效性. 展开更多
关键词 多模态数据处理 特征表示 特征融合 协同编码
下载PDF
交际意图从生成到识解的过程研究——多模态语篇信息处理视角 被引量:3
3
作者 淮艳梅 《外国语文》 北大核心 2014年第3期90-95,共6页
以多模态语篇信息处理为视角,研究交际意图从生成到识解的多模态信息处理过程,结果表明交际双方的多模态信息编码和解码过程呈镜面逆向关系,多模态交际语篇为镜面本身,交际双方逆向处理多模态信息,即交际者生成交际意图后,经过信息语篇... 以多模态语篇信息处理为视角,研究交际意图从生成到识解的多模态信息处理过程,结果表明交际双方的多模态信息编码和解码过程呈镜面逆向关系,多模态交际语篇为镜面本身,交际双方逆向处理多模态信息,即交际者生成交际意图后,经过信息语篇化、语篇信息化、信息多模态化过程,形成多模态交际语篇;而交际对象接收多模态交际语篇后,经过多模态信息化、信息语篇化、语篇信息化过程,识解交际意图。 展开更多
关键词 交际意图 多模态信息 多模态交际语篇 多模态语篇信息处理 语篇信息
下载PDF
数据结构与算法创新实验教学实践——以跨模态检索为例 被引量:1
4
作者 宗林林 于红 +3 位作者 刘馨月 徐秀娟 张晓彤 张宪超 《实验室研究与探索》 CAS 北大核心 2023年第6期169-173,共5页
数据结构与算法创新实验是计算机专业数据结构与算法课程教学中不可缺少的实验环节,为了提高此类实验教学质量,满足大数据处理的需求,以跨模态检索任务为例,探究面向大数据的多模态检索问题。通过分析多模态数据的产生,给出了跨模态检... 数据结构与算法创新实验是计算机专业数据结构与算法课程教学中不可缺少的实验环节,为了提高此类实验教学质量,满足大数据处理的需求,以跨模态检索任务为例,探究面向大数据的多模态检索问题。通过分析多模态数据的产生,给出了跨模态检索任务的定义,结合跨模态检索大学生创新训练项目,分析了大学生在解决检索方面新问题的过程中提高创新能力的方法。总结了大学生创新实验的成效和体会,为数据结构与算法创新实验教学实践提供了更加有效的路径。 展开更多
关键词 检索 多模态数据处理 数据结构与算法
下载PDF
多模态信息处理前沿综述:应用、融合和预训练 被引量:18
5
作者 吴友政 李浩然 +1 位作者 姚霆 何晓冬 《中文信息学报》 CSCD 北大核心 2022年第5期1-20,共20页
随着视觉、听觉、语言等单模态人工智能技术的突破,让计算机拥有更接近人类理解多模态信息的能力受到研究者们的广泛关注。另一方面,随着图文社交、短视频、视频会议、直播和虚拟数字人等应用的涌现,对多模态信息处理技术提出了更高要求... 随着视觉、听觉、语言等单模态人工智能技术的突破,让计算机拥有更接近人类理解多模态信息的能力受到研究者们的广泛关注。另一方面,随着图文社交、短视频、视频会议、直播和虚拟数字人等应用的涌现,对多模态信息处理技术提出了更高要求,同时也给多模态研究提供了海量的数据和丰富的应用场景。该文首先介绍了近期自然语言处理领域关注度较高的多模态应用,并从单模态的特征表示、多模态的特征融合阶段、融合模型的网络结构、未对齐模态和模态缺失下的多模态融合等角度综述了主流的多模态融合方法,同时也综合分析了视觉-语言跨模态预训练模型的最新进展。 展开更多
关键词 多模态信息处理 多模态融合 多模态预训练 自然语言处理
下载PDF
基于多模态神经网络的图像中文摘要生成方法 被引量:6
6
作者 刘泽宇 马龙龙 +1 位作者 吴健 孙乐 《中文信息学报》 CSCD 北大核心 2017年第6期162-171,共10页
图像的自然语言描述(image captioning)是一个融合计算机视觉、自然语言处理和机器学习的跨领域课题。它作为多模态处理的关键技术,近年来取得了显著成果。当前研究大多针对图像生成英文摘要,而对于中文摘要的生成方法研究较少。该文提... 图像的自然语言描述(image captioning)是一个融合计算机视觉、自然语言处理和机器学习的跨领域课题。它作为多模态处理的关键技术,近年来取得了显著成果。当前研究大多针对图像生成英文摘要,而对于中文摘要的生成方法研究较少。该文提出了一种基于多模态神经网络的图像中文摘要生成方法。该方法由编码器和解码器组成,编码器基于卷积神经网络,包括单标签视觉特征提取网络和多标签关键词特征预测网络,解码器基于长短时记忆网络,由多模态摘要生成网络构成。在解码过程中,该文针对长短时记忆网络的特点提出了四种多模态摘要生成方法 CNIC-X、CNIC-H、CNIC-C和CNIC-HC。在中文摘要数据集Flickr8k-CN上实验,结果表明该文提出的方法优于现有的中文摘要生成模型。 展开更多
关键词 图像中文摘要 多模态处理 神经网络
下载PDF
多尺度的开放词汇目标检测
7
作者 祝岚 翟亚红 +3 位作者 徐龙艳 王杰 赵逸凡 叶子恒 《湖北汽车工业学院学报》 2024年第3期77-80,共4页
现有的开放词汇目标检测算法在处理图像和文本对应关系时容易丢掉多尺度信息,导致对小目标检测的精度较低。针对这个问题,文中结合Channel Attention机制与特征金字塔网络构建C-FPN模块,提出C-Baron算法。在区域选择阶段,C-Baron采用区... 现有的开放词汇目标检测算法在处理图像和文本对应关系时容易丢掉多尺度信息,导致对小目标检测的精度较低。针对这个问题,文中结合Channel Attention机制与特征金字塔网络构建C-FPN模块,提出C-Baron算法。在区域选择阶段,C-Baron采用区域打包对齐方法处理图像与文本的对应关系。实验表明:相对于基线模型,C-Baron在新类别和基础类别上的识别精度分别提高了2%和6.3%。 展开更多
关键词 开放词汇目标检测 多尺度信息 多模态处理 图片文本对齐 C-FPN模块
下载PDF
非关系型表格理解前沿进展
8
作者 罗平 杨清平 +2 位作者 曹逸轩 曹荣禹 何清 《中文信息学报》 CSCD 北大核心 2024年第5期1-21,共21页
表格理解是指通过计算机对广泛存在于互联网、垂直领域的表格进行自动识别、解析和应用的过程。表格可大致分为关系型表格和非关系型表格。前者类似关系数据库表格,具有结构固定、机器易解析等特点,其研究历史由来已久。后者通常布局多... 表格理解是指通过计算机对广泛存在于互联网、垂直领域的表格进行自动识别、解析和应用的过程。表格可大致分为关系型表格和非关系型表格。前者类似关系数据库表格,具有结构固定、机器易解析等特点,其研究历史由来已久。后者通常布局多变,语法灵活,具有更明显的语言特性,这也导致计算机在解析和应用非关系型表格时面临着极大挑战。非关系型表格理解是自然语言和计算机视觉多模态交叉的重要新兴领域之一。随着近年来深度学习技术的普及应用,非关系型表格在表格识别、语义分析、创新应用几个方向得到了长足发展。该文介绍了非关系型表格的结构特点,阐述了其在研究过程中面临的独特挑战,然后从表格识别、语义分析、创新应用三个研究方向简要介绍了近年来此领域的发展,归纳了相关数据集,最后总结了目前非关系型表格理解领域亟需解决的问题,展望了未来研究方向。 展开更多
关键词 表格智能 深度学习 多模态自然语言处理
下载PDF
基于多传感器信息融合的AGV自主无轨导航技术
9
作者 徐恢川 陈绮璋 +4 位作者 余峰 肖昊远 柯英 程健 吴建军 《湖北理工学院学报》 2024年第3期13-17,共5页
传统的物料搬运AGV机器人不能进行自主规划行走路径,也不能满足智能制造和数字化工厂对AGV进行科学调度、自动避障、安全可靠且不发生阻设的要求。因此,文章基于多模态传感器数据处理、SLAM地图构建等多重信号融合的原理和方法,提出了... 传统的物料搬运AGV机器人不能进行自主规划行走路径,也不能满足智能制造和数字化工厂对AGV进行科学调度、自动避障、安全可靠且不发生阻设的要求。因此,文章基于多模态传感器数据处理、SLAM地图构建等多重信号融合的原理和方法,提出了一种多传感器信息融合的AGV自主无轨导航技术,设计了AGV实物样机,并进行实验验证。结果表明,在无轨复杂场景情况下,AGV机器人的导航定位精度优于1 mm,重复定位精度优于2 mm,满足智能制造和数字化工厂对AGV的自主导航控制要求。 展开更多
关键词 多传感器信息融合 AGV 无轨自主导航 多模态数据处理
下载PDF
A method based on mutual information and gradient information for medical image registration 被引量:3
10
作者 陈晓燕 辜嘉 +2 位作者 李松毅 舒华忠 罗立民 《Journal of Southeast University(English Edition)》 EI CAS 2003年第1期35-39,共5页
Mutual information is widely used in medical image registration, because it does not require preprocessing the image. However, the local maximum problem in the registration is insurmountable. We combine mutual informa... Mutual information is widely used in medical image registration, because it does not require preprocessing the image. However, the local maximum problem in the registration is insurmountable. We combine mutual information and gradient information to solve this problem and apply it to the non-rigid deformation image registration. To improve the accuracy, we provide some implemental issues, for example, the Powell searching algorithm, gray interpolation and consideration of outlier points. The experimental results show the accuracy of the method and the feasibility in non-rigid medical image registration. 展开更多
关键词 medical image registration gradient information mutual information multi-modal images non-rigid deformation
下载PDF
文档智能:数据集、模型和应用 被引量:8
11
作者 崔磊 徐毅恒 +1 位作者 吕腾超 韦福如 《中文信息学报》 CSCD 北大核心 2022年第6期1-19,共19页
文档智能是指通过计算机进行自动阅读、理解以及分析商业文档的过程,是自然语言处理和计算机视觉交叉领域的一个重要研究方向。近年来,深度学习技术的普及极大地推动了文档智能领域的发展,以文档版面分析、文档信息抽取、文档视觉问答... 文档智能是指通过计算机进行自动阅读、理解以及分析商业文档的过程,是自然语言处理和计算机视觉交叉领域的一个重要研究方向。近年来,深度学习技术的普及极大地推动了文档智能领域的发展,以文档版面分析、文档信息抽取、文档视觉问答以及文档图像分类等为代表的文档智能任务均有显著的性能提升。该文对于早期基于启发式规则的文档分析技术、基于统计机器学习的算法以及近年来基于深度学习和预训练的方法进行简要介绍,并展望了文档智能技术的未来发展方向。 展开更多
关键词 文档智能 深度学习 多模态自然语言处理
下载PDF
Test method of laser paint removal based on multi-modal feature fusion
12
作者 HUANG Hai-peng HAO Ben-tian +2 位作者 YE De-jun GAO Hao LI Liang 《Journal of Central South University》 SCIE EI CAS CSCD 2022年第10期3385-3398,共14页
Laser cleaning is a highly nonlinear physical process for solving poor single-modal(e.g., acoustic or vision)detection performance and low inter-information utilization. In this study, a multi-modal feature fusion net... Laser cleaning is a highly nonlinear physical process for solving poor single-modal(e.g., acoustic or vision)detection performance and low inter-information utilization. In this study, a multi-modal feature fusion network model was constructed based on a laser paint removal experiment. The alignment of heterogeneous data under different modals was solved by combining the piecewise aggregate approximation and gramian angular field. Moreover, the attention mechanism was introduced to optimize the dual-path network and dense connection network, enabling the sampling characteristics to be extracted and integrated. Consequently, the multi-modal discriminant detection of laser paint removal was realized. According to the experimental results, the verification accuracy of the constructed model on the experimental dataset was 99.17%, which is 5.77% higher than the optimal single-modal detection results of the laser paint removal. The feature extraction network was optimized by the attention mechanism, and the model accuracy was increased by 3.3%. Results verify the improved classification performance of the constructed multi-modal feature fusion model in detecting laser paint removal, the effective integration of acoustic data and visual image data, and the accurate detection of laser paint removal. 展开更多
关键词 laser cleaning multi-modal fusion image processing deep learning
下载PDF
智慧中台在融媒体一体化制播网中的应用 被引量:1
13
作者 刘涛 《广播电视信息》 2021年第9期24-27,共4页
本文以随州广播电视台传媒中心建设的融媒体一体化制播网为实例,介绍了如何运用智慧中台的能力中台、异构AI多种引擎调度、AI多模态处理等各类AI技术提升生产效率,实现多种AI能力的多级复用,降低重复建设成本,这是该台制播系统由传统制... 本文以随州广播电视台传媒中心建设的融媒体一体化制播网为实例,介绍了如何运用智慧中台的能力中台、异构AI多种引擎调度、AI多模态处理等各类AI技术提升生产效率,实现多种AI能力的多级复用,降低重复建设成本,这是该台制播系统由传统制播向智能化制播发展的一种转变和尝试,能够为地市级电视台和县级融媒体中心在内容生产中应用AI智能技术提供有益经验。 展开更多
关键词 智慧中台 能力中台 异构AI多种引擎调度 AI多模态处理
下载PDF
人工智能在智慧云媒资系统中的应用
14
作者 韩小静 《视界观》 2022年第23期40-42,共3页
采用人工智能、对象存储等先进技术,通过人脸识别、语音识别、OCR 字幕识别、NLP 处理等服务,实现智能编目、智能推荐、互联网访问,可进行版权著录,后期可扩展版权管理和交易等新功能。实现媒体资产从内容汇聚到生产、审核、管理等全流... 采用人工智能、对象存储等先进技术,通过人脸识别、语音识别、OCR 字幕识别、NLP 处理等服务,实现智能编目、智能推荐、互联网访问,可进行版权著录,后期可扩展版权管理和交易等新功能。实现媒体资产从内容汇聚到生产、审核、管理等全流程全环节的智能处理,极大提升内容产生效率和实时度,实现数据自动分类。 展开更多
关键词 智慧媒资 对象存储 人工智能 能力中台 AI多模态处理
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部