期刊文献+
共找到25篇文章
< 1 2 >
每页显示 20 50 100
跨模态目标重识别研究综述
1
作者 崔振宇 周嘉欢 彭宇新 《计算机科学》 CSCD 北大核心 2024年第1期13-25,共13页
目标重识别(ReID)技术旨在匹配不同区域摄像头在不同时间拍摄到的同一目标,其核心是通过目标间的细粒度差异实现不同目标的有效区分。因此,目标重识别技术被广泛应用于安防布控、刑侦监控等领域并发挥了重要作用。传统的目标重识别技术... 目标重识别(ReID)技术旨在匹配不同区域摄像头在不同时间拍摄到的同一目标,其核心是通过目标间的细粒度差异实现不同目标的有效区分。因此,目标重识别技术被广泛应用于安防布控、刑侦监控等领域并发挥了重要作用。传统的目标重识别技术通常适用于光照条件良好情况下的可见光模态数据,但在处理黑夜低光照条件下的目标重识别任务时,其性能通常受到严重限制。红外摄像机因其卓越的夜视性能,通常被应用于在低光照条件下采集目标红外图像。因此,跨模态目标重识别技术旨在通过可见光图像匹配红外图像,实现全天候不间断的目标重识别。近年来,跨模态目标重识别技术取得了很大进展,然而,对于现有模型的归纳总结及深入分析仍然欠缺。为此,对跨模态目标重识别领域的相关研究和新颖方法进行了深入调研和总结,讨论了现有方法在实际场景中面临的挑战,并从模型分类和模型评价两个方面对现有方法进行归纳与分析。首先,围绕跨模态目标重识别问题的研究难点,将跨模态目标重识别分为生成式方法和非生成式方法两大类;然后,对当前跨模态重识别领域中广泛使用的评测数据集以及相关评价指标进行了综述与总结;最后,讨论了跨模态重识别领域仍然存在的挑战并对未来发展趋势进行了展望。 展开更多
关键词 计算机视觉 目标重识别 跨模态 细粒度特征 表征学习
下载PDF
文本到视频生成:研究现状、进展和挑战
2
作者 邓梓焌 何相腾 彭宇新 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第5期1632-1644,共13页
文本到视频生成旨在根据用户给定的文本描述生成语义一致、内容真实、时序连贯且符合逻辑的视频。该文首先介绍了文本到视频生成领域的研究现状,详细介绍了3类主流的文本到视频生成方法:基于循环网络与生成对抗网络(GAN)的生成方法,基于... 文本到视频生成旨在根据用户给定的文本描述生成语义一致、内容真实、时序连贯且符合逻辑的视频。该文首先介绍了文本到视频生成领域的研究现状,详细介绍了3类主流的文本到视频生成方法:基于循环网络与生成对抗网络(GAN)的生成方法,基于Transformer的生成方法和基于扩散模型的生成方法。这3类生成方法在视频生成任务上各有优劣:基于循环网络与生成对抗网络的生成方法能生成较高分辨率和时长的视频,但难以生成复杂的开放域视频;基于Transformer的生成方法有能力生成复杂的开放域视频,但受限于Transformer模型单向偏置、累计误差等问题,难以生成高保真视频;扩散模型具有很好的泛化性,但受制于推理速度和高昂的内存消耗,难以生成高清的长视频。然后,该文介绍了文本到视频生成领域的评测基准和指标,并分析比较了现有主流方法的性能。最后,展望了未来可能的研究方向。 展开更多
关键词 文本到视频生成 扩散模型 生成对抗网络
下载PDF
一种通过视频片段进行视频检索的方法 被引量:25
3
作者 彭宇新 Ngo Chong-Wah +2 位作者 董庆杰 郭宗明 肖建国 《软件学报》 EI CSCD 北大核心 2003年第8期1409-1417,共9页
视频片段检索是基于内容的视频检索的主要方式,它需要解决两个问题:(1)从视频库里自动分割出与查询片段相似的多个片段;(2)按照相似度从高到低排列这些相似片段。首次尝试运用图论的匹配理论来解决这两个 问题。针对问题(l),把检索过程... 视频片段检索是基于内容的视频检索的主要方式,它需要解决两个问题:(1)从视频库里自动分割出与查询片段相似的多个片段;(2)按照相似度从高到低排列这些相似片段。首次尝试运用图论的匹配理论来解决这两个 问题。针对问题(l),把检索过程分为两个阶段:镜头检索和片段检索。在镜头检索阶段,利用相机运动信息,一个变化较大的镜头被划分为几个内容一致的子镜头,两个镜头的相似性通过对应子镜头的相似性计算得到;在片段检索阶段,通过考察相似镜头的连续性初步得到一个个相似片段,再运用最大匹配的Hungarian算法来确定真正的相似片段。针对问题(2),考虑了片段相似性判断的视觉、粒度、顺序和干扰因子,提出用最优匹配的Kuhn-Munkres算法和动态规划算法相结合,来解决片段相似度的度量问题。实验对比结果表明,所提出的方法在片段检索中可以取得更高的检索精度和更快的检索速度。 展开更多
关键词 基于内容的视频检索 片段 相似度 最大匹配 最优匹配
下载PDF
基于内容的视频检索关键技术 被引量:9
4
作者 彭宇新 Ngo Chong-Wah +1 位作者 郭宗明 肖建国 《计算机工程》 CAS CSCD 北大核心 2004年第1期14-16,共3页
基于内容的视频检索一直是计算机科学研究的难点问题,该文提出了它的研究问 题、检索策略、检索种类和评价指标,指出了存在的问题及解决的方法。这些策略和方法作 为北大方正媒体资产管理系统的核心功能,运用于电视台大型视频数据库... 基于内容的视频检索一直是计算机科学研究的难点问题,该文提出了它的研究问 题、检索策略、检索种类和评价指标,指出了存在的问题及解决的方法。这些策略和方法作 为北大方正媒体资产管理系统的核心功能,运用于电视台大型视频数据库的检索,取得了比 较好的效果。 展开更多
关键词 基于内容的视频检索 镜头 片段 因子 检索速度
下载PDF
一种基于二分图最优匹配的镜头检索方法 被引量:13
5
作者 彭宇新 Ngo Chong-Wah 肖建国 《电子学报》 EI CAS CSCD 北大核心 2004年第7期1135-1139,共5页
镜头检索是基于内容的视频检索的重要内容 .本文首次尝试将二分图的最优匹配用于镜头检索 .与现有方法相比 ,本文提出的方法强调在一一对应的前提下 ,全面客观地度量两个镜头的相似度 .把两个镜头的相似度度量建模为一个带权的二分图 :... 镜头检索是基于内容的视频检索的重要内容 .本文首次尝试将二分图的最优匹配用于镜头检索 .与现有方法相比 ,本文提出的方法强调在一一对应的前提下 ,全面客观地度量两个镜头的相似度 .把两个镜头的相似度度量建模为一个带权的二分图 :镜头中的每一帧看成二分图的一个结点 ,两个镜头之间任意帧的相似值作为边的权值 .在一一对应的前提下 ,利用最优匹配的Kuhn Munkres算法求出该二分图的最大权 ,以此作为两个镜头的相似度 .考虑到检索速度问题 ,提出了两个改进算法 . 展开更多
关键词 基于内容的镜头检索 二分图的最优匹配 Kuhn-Munkres算法 改进算法
下载PDF
多媒体内容理解的研究现状与展望 被引量:32
6
作者 彭宇新 綦金玮 黄鑫 《计算机研究与发展》 EI CSCD 北大核心 2019年第1期183-208,共26页
随着多媒体和网络技术的迅猛发展,海量的图像、视频、文本、音频等多媒体数据快速涌现.这些不同媒体的数据在形式上多源异构,语义上相互关联.认知科学研究表明,人脑生理组织结构决定了其对外界的感知和认知过程是跨越多种感官信息的融... 随着多媒体和网络技术的迅猛发展,海量的图像、视频、文本、音频等多媒体数据快速涌现.这些不同媒体的数据在形式上多源异构,语义上相互关联.认知科学研究表明,人脑生理组织结构决定了其对外界的感知和认知过程是跨越多种感官信息的融合处理.如何对不同媒体的数据进行语义分析和关联建模以实现多媒体内容理解,成为了一个研究和应用的关键问题,受到了学术界和工业界的广泛关注.选取了多媒体内容理解的5个最新热点研究方向:图像细分类与检索、视频分类与目标检测、跨媒体检索、视觉描述与生成、视觉问答,分别阐述了它们的基本概念、代表性方法、研究现状等,并进一步阐述了多媒体内容理解面临的重要挑战,同时给出未来的发展趋势,旨在帮助读者全面了解多媒体内容理解的研究现状,吸引更多研究人员投身相关研究并为他们提供技术参考,推动该领域的进一步发展. 展开更多
关键词 多媒体内容理解 图像细分类与检索 视频分类与目标检测 跨媒体检索 视觉描述与生成 视觉问答
下载PDF
电视台视频资料库管理的关键技术 被引量:1
7
作者 彭宇新 胡铁军 +1 位作者 郭宗明 肖建国 《计算机工程》 CAS CSCD 北大核心 2003年第11期36-37,168,共3页
提出了电视台视频资料库管理的总体框架,并对其中的两个关键技术:存储架构 和视频检索技术进行了研究,提出了基于SAN的存储架构,并对一个经典的镜头分割算法进 行了改进,以满足实时获取关键帧的需要?
关键词 视频资料库管理 存储区域网络 镜头 关键帧 基于内容的视频检索
下载PDF
基于颜色聚类和多帧融合的视频文字识别方法 被引量:22
8
作者 易剑 彭宇新 肖建国 《软件学报》 EI CSCD 北大核心 2011年第12期2919-2933,共15页
提出一种基于颜色聚类和多帧融合的视频文字识别方法,首先,在视频文字检测模块,综合考虑了文字区域的两个显著特征:一致的颜色和密集的边缘,利用近邻传播聚类算法,根据图像中边缘颜色的复杂程度,自适应地把彩色边缘分解到若干边缘子图中... 提出一种基于颜色聚类和多帧融合的视频文字识别方法,首先,在视频文字检测模块,综合考虑了文字区域的两个显著特征:一致的颜色和密集的边缘,利用近邻传播聚类算法,根据图像中边缘颜色的复杂程度,自适应地把彩色边缘分解到若干边缘子图中去,使得在各个子图中检测文字区域更为准确.其次,在视频文字增强模块,基于文字笔画强度图过滤掉模糊的文字区域,并综合平均融合和最小值融合的优点,对在不同视频帧中检测到的、包含相同内容的文字区域进行融合,能够得到背景更为平滑、笔画更为清晰的文字区域图像.最后,在视频文字提取模块,通过自适应地选取具有较高文字对比度的颜色分量进行二值化,能够取得比现有方法更好的二值化结果;另一方面,基于图像中背景与文字的颜色差异,利用颜色聚类的方法去除噪声,能够有效地提高文字识别率.实验结果表明,该方法能够比现有方法取得更好的文字识别结果. 展开更多
关键词 视频文字识别 基于颜色的聚类 多帧融合 视频检索 噪声去除
下载PDF
基于 C/S 体系结构的贵州电力地理信息系统的开发 被引量:3
9
作者 彭宇新 傅家祥 《贵州工业大学学报(自然科学版)》 CAS 1999年第1期1-4,23,共5页
介绍了基于C/S体系结构的GZPSGIS(贵州电力地理信息系统)的开发环境和开发技术,重点讨论了OLE在GZPSGIS中的应用。
关键词 地理信息系统 GZPSGIS 电力系统 CIS体系结构
下载PDF
一种新的基于模糊聚类的镜头检索方法 被引量:1
10
作者 董庆杰 彭宇新 +1 位作者 郭宗明 肖建国 《计算机工程与应用》 CSCD 北大核心 2004年第1期56-57,102,共3页
镜头检索是基于内容的视频检索的重要内容,而镜头内部内容往往是变化的,这给镜头检索带来了很大的困难。为了描述这种镜头内部的不一致性,这里首次使用模糊聚类的方法,把镜头分为多个等价类,等价类内部内容是一致的,这些等价类客观全面... 镜头检索是基于内容的视频检索的重要内容,而镜头内部内容往往是变化的,这给镜头检索带来了很大的困难。为了描述这种镜头内部的不一致性,这里首次使用模糊聚类的方法,把镜头分为多个等价类,等价类内部内容是一致的,这些等价类客观全面地描述了镜头内部内容的变化。把这些等价类用于镜头检索,获得了良好的检索结果。实验对比结果也证实了该方法的有效性。 展开更多
关键词 基于内容的镜头检索 关键帧提取 模糊聚类 等价类 传递闭包
下载PDF
前言
11
作者 史忠植 张长水 +3 位作者 邓立 陈松灿 张军 彭宇新 《计算机研究与发展》 EI CSCD 北大核心 2014年第9期1889-1890,共2页
深度学习是机器学习研究中的一个新的领域,其核心思想在于模拟人脑的层级抽象结构,通过无监督的方式分析大规模数据,发掘大数据中蕴藏的有价值信息.深度学习应大数据而生,给大数据提供了一个深度思考的大脑.深度学习是一种研究信... 深度学习是机器学习研究中的一个新的领域,其核心思想在于模拟人脑的层级抽象结构,通过无监督的方式分析大规模数据,发掘大数据中蕴藏的有价值信息.深度学习应大数据而生,给大数据提供了一个深度思考的大脑.深度学习是一种研究信息的最佳表示及其获取方法的技术,在神经网络或信念网络的情况下是对基于深层结构或网络表示的输入输出间映射进行机器学习的过程. 展开更多
关键词 机器学习 大规模数据 抽象结构 获取方法 数据提供 输入输出 深层结构 信念网络
下载PDF
贵溪发电厂5号发电机励磁系统仿真及分析
12
作者 彭宇新 付勋 《江西电力》 2007年第1期22-25,共4页
通过对贵溪电厂5号机励磁系统进行频域、时域仿真分析和参数计算,并与现场实测结果进行分析和比对,确立了励磁系统PID各环节的参数,完成厂家提供的励磁系统原始模型向PSASP程序固定模型的转换,为系统稳定计算提供基础数据。
关键词 励磁系统 建模 参数计算 频域 时域 仿真
下载PDF
跨媒体深层细粒度关联学习方法 被引量:12
13
作者 卓昀侃 綦金玮 彭宇新 《软件学报》 EI CSCD 北大核心 2019年第4期884-895,共12页
随着互联网与多媒体技术的迅猛发展,网络数据的呈现形式由单一文本扩展到包含图像、视频、文本、音频和3D模型等多种媒体,使得跨媒体检索成为信息检索的新趋势.然而,"异构鸿沟"问题导致不同媒体的数据表征不一致,难以直接进... 随着互联网与多媒体技术的迅猛发展,网络数据的呈现形式由单一文本扩展到包含图像、视频、文本、音频和3D模型等多种媒体,使得跨媒体检索成为信息检索的新趋势.然而,"异构鸿沟"问题导致不同媒体的数据表征不一致,难以直接进行相似性度量,因此,多种媒体之间的交叉检索面临着巨大挑战.随着深度学习的兴起,利用深度神经网络模型的非线性建模能力有望突破跨媒体信息表示的壁垒,但现有基于深度学习的跨媒体检索方法一般仅考虑图像和文本两种媒体数据之间的成对关联,难以实现更多种媒体的交叉检索.针对上述问题,提出了跨媒体深层细粒度关联学习方法,支持多达5种媒体类型数据(图像、视频、文本、音频和3D模型)的交叉检索.首先,提出了跨媒体循环神经网络,通过联合建模多达5种媒体类型数据的细粒度信息,充分挖掘不同媒体内部的细节信息以及上下文关联.然后,提出了跨媒体联合关联损失函数,通过将分布对齐和语义对齐相结合,更加准确地挖掘媒体内和媒体间的细粒度跨媒体关联,同时利用语义类别信息增强关联学习过程的语义辨识能力,提高跨媒体检索的准确率.在两个包含5种媒体的跨媒体数据集PKU XMedia和PKU XMediaNet上与现有方法进行实验对比,实验结果表明了所提方法的有效性. 展开更多
关键词 跨媒体检索 5种媒体 细粒度信息挖掘 跨媒体循环神经网络 跨媒体联合关联约束
下载PDF
跨域和跨模态适应学习的无监督细粒度视频分类 被引量:3
14
作者 何相腾 彭宇新 《软件学报》 EI CSCD 北大核心 2021年第11期3482-3495,共14页
细粒度视频分类旨在识别粗粒度大类中的细粒度子类,是计算机视觉中一个极具挑战的任务.考虑到视频数据的标注成本巨大,而图像的标注成本相对较小,且细粒度图像分类已经取得了较为显著的进展,一个自然的想法是不用标注,以无监督的方式将... 细粒度视频分类旨在识别粗粒度大类中的细粒度子类,是计算机视觉中一个极具挑战的任务.考虑到视频数据的标注成本巨大,而图像的标注成本相对较小,且细粒度图像分类已经取得了较为显著的进展,一个自然的想法是不用标注,以无监督的方式将细粒度图像分类中学习到的知识自适应地迁移到细粒度视频分类中.然而,来源不同的图像和视频之间存在着域差异和模态差异,这导致细粒度图像分类的模型不能直接应用于细粒度视频分类.为了实现无监督的细粒度视频分类,提出一种无监督辨识适应网络,能够将辨识性定位能力从细粒度图像分类迁移到细粒度视频分类.进一步,提出一种渐进式伪标签策略来迭代地引导无监督辨识适应网络学习目标域视频的数据分布.在CUB-200-2011、Cars-196图像数据集和YouTube Birds、YouTube Cars视频数据集上验证该方法跨域、跨模态的适应能力,实验结果证明了该方法在无监督细粒度视频分类上的优势. 展开更多
关键词 细粒度视频分类 无监督辨识适应网络 域差异 模态差异 域适应
下载PDF
基于知识图谱的人类工效学典型研究热点分析 被引量:1
15
作者 彭宇新 吴群 《人类工效学》 2019年第3期78-86,共9页
人类工效学是一门提高工作和生产效率,保障人的健康、安全和舒适的学科。以人类工效学领域内的受关注程度较高的4种期刊为研究对象,收集各期刊在2010到2017年间发表的3634篇文献为研究数据,利用CiteSpace可视化软件生成科学知识图谱,通... 人类工效学是一门提高工作和生产效率,保障人的健康、安全和舒适的学科。以人类工效学领域内的受关注程度较高的4种期刊为研究对象,收集各期刊在2010到2017年间发表的3634篇文献为研究数据,利用CiteSpace可视化软件生成科学知识图谱,通过国家/地区共现网络、机构共现网络、关键词共现网络和文献共被引分析4个方面,着重讨论了当前人类工效学领域的知识结构、研究热点和研究趋势,为人类工效学及相关领域研究者提供参考。 展开更多
关键词 人类工效学 知识图谱 可视化分析 共被引分析 CITESPACE 文献分析
下载PDF
浅析微机测控装置软件抗干扰的措施 被引量:2
16
作者 彭宇新 顾宇桂 《江西电力》 2004年第4期29-31,共3页
主要论述在单片机系统中应用较为广泛的几种典型软件抗干扰措施,并对目前在现场影响测控系统工作的干扰源、受干扰后的故障现象以及如何在测控装置软件设计中抑制干扰源的技术进行了分析,阐述了软件抗干扰技术在抑制电力系统现地干扰方... 主要论述在单片机系统中应用较为广泛的几种典型软件抗干扰措施,并对目前在现场影响测控系统工作的干扰源、受干扰后的故障现象以及如何在测控装置软件设计中抑制干扰源的技术进行了分析,阐述了软件抗干扰技术在抑制电力系统现地干扰方面的作用。 展开更多
关键词 测控装置 抗干扰 软件 微机 设计
下载PDF
数字鸿沟视角下中国老年人公共终端优化设计研究 被引量:12
17
作者 牛蓉 吴群 彭宇新 《设计》 2020年第13期120-123,共4页
在物联网快速发展,体验经济盛行及人口老龄化的大环境下,从缩小数字鸿沟角度出发;基于用户体验、服务设计及可用性等方面,对中国东、中、西部各地区50岁及以上老人进行调查研究;采用UTAUT模型评估及归纳出在数字鸿沟背景下老年人使用公... 在物联网快速发展,体验经济盛行及人口老龄化的大环境下,从缩小数字鸿沟角度出发;基于用户体验、服务设计及可用性等方面,对中国东、中、西部各地区50岁及以上老人进行调查研究;采用UTAUT模型评估及归纳出在数字鸿沟背景下老年人使用公共终端行为意图的影响因素。总结了缩小数字鸿沟的几个方面,通过优化设计加强老年人在公共终端的话语权,提高使用的支持度,及均衡东中西部各地区的公共终端设施;结合数据分析从用户体验设计的角度探索研究,提出数字鸿沟视角下公共终端优化设计策略;辅助老年用户有效决策,减少额外操作,提升绩效,使重复的人力工作工具化。展望了未来老年群体公共终端优化设计的新方向;帮助老年人更好地融入及体验信息时代的便捷生活,并使得公共终端发挥其最大的效益。 展开更多
关键词 数字鸿沟 UTAUT模型 用户体验 老年人 公共终端 可用性
下载PDF
服务设计视角下技术接受理论研究热点分析 被引量:3
18
作者 宗婕聪 吴群 彭宇新 《设计》 2020年第9期88-91,共4页
挖掘服务设计领域技术接受理论研究热点及前沿趋势。本研究利用了知识图谱工具Cite Space对2009-2018年期间,在Web of Science(SCI-E和SSCI)发表的1506篇文献,进行文献计量分析。经分析,可得出未来服务设计视角下技术接受理论研究趋势... 挖掘服务设计领域技术接受理论研究热点及前沿趋势。本研究利用了知识图谱工具Cite Space对2009-2018年期间,在Web of Science(SCI-E和SSCI)发表的1506篇文献,进行文献计量分析。经分析,可得出未来服务设计视角下技术接受理论研究趋势主要在于移动服务领域,尤其是移动银行及电子商务领域。通过分析,本研究着重讨论了当前该领域的知识结构、研究热点和研究趋势,为服务设计视角下技术接受理论应用及其相关领域之研究提供参考。 展开更多
关键词 服务设计 技术接受理论 知识图谱 可视化分析 共被引分析 CITESPACE
下载PDF
从ChatGPT到多模态大模型:现状与未来 被引量:10
19
作者 李耕 王梓烁 +1 位作者 何相腾 彭宇新 《中国科学基金》 CSCD 北大核心 2023年第5期724-734,共11页
2022年底,OpenAI发布的ChatGPT聊天机器人将人工智能对通用自然语言任务的理解与生成能力提升到新的高度,引发各界广泛关注。当前ChatGPT仅支持文本模态的交互,而真实世界的感知则依赖于图像、文本、视频、音频等多个模态的协同处理。... 2022年底,OpenAI发布的ChatGPT聊天机器人将人工智能对通用自然语言任务的理解与生成能力提升到新的高度,引发各界广泛关注。当前ChatGPT仅支持文本模态的交互,而真实世界的感知则依赖于图像、文本、视频、音频等多个模态的协同处理。如何借鉴人脑的跨模态处理特性,跨越视觉、语言、听觉等不同感官信息实现对真实世界的感知和认知,是提升模型通用感知和交互能力、实现通用人工智能的关键。本文从ChatGPT的核心技术出发,分析ChatGPT在文本单模态限制下所面临的问题,并介绍ChatGPT与多模态分析技术结合的部分代表性工作,最后从多模态预训练、数据—知识双轮驱动等角度对ChatGPT多模态化的未来研究方向进行展望。 展开更多
关键词 ChatGPT 多模态分析 大语言模型 通用人工智能 多模态预训练
原文传递
面向跨媒体检索的层级循环注意力网络模型 被引量:5
20
作者 綦金玮 彭宇新 袁玉鑫 《中国图象图形学报》 CSCD 北大核心 2018年第11期1751-1758,共8页
目的跨媒体检索旨在以任意媒体数据检索其他媒体的相关数据,实现图像、文本等不同媒体的语义互通和交叉检索。然而,"异构鸿沟"导致不同媒体数据的特征表示不一致,难以实现语义关联,使得跨媒体检索面临巨大挑战。而描述同一语... 目的跨媒体检索旨在以任意媒体数据检索其他媒体的相关数据,实现图像、文本等不同媒体的语义互通和交叉检索。然而,"异构鸿沟"导致不同媒体数据的特征表示不一致,难以实现语义关联,使得跨媒体检索面临巨大挑战。而描述同一语义的不同媒体数据存在语义一致性,且数据内部蕴含着丰富的细粒度信息,为跨媒体关联学习提供了重要依据。现有方法仅仅考虑了不同媒体数据之间的成对关联,而忽略了数据内细粒度局部之间的上下文信息,无法充分挖掘跨媒体关联。针对上述问题,提出基于层级循环注意力网络的跨媒体检索方法。方法首先提出媒体内—媒体间两级循环神经网络,其中底层网络分别建模不同媒体内部的细粒度上下文信息,顶层网络通过共享参数的方式挖掘不同媒体之间的上下文关联关系。然后提出基于注意力的跨媒体联合损失函数,通过学习媒体间联合注意力来挖掘更加精确的细粒度跨媒体关联,同时利用语义类别信息增强关联学习过程中的语义辨识能力,从而提升跨媒体检索的准确率。结果在2个广泛使用的跨媒体数据集上,与10种现有方法进行实验对比,并采用平均准确率均值MAP作为评价指标。实验结果表明,本文方法在2个数据集上的MAP分别达到了0. 469和0. 575,超过了所有对比方法。结论本文提出的层级循环注意力网络模型通过挖掘图像和文本的细粒度信息,能够充分学习图像和文本之间精确跨媒体关联关系,有效地提高了跨媒体检索的准确率。 展开更多
关键词 跨媒体检索 注意力机制 循环神经网络 关联学习 语义辨识
原文传递
上一页 1 2 下一页 到第
使用帮助 返回顶部