期刊文献+
共找到20篇文章
< 1 >
每页显示 20 50 100
基于信息融合的数据挖掘与模式分析技术在网络犯罪侦查中的应用
1
作者 赵杰 潘雪增 《警察技术》 2009年第4期43-46,共4页
本文主要介绍了信息融合技术在网络犯罪电子特征信息分析中的具体使用,结合数据挖掘和模式分析技术对具体案例进行分析,对不同模式分析方式进行列举和探讨,并指出目前电子特征分析过程中存在和不足和未来发展的方向。
关键词 信息融合 网络犯罪 电子特征信息 数据挖掘 模式分析
下载PDF
一种基于多级空间视觉词典集体的图像分类方法 被引量:13
2
作者 罗会兰 郭敏杰 孔繁胜 《电子学报》 EI CAS CSCD 北大核心 2015年第4期684-693,共10页
针对单一特征时存在提取的信息量不足,对图像内容描述比较片面,提出将传统的SIFT特征与KDESG特征进行串行融合,生成一个联合向量作为新的特征向量.针对传统的视觉词典构造方法缺乏考虑视觉词汇在空间的分布特点,本文引入图像空间信息,... 针对单一特征时存在提取的信息量不足,对图像内容描述比较片面,提出将传统的SIFT特征与KDESG特征进行串行融合,生成一个联合向量作为新的特征向量.针对传统的视觉词典构造方法缺乏考虑视觉词汇在空间的分布特点,本文引入图像空间信息,提出了一种空间视觉词典的构造方法,先对图像进行空间金字塔划分,再把空间各子区域内的特征分别聚类,构建属于对应子空间区域的空间视觉词典.在图像表示阶段,图像各子区域内的特征基于其对应的空间视觉词典进行LLC稀疏编码,根据各子区域对图像贡献程度的不同,把编码后各子区域的特征向量赋予不同的权重加权处理,再连接形成最终的图像描述.最后,利用线性SVM进行图像分类,实验结果表明了本文方法的有效性和鲁棒性. 展开更多
关键词 图像分类 特征融合 空间视觉词典 LLC编码 加权处理
下载PDF
基于深度学习的视频中人体动作识别进展综述 被引量:63
3
作者 罗会兰 童康 孔繁胜 《电子学报》 EI CAS CSCD 北大核心 2019年第5期1162-1173,共12页
视频中的人体动作识别是计算机视觉领域内一个充满挑战的课题.不论是在视频信息检索、日常生活安全、公共视频监控,还是人机交互、科学认知等领域都有广泛的应用.本文首先简单介绍了动作识别的研究背景、意义及其难点,接着从模型输入信... 视频中的人体动作识别是计算机视觉领域内一个充满挑战的课题.不论是在视频信息检索、日常生活安全、公共视频监控,还是人机交互、科学认知等领域都有广泛的应用.本文首先简单介绍了动作识别的研究背景、意义及其难点,接着从模型输入信号的类型和数量、是否结合了传统特征提取方法、模型预训练三个维度详细综述了基于深度学习的动作识别方法,及比较分析了它们在UCF101和HMDB51这两个数据集上的识别效果.最后分别从视频预处理、视频中人体运动信息表征、模型学习训练这三个角度对未来动作识别可能的发展方向进行了论述. 展开更多
关键词 动作识别 综述 卷积神经网络 深度学习
下载PDF
基于KL散度及多尺度融合的显著性区域检测算法 被引量:16
4
作者 罗会兰 万成涛 孔繁胜 《电子与信息学报》 EI CSCD 北大核心 2016年第7期1594-1601,共8页
基于对超像素颜色概率分布间KL散度的计算,以及对多尺度显著图的融合处理,该文提出一种新的显著性区域检测算法。首先,采用超像素算法多尺度分割图像,在各尺度下用分割产生的超像素为节点,并依据超像素分割数量对各超像素进行适当邻接... 基于对超像素颜色概率分布间KL散度的计算,以及对多尺度显著图的融合处理,该文提出一种新的显著性区域检测算法。首先,采用超像素算法多尺度分割图像,在各尺度下用分割产生的超像素为节点,并依据超像素分割数量对各超像素进行适当邻接连通扩展,构建无向扩展闭环连通图。其次,依据颜色判别力聚类量化各超像素内颜色,统计颜色聚类标签的概率分布,用概率分布间KL散度的调和平均值为扩展闭环连通图的边加权,再依据区域对比度并结合边界连通性,获取各尺度下的显著图。最后,平均融合各尺度下显著图,并进行优化处理,得到最终的显著图。在一些大型参考数据集上进行大量实验表明,所提算法优于当前一些先进算法,具有较高精确度和召回率,并且可以产生平滑显著图。 展开更多
关键词 显著性区域检测 多尺度融合 KL散度 闭环连通图
下载PDF
基于心率的身体控制游戏生理状态模型 被引量:2
5
作者 孙杰 陈岭 +1 位作者 阮升升 陈根才 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2011年第2期295-300,共6页
为了建立身体控制游戏生理状态模型,采集身体控制游戏时玩家生理信号变化并加以分析.通过实验获取了12名健康参测人员(平均年龄:26.6,标准差:1.62)玩身体控制游戏时的心率、心率变异性数据,用单因素方差分析得出不同状态(休息、适度运... 为了建立身体控制游戏生理状态模型,采集身体控制游戏时玩家生理信号变化并加以分析.通过实验获取了12名健康参测人员(平均年龄:26.6,标准差:1.62)玩身体控制游戏时的心率、心率变异性数据,用单因素方差分析得出不同状态(休息、适度运动和疲劳)下心率和一些心率变异性频域指标有显著变化(p<0.05),在此基础上构建基于Fisher线性分类方法的玩家生理状态判别模型,并采用自身验证和交互验证2种验证方法对判别模型进行了评价,2种方法的平均判别正确率均大于75%.实验结果表明,该判别模型能有效判别玩身体控制游戏时玩家的生理状态. 展开更多
关键词 身体控制游戏 心率(HR) 心率变异性(HRV) 疲劳 判别模型
下载PDF
像素点特征加权的尺度自适应跟踪算法 被引量:3
6
作者 罗会兰 杜芳芳 孔繁胜 《通信学报》 EI CSCD 北大核心 2015年第10期200-210,共11页
针对目标运动过程中的姿态变化、旋转、干扰以及缩放等情况,提出了结合像素点特征加权的尺度自适应跟踪算法。首先利用目标区域中每个像素点的颜色特征和位置特征,建立目标模型;其次用目标的平均权值图估算尺度变化系数,以实现目标尺度... 针对目标运动过程中的姿态变化、旋转、干扰以及缩放等情况,提出了结合像素点特征加权的尺度自适应跟踪算法。首先利用目标区域中每个像素点的颜色特征和位置特征,建立目标模型;其次用目标的平均权值图估算尺度变化系数,以实现目标尺度的自适应;最后构建一个更新模型,对跟踪过程中的目标模型和背景模型进行更新。实验表明,提出的算法充分利用目标区域内各像素点间的差异,可以做到快速、有效的跟踪,且具有较强的顽健性。 展开更多
关键词 目标跟踪 尺度自适应 更新模型 像素点特征加权
下载PDF
基于生理信号的观众情感状态识别模型 被引量:1
7
作者 叶晓菡 陈岭 +1 位作者 姜贤塔 陈根才 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2012年第6期995-1003,共9页
为研究电影情节与观众生理信号变化的关系,提出基于生理信号的观众情感状态识别模型,从观众生理信号中提取特征,采用顺序前进法(SFS)进行特征选择,并基于支持向量机(SVM)建立观众情感状态识别模型.实验选择了不同类型的3部影片,共11名... 为研究电影情节与观众生理信号变化的关系,提出基于生理信号的观众情感状态识别模型,从观众生理信号中提取特征,采用顺序前进法(SFS)进行特征选择,并基于支持向量机(SVM)建立观众情感状态识别模型.实验选择了不同类型的3部影片,共11名人员参加,在电影播放时拍摄观众表情并记录其生理信号,基于表情人工标注其情感状态.实验结果表明:该模型对各情感状态的区分较理想,平均识别率在90%以上. 展开更多
关键词 生理信号 电影 情感状态 观众 识别模型
下载PDF
带权分块压缩感知的预测目标跟踪算法 被引量:2
8
作者 罗会兰 钟宝康 孔繁胜 《电子与信息学报》 EI CSCD 北大核心 2015年第5期1160-1166,共7页
针对矩形跟踪框在边缘处包含较多背景信息的问题,该文提出一种基于规范化梯度特征的带权分块压缩感知的目标特征提取方法。该方法将压缩感知测量矩阵转化为分块对角矩阵,且根据块的重要程度分配适当的权重,缩小测量矩阵规模,简化特征提... 针对矩形跟踪框在边缘处包含较多背景信息的问题,该文提出一种基于规范化梯度特征的带权分块压缩感知的目标特征提取方法。该方法将压缩感知测量矩阵转化为分块对角矩阵,且根据块的重要程度分配适当的权重,缩小测量矩阵规模,简化特征提取运算,弱化背景干扰。然后将提取的特征输入变先验概率的贝叶斯分类器,变先验概率的分类器充分利用已有的跟踪结果,从一定程度预测了目标的运动方向,减小候选目标的分类歧义性,使得每一帧的分类函数根据以往跟踪结果进行变化,提高了分类的准确度。实验在8个具有常见跟踪难度的序列中测试,并与目前较流行的4种目标跟踪算法在跟踪效果、成功率等方面进行比较,结果从多个角度表明,该文提出的目标跟踪算法具有较高的准确度和稳定性。 展开更多
关键词 目标跟踪 分块压缩感知 贝叶斯分类器 变先验概率
下载PDF
结合运动矢量的分权快速压缩跟踪算法 被引量:1
9
作者 罗会兰 张文赛 +1 位作者 钟睿 孔繁胜 《中南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2017年第2期395-403,共9页
针对跟踪过程中目标移动过快产生跟踪漂移问题,提出一种结合超像素运动矢量的候选目标位置搜寻策略;在跟踪框架内分块提取特征并根据区域分配置信权值,弱化跟踪框架内边缘背景对分类结果的干扰,提高分类器分类鲁棒性;针对当目标出现严... 针对跟踪过程中目标移动过快产生跟踪漂移问题,提出一种结合超像素运动矢量的候选目标位置搜寻策略;在跟踪框架内分块提取特征并根据区域分配置信权值,弱化跟踪框架内边缘背景对分类结果的干扰,提高分类器分类鲁棒性;针对当目标出现严重遮挡时,分类器仍对正负样本特征进行学习而导致的学习不准确问题,提出增加目标遮挡检测机制,避免错误分类,有效解决目标遮挡问题。实验结果表明:提出的算法与当前先进目标跟踪算法相比,效果较好,克服目标快速移动、目标形变、复杂背景干扰、目标遮挡、光线变化等一系列挑战性的跟踪难点,实现目标长时间有效跟踪的同时,跟踪效率满足实时性的要求。 展开更多
关键词 目标跟踪 运动矢量 置信值 遮挡检测
下载PDF
试论协同理论在教学中的运用 被引量:8
10
作者 吴育锋 《中国成人教育》 北大核心 2005年第5期75-76,共2页
在对协同理论进行论述的基础上,阐述了协同理论对于教学的意义,提出了协同理论在教学中的实施办法。
关键词 协同理论 教学 运用 实施办法
下载PDF
一种面向部分可重构结构的配置空间搜索方法
11
作者 孙康 潘雪增 +2 位作者 陆魁军 楼学庆 平玲娣 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2008年第12期2062-2067,2079,共7页
研究了配置序列对部分可重构系统性能的影响,提出了在部分可重构系统配置空间中搜索最优配置序列的算法.在应用算法分割成多个任务的前提下,通过建立部分可重构系统任务执行模型,给出了任务在系统上执行代价的目标函数.根据部分可重构... 研究了配置序列对部分可重构系统性能的影响,提出了在部分可重构系统配置空间中搜索最优配置序列的算法.在应用算法分割成多个任务的前提下,通过建立部分可重构系统任务执行模型,给出了任务在系统上执行代价的目标函数.根据部分可重构系统中,任务执行和配置可重叠的特性,给出了配置切换代价计算方法.在此基础上,设计了基于动态规划的配置空间搜索算法,算法可在O(nm2)(n为任务数,m为每个任务最大可选配置数)时间内搜索出执行代价最小的配置序列.结果表明,合理选择配置序列可有效提高算法在部分可重构系统上执行的效率. 展开更多
关键词 动态重构 部分可重构系统 配置空间搜索 动态规划 配置序列
下载PDF
基于特征和弹性网格模型的快速人脸建模
12
作者 董卫军 孙凌云 +1 位作者 蔡润 欧庐江 《计算机辅助工程》 2005年第1期12-16,共5页
为解决特定人脸的建模问题提供了一个简单而行之有效的方法。给定特定人脸的正面侧面照片,以及内嵌具有人脸特征信息的弹性人脸网格模型,采用基于小波分析的方法进行人脸特征识别,基于特定人脸的特征线相对于一般人脸模型上的特征线的位... 为解决特定人脸的建模问题提供了一个简单而行之有效的方法。给定特定人脸的正面侧面照片,以及内嵌具有人脸特征信息的弹性人脸网格模型,采用基于小波分析的方法进行人脸特征识别,基于特定人脸的特征线相对于一般人脸模型上的特征线的位移,根据弹性系数求解所有点的位移变化,适配特定人脸几何。纹理映射之后生成能以任意视线方向观察的高度真实感特定人脸。该方法能在廉价的PC平台上快速而方便地得到实现。 展开更多
关键词 网格模型 人脸建模 特征和 特征信息 特征识别 小波分析 人脸模型 位移变化 弹性系数 视线方向 纹理映射 PC平台 特征线 真实感 侧面
下载PDF
在线生物文献MRI图像识别系统的设计与实现
13
作者 唐凤仙 钱沄涛 《计算机工程与设计》 CSCD 北大核心 2012年第5期1886-1889,共4页
为构建在线生物文献核磁共振图像库,通过分析在线医学文献图像的特点,用塔式梯度方向直方图进行图像特征提取,结合图像对应的文本标注,采用基于高斯过程的分类方法设计实现了一个在线生物文献MRI图像识别系统。实验结果表明,该系统比基... 为构建在线生物文献核磁共振图像库,通过分析在线医学文献图像的特点,用塔式梯度方向直方图进行图像特征提取,结合图像对应的文本标注,采用基于高斯过程的分类方法设计实现了一个在线生物文献MRI图像识别系统。实验结果表明,该系统比基于单一特征的系统识别率更高,同时比基于标准的SVM和KNN的识别方法性能更好。表明该系统的设计是可行、可靠和有效的。 展开更多
关键词 核磁共振 塔式梯度方向直方图 高斯过程 图像识别
下载PDF
基于电信储值支付平台的虚拟银行的开发 被引量:2
14
作者 王竹萍 庄越挺 黄练纲 《计算机工程》 EI CAS CSCD 北大核心 2005年第24期214-216,共3页
研究了基于电信储值支付平台的虚拟银行的关键技术,实现真正意义上的电信一卡通。以湖州市电信虚拟银行管理系统的设计与实现为基础,首先提出了系统的总体设计结构,然后围绕系统的安全详细探讨了数据安全、交易安全等关键技术,最后对系... 研究了基于电信储值支付平台的虚拟银行的关键技术,实现真正意义上的电信一卡通。以湖州市电信虚拟银行管理系统的设计与实现为基础,首先提出了系统的总体设计结构,然后围绕系统的安全详细探讨了数据安全、交易安全等关键技术,最后对系统的实现及效果进行了总结。 展开更多
关键词 电信储值支付平台 虚拟银行 数据安全 交易安全
下载PDF
基于超像素的点追踪方法 被引量:5
15
作者 罗会兰 钟睿 孔繁胜 《中国图象图形学报》 CSCD 北大核心 2014年第3期428-438,共11页
目的由于当前大多数的追踪算法都是使用目标外观模型和特征进行目标的匹配,在长时间的目标追踪过程中,目标的尺度和形状均会发生变化,再加上计算机视觉误差,都会导致追踪的失误。提出一种高效的目标模型用于提高追踪的效率和成功率。方... 目的由于当前大多数的追踪算法都是使用目标外观模型和特征进行目标的匹配,在长时间的目标追踪过程中,目标的尺度和形状均会发生变化,再加上计算机视觉误差,都会导致追踪的失误。提出一种高效的目标模型用于提高追踪的效率和成功率。方法采用分割后提取的目标特征来进行建模表示外观结构,利用图像分割的方法,将被追踪的目标区域分割成多个超像素块,结合SIFT特征,形成词汇本,并计算每个词在词汇本中的权值,作为目标的外观模型。利用外观模型确定目标对象的关键点位置后,通过使用金字塔Lucas-Kanade追踪器预测关键点在下一帧图像中的位置,并移动追踪窗口位置。结果结合点位移的加权计算有效地克服目标尺度和形状变化产生的问题。结论实验结果表明在目标发生形变或光照变化的情况下,算法也能准确地、实时地追踪到目标。 展开更多
关键词 超像素 目标定位 点追踪 金字塔Lucas-Kanade
原文传递
融合多姿势估计特征的动作识别 被引量:5
16
作者 罗会兰 冯宇杰 孔繁胜 《中国图象图形学报》 CSCD 北大核心 2015年第11期1462-1472,共11页
目的为了提高静态图像在遮挡等复杂情况下的动作识别效果和鲁棒性,提出融合多种姿势估计得到的特征信息进行动作识别的方法。方法利用已得到的多个动作模型对任意一幅图像进行姿势估计,得到图像的多组姿势特征信息,每组特征信息包括关... 目的为了提高静态图像在遮挡等复杂情况下的动作识别效果和鲁棒性,提出融合多种姿势估计得到的特征信息进行动作识别的方法。方法利用已得到的多个动作模型对任意一幅图像进行姿势估计,得到图像的多组姿势特征信息,每组特征信息包括关键点信息和姿势评分。将训练集中各个动作下所有图像的区分性关键点提取出来,并计算每一幅图像中区分性关键点之间的相对距离,一个动作所有图像的特征信息共同构成该动作的模板信息。测试图像在多个动作模型下进行姿势估计,得到多组姿势特征,从每组姿势特征中提取与对应模板一致的特征信息,将提取的多组姿势特征信息分别与对应的模板进行匹配,并通过姿势评分对匹配值优化,根据最终匹配值进行动作分类。结果在两个数据集上,本文方法与5种比较流行的动作识别方法进行比较,获得了较好的平均准确率,在数据集PASCAL VOC 2011-val上较其他一些最新的经典方法平均准确率至少提高近2%。在数据集Stanford 40 actions上,较其他一些最新的经典方法平均准确率至少提高近6%。结论本文方法融合了多个姿势特征,并且能够获取关键部位的遮挡信息,所以能较好应对遮挡等复杂环境情况,具有较高的平均识别准确率。 展开更多
关键词 动作识别 多姿势估计 模板匹配 遮挡
原文传递
结合目标预测位置的压缩跟踪 被引量:7
17
作者 罗会兰 钟宝康 孔繁胜 《中国图象图形学报》 CSCD 北大核心 2014年第6期875-885,共11页
目的提出结合目标预测位置的压缩跟踪算法用于提高目标跟踪的准确度。方法选择随机间距稀疏Toeplitz矩阵作为投影矩阵,对原始多尺度Haar-like特征进行压缩;然后,将样本与Mean Shift算法框架下的预测位置的距离权重输入Bayes分类器,形成... 目的提出结合目标预测位置的压缩跟踪算法用于提高目标跟踪的准确度。方法选择随机间距稀疏Toeplitz矩阵作为投影矩阵,对原始多尺度Haar-like特征进行压缩;然后,将样本与Mean Shift算法框架下的预测位置的距离权重输入Bayes分类器,形成分类背景与目标的判别函数;最后对参数的更新方式进行优化,提出了参数自适应的学习模式。结果与目前较流行的6种目标跟踪算法在20个具有挑战性的序列中进行比较,实验结果表明本文提出的算法平均跟踪成功率比压缩跟踪算法将近高27%,平均运行时间为0.15 s/帧。结论本文采用结合预测位置的压缩跟踪算法,在参数更新阶段采用了非线性参数学习模式,实验结果表明结合目标预测位置的跟踪算法比一般的跟踪算法更具有鲁棒性,更能适应遮挡等情况,跟踪的效果也更加平滑。 展开更多
关键词 目标跟踪 投影矩阵 压缩跟踪 参数自适应
原文传递
动作切分和流形度量学习的视频动作识别 被引量:4
18
作者 罗会兰 赖泽云 孔繁胜 《中国图象图形学报》 CSCD 北大核心 2017年第8期1106-1119,共14页
目的为了提高视频中动作识别的准确度,提出基于动作切分和流形度量学习的视频动作识别算法。方法首先利用基于人物肢体伸展程度分析的动作切分方法对视频中的动作进行切分,将动作识别的对象具体化;然后从动作片段中提取归一化之后的全... 目的为了提高视频中动作识别的准确度,提出基于动作切分和流形度量学习的视频动作识别算法。方法首先利用基于人物肢体伸展程度分析的动作切分方法对视频中的动作进行切分,将动作识别的对象具体化;然后从动作片段中提取归一化之后的全局时域特征和空域特征、光流特征、帧内的局部旋度特征和散度特征,构造一种7×7的协方差矩阵描述子对提取出的多种特征进行融合;最后结合流形度量学习方法有监督式地寻找更优的距离度量算法提高动作的识别分类效果。结果对Weizmann公共视频集的切分实验统计结果表明本文提出的视频切分方法具有很好的切分能力,能够作好动作识别前的预处理;在Weizmann公共视频数据集上进行了流形度量学习前后的识别效果对比,结果表明利用流形度量学习方法对动作识别效果提升2.8%;在Weizmann和KTH两个公共视频数据集上的平均识别率分别为95.6%和92.3%,与现有方法的比较表明,本文提出的动作识别方法有更好的识别效果。结论多次实验结果表明本文算法在预处理过程中动作切分效果理想,描述动作所构造协方差矩阵对动作的表达有良好的多特征融合能力,而且光流信息和旋度、散度信息的加入使得人体各部位的运动方向信息具有了更多细节的描述,有效提高了协方差矩阵的描述能力,结合流形度量学习方法对动作识别的准确性有明显提高。 展开更多
关键词 动作识别 动作切分 流形学习 度量学习 特征协方差 视频分析
原文传递
密集特征加权跟踪算法
19
作者 罗会兰 梅晶 孔繁胜 《中国图象图形学报》 CSCD 北大核心 2015年第5期664-677,共14页
目的当前大多数基于Mean-shift的跟踪算法都忽视了目标中密集的特征信息,本文有效利用密集特征信息,来提高跟踪的准确性。方法在目标模型中,常存在一些颜色特征相对聚集,形成一定大小的特征密集区,这些区域的面积或大或小,对人眼视觉跟... 目的当前大多数基于Mean-shift的跟踪算法都忽视了目标中密集的特征信息,本文有效利用密集特征信息,来提高跟踪的准确性。方法在目标模型中,常存在一些颜色特征相对聚集,形成一定大小的特征密集区,这些区域的面积或大或小,对人眼视觉跟踪异常重要。这些区域形成的空间结构信息,可以被利用到目标跟踪。提出一种高效的目标模型,通过计算密集特征区域面积,以及密集区质心到目标中心的距离,构建加权系数,通过该系数,来增加目标中分布相对集中的特征的权值,同时削弱离散特征的权值。同时使用零阶矩和目标模型与候选模型之间的相似度系数,估算目标的面积;再使用预测目标面积补偿法,对目标中因使用背景加权法而权重被削弱的特征区域,进行面积补偿;最后使用估算的目标区域面积以及二阶中心距,估算目标尺度和方向的改变。在跟踪过程中,背景如发生较大变化,则对目标模型进行更新。结果本文算法具有很好的尺度适应性,跟踪平均准确率在94.6%以上,得到较当前一些先进方法更好的准确度和效率。结论提出的算法能增加目标模型中不同特征权值间的差异,使得构建的目标模型具有较强区分目标和背景的能力,提高了定位目标的准确性;面积补偿法解决了目标因特征权重被削弱,而导致估算的目标面积小于实际面积的问题。 展开更多
关键词 目标跟踪 尺度自适应 密集特征加权 MEAN-SHIFT
原文传递
视觉语言多模态预训练综述 被引量:6
20
作者 张浩宇 王天保 +3 位作者 李孟择 赵洲 浦世亮 吴飞 《中国图象图形学报》 CSCD 北大核心 2022年第9期2652-2682,共31页
在多模态机器学习领域,为特定任务而制作的人工标注数据昂贵,且不同任务难以进行迁移,从而需要大量重新训练,导致训练多个任务时效率低下、资源浪费。预训练模型通过以自监督为代表的方式进行大规模数据训练,对数据集中不同模态的信息... 在多模态机器学习领域,为特定任务而制作的人工标注数据昂贵,且不同任务难以进行迁移,从而需要大量重新训练,导致训练多个任务时效率低下、资源浪费。预训练模型通过以自监督为代表的方式进行大规模数据训练,对数据集中不同模态的信息进行提取和融合,以学习其中蕴涵的通用知识表征,从而服务于广泛的相关下游视觉语言多模态任务,这一方法逐渐成为人工智能各领域的主流方法。依靠互联网所获取的大规模图文对与视频数据,以及以自监督学习为代表的预训练方法的进步,视觉语言多模态预训练模型在很大程度上打破了不同视觉语言任务之间的壁垒,提升了多个任务训练的效率并促进了具体任务的性能表现。本文总结视觉语言多模态预训练领域的进展,首先对常见的预训练数据集和预训练方法进行汇总,然后对目前最新方法以及经典方法进行系统概述,按输入来源分为图像—文本预训练模型和视频—文本多模态模型两大类,阐述了各方法之间的共性和差异,并将各模型在具体下游任务上的实验情况进行汇总。最后,总结了视觉语言预训练面临的挑战和未来发展趋势。 展开更多
关键词 多模态机器学习 视觉语言多模态 预训练 自监督学习 图像文本预训练 视频文本预训练
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部