期刊文献+
共找到12篇文章
< 1 >
每页显示 20 50 100
面向视觉语言理解与生成的多模态预训练方法 被引量:1
1
作者 刘天义 吴祖煊 +1 位作者 陈静静 姜育刚 《软件学报》 EI CSCD 北大核心 2023年第5期2024-2034,共11页
大多数现有的视觉语言预训练方法侧重于理解任务,并在训练时使用类似于BERT的损失函数(掩码语言建模和图像文本匹配).尽管它们在许多理解类型的下游任务中表现良好,例如视觉问答、图像文本检索和视觉蕴涵,但它们不具备生成信息的能力.... 大多数现有的视觉语言预训练方法侧重于理解任务,并在训练时使用类似于BERT的损失函数(掩码语言建模和图像文本匹配).尽管它们在许多理解类型的下游任务中表现良好,例如视觉问答、图像文本检索和视觉蕴涵,但它们不具备生成信息的能力.为了解决这个问题,提出了视觉语言理解和生成的统一多模态预训练(unified multimodal pre-training for vision-language understanding and generation,UniVL).UniVL能够处理理解任务和生成任务,并扩展了现有的预训练范式,同时使用随机掩码和因果掩码,因果掩码即掩盖未来标记的三角形掩码,这样预训练的模型可以具有自回归生成的能力.将几种视觉语言理解任务规范为文本生成任务,并使用基于模版提示的方法对不同的下游任务进行微调.实验表明,在使用同一个模型时,理解任务和生成任务之间存在权衡,而提升这两个任务的可行方法是使用更多的数据.UniVL框架在理解任务和生成任务方面的性能与最近的视觉语言预训练方法相当.此外,实验还证明了基于模版提示的生成方法更有效,甚至在少数场景中它优于判别方法. 展开更多
关键词 计算机视觉 多模态学习 预训练
下载PDF
数字说话人视频生成综述
2
作者 宋一飞 张炜 +1 位作者 陈智能 姜育刚 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2023年第10期1457-1468,共12页
近年来,基于深度学习的生成技术显著推动了虚拟数字人技术的发展.针对当前虚拟数字人研究中的热点问题——数字说话人视频生成进行综述,其在电影配音、动画制作、虚拟助手等场景中具有重要的应用前景.文中从数据集、关键技术、评估策略... 近年来,基于深度学习的生成技术显著推动了虚拟数字人技术的发展.针对当前虚拟数字人研究中的热点问题——数字说话人视频生成进行综述,其在电影配音、动画制作、虚拟助手等场景中具有重要的应用前景.文中从数据集、关键技术、评估策略3个方面,对数字说话人视频生成技术及研究现状做了较系统的梳理与总结,介绍了其生成过程中涉及的视觉生成、图像识别、语音识别、跨模态分析等多项人工智能的关键技术机器发展演进过程;从数据、模型、评估策略等方面指出该方向需要迫切解决的问题,并通过这些问题展望其未来的发展方向,以期能对该领域的研究者有所帮助和启发,促进该方向的发展. 展开更多
关键词 虚拟数字人 数字说话人 视频生成 多模态融合 深度学习
下载PDF
结合小波变换和RBF神经网络进行光谱自动分类 被引量:1
3
作者 姜育刚 郭平 《计算机科学》 CSCD 北大核心 2004年第B07期54-56,共3页
本文提出了一种基于小波变换和RBF神经网络的天体光谱分类方法。首先利用小波变换除去谱线中的噪声、提取特征谱线;然后使用RBF神经网络分类,RBF网络的输入为提取的特征谱线。实验结果显示该方法具有良好的鲁棒性,算法效率很高,正... 本文提出了一种基于小波变换和RBF神经网络的天体光谱分类方法。首先利用小波变换除去谱线中的噪声、提取特征谱线;然后使用RBF神经网络分类,RBF网络的输入为提取的特征谱线。实验结果显示该方法具有良好的鲁棒性,算法效率很高,正确分类率(CCR)远远高于经常采用的主成分分析特征提取方法,因此特别适合于低信噪比的光谱数据分类。 展开更多
关键词 小波变换 RBF神经网络 光谱数据 主成分分析 PCA
下载PDF
人工智能的安全问题不容忽视 被引量:1
4
作者 姜育刚 《张江科技评论》 2020年第4期35-37,共3页
近几年,人工智能技术在很多领域都取得了初步的成功,无论是图像分类、视频监控领域的目标跟踪,还是自动驾驶、人脸识别、围棋等方面,都取得了非常好的进展。那么,人工智能技术到底安全不安全?事实上,目前的人工智能技术还存在很多问题... 近几年,人工智能技术在很多领域都取得了初步的成功,无论是图像分类、视频监控领域的目标跟踪,还是自动驾驶、人脸识别、围棋等方面,都取得了非常好的进展。那么,人工智能技术到底安全不安全?事实上,目前的人工智能技术还存在很多问题。人工智能并不安全现在有很多技术可以欺骗人工智能,如在图片上加入一些对抗干扰。 展开更多
关键词 人工智能技术 人脸识别 图像分类 视频监控 目标跟踪 自动驾驶 对抗干扰 欺骗
下载PDF
数字媒体理解验证平台与应用示范研究2013年度报告
5
作者 薛向阳 金城 +2 位作者 姜育刚 张巍 张玥杰 《科技资讯》 2016年第8期165-166,共2页
该研究在数字媒体理解算法验证平台、智能视频监控应用示范和网络互动电视搜索应用示范等方面已取得成果,并在相关核心技术领域取得突破。在数字媒体理解算法验证平台方面,该研究采集了超过2 000 h的影视视频数据,主要为影视播出节目内... 该研究在数字媒体理解算法验证平台、智能视频监控应用示范和网络互动电视搜索应用示范等方面已取得成果,并在相关核心技术领域取得突破。在数字媒体理解算法验证平台方面,该研究采集了超过2 000 h的影视视频数据,主要为影视播出节目内容,累计多媒体数据已经超过20TB,为算法验证平台提供了充足的数据支持。该研究的团队还积极参与组织了国际算法评测活动,并发挥了重要作用。在智能视频监控应用示范方面,针对实际应用场景,该研究深入研究了单摄像机条件下车辆的检测与跟踪、多摄像机条件下融合、跨摄像机条件下对齐算法和时空联合特征提取等算法有效地提升了监控系统的性能。在网络互动电视应用示范方面,该研究成果已在东方有线后台试运营,并在与中国电信IPTV进行了视频搜索后台合作研发,预计明年初进入实际部署阶段。 展开更多
关键词 数字媒体理解 算法验证平台 智能视频监控 应用示范 网络互动电视搜索
下载PDF
视频拷贝检测方法综述 被引量:5
6
作者 顾佳伟 赵瑞玮 姜育刚 《计算机研究与发展》 EI CSCD 北大核心 2017年第6期1238-1250,共13页
目前网络上存在着大量的拷贝视频,研究人员长期以来致力于视频拷贝检测技术的研究,特别是近年来随着深度学习方法的引入,又涌现出了一些新颖的检测算法.将对现有代表性的视频拷贝检测方法进行回顾与总结,涵盖视频拷贝检测系统的基本框... 目前网络上存在着大量的拷贝视频,研究人员长期以来致力于视频拷贝检测技术的研究,特别是近年来随着深度学习方法的引入,又涌现出了一些新颖的检测算法.将对现有代表性的视频拷贝检测方法进行回顾与总结,涵盖视频拷贝检测系统的基本框架与各个主要步骤的不同实现方法,包含视频拷贝检测中的特征提取、建立索引、特征匹配与时间对齐等不同模块.总结的关键技术包括了最新的深度学习方法在其中的应用与取得的突破,主要体现在深度卷积神经网络和双胞胎卷积神经网络方法的应用.此外,还将详细介绍目前常用的5个用于视频拷贝检测评测的数据集及通用的评价标准,并讨论分析一些代表性方法的性能表现.最后,对视频拷贝检测技术未来发展趋势进行展望. 展开更多
关键词 视频拷贝检测 特征表示 性能评价 数据集 综述
下载PDF
基于域对抗学习的可泛化虚假人脸检测方法研究 被引量:6
7
作者 翁泽佳 陈静静 姜育刚 《计算机研究与发展》 EI CSCD 北大核心 2021年第7期1476-1489,共14页
随着生成式对抗网络(generative adversarial networks,GAN)的快速发展,虚假人脸生成技术取得了显著进展.为了降低以假乱真的人脸生成技术给社会带来的危害,虚假人脸鉴别成为一个非常重要的课题,吸引了国内外研究者的广泛关注.然而,目... 随着生成式对抗网络(generative adversarial networks,GAN)的快速发展,虚假人脸生成技术取得了显著进展.为了降低以假乱真的人脸生成技术给社会带来的危害,虚假人脸鉴别成为一个非常重要的课题,吸引了国内外研究者的广泛关注.然而,目前虚假人脸鉴别的研究工作相对较少,仍然有许多问题需要被解决.其中如何提升鉴别模型的迁移泛化能力是至关重要的问题,也是虚假人脸检测任务能否实际投入使用的关键所在.如何提升虚假人脸鉴别方法的泛化能力,即做到在没有见过的生成方法产生的数据上仍然准确有效非常重要.对此,提出了基于域对抗学习的可泛化虚假人脸检测模型,通过引入领域对抗分支,弱化特征提取器对于特定生成模型非鲁棒性特征的提取,模型能够抽取鲁棒性更强、泛化能力更高的特征,从而在没有见过的生成方法产生的虚假人脸图片上具有更好的鉴别表现.实验结果表明:所提出的方法能够提升鉴别模型的泛化能力,显著提升虚假人脸鉴别模型在未知生成模型产生的虚假图像上的性能. 展开更多
关键词 虚假人脸检测 域自适应 域对抗学习 鲁棒特征学习 泛化性
下载PDF
多媒体模型对抗攻防综述 被引量:1
8
作者 陈凯 魏志鹏 +1 位作者 陈静静 姜育刚 《计算机科学》 CSCD 北大核心 2021年第3期27-39,共13页
近年来,随着以深度学习为代表的人工智能技术的快速发展和广泛应用,人工智能正深刻地改变着社会生活的各方面。然而,人工智能模型也容易受到来自精心构造的“对抗样本”的攻击。通过在干净的图像或视频样本上添加微小的人类难以察觉的扰... 近年来,随着以深度学习为代表的人工智能技术的快速发展和广泛应用,人工智能正深刻地改变着社会生活的各方面。然而,人工智能模型也容易受到来自精心构造的“对抗样本”的攻击。通过在干净的图像或视频样本上添加微小的人类难以察觉的扰动,就能够生成可以欺骗模型的样本,进而使多媒体模型在推理过程中做出错误决策,为多媒体模型的实际应用部署带来严重的安全威胁。鉴于此,针对多媒体模型的对抗样本生成与防御方法引起了国内外学术界、工业界的广泛关注,并出现了大量的研究成果。文中对多媒体模型对抗攻防领域的进展进行了深入调研,首先介绍了对抗样本生成与防御的基本原理和相关背景知识,然后从图像和视频两个角度回顾了对抗攻防技术在多媒体视觉信息领域的发展历程与最新成果,最后总结了多媒体视觉信息对抗攻防技术目前面临的挑战和有待进一步探索的方向。 展开更多
关键词 对抗攻击 对抗防御 深度学习 图像对抗样本 视频对抗样本
下载PDF
In-memory computing to break the memory wall
9
作者 黄晓合 刘春森 +1 位作者 姜育刚 周鹏 《Chinese Physics B》 SCIE EI CAS CSCD 2020年第7期28-48,共21页
Facing the computing demands of Internet of things(IoT)and artificial intelligence(AI),the cost induced by moving the data between the central processing unit(CPU)and memory is the key problem and a chip featured with... Facing the computing demands of Internet of things(IoT)and artificial intelligence(AI),the cost induced by moving the data between the central processing unit(CPU)and memory is the key problem and a chip featured with flexible structural unit,ultra-low power consumption,and huge parallelism will be needed.In-memory computing,a non-von Neumann architecture fusing memory units and computing units,can eliminate the data transfer time and energy consumption while performing massive parallel computations.Prototype in-memory computing schemes modified from different memory technologies have shown orders of magnitude improvement in computing efficiency,making it be regarded as the ultimate computing paradigm.Here we review the state-of-the-art memory device technologies potential for in-memory computing,summarize their versatile applications in neural network,stochastic generation,and hybrid precision digital computing,with promising solutions for unprecedented computing tasks,and also discuss the challenges of stability and integration for general in-memory computing. 展开更多
关键词 in-memory computing non-volatile memory device technologies crossbar array
下载PDF
多媒体技术研究:2013——面向智能视频监控的视觉感知与处理 被引量:26
10
作者 黄铁军 郑锦 +5 位作者 李波 傅慧源 马华东 薛向阳 姜育刚 于俊清 《中国图象图形学报》 CSCD 北大核心 2014年第11期1539-1562,共24页
目的随着视频监控技术的日益成熟和监控设备的普及,视频监控应用日益广泛,监控视频数据量呈现出爆炸性的增长,已经成为大数据时代的重要数据对象。然而由于视频数据本身的非结构化特性,使得监控视频数据的处理和分析相对困难。面对大量... 目的随着视频监控技术的日益成熟和监控设备的普及,视频监控应用日益广泛,监控视频数据量呈现出爆炸性的增长,已经成为大数据时代的重要数据对象。然而由于视频数据本身的非结构化特性,使得监控视频数据的处理和分析相对困难。面对大量摄像头采集的监控视频大数据,如何有效地按照视频的内容和特性去传输、存储、分析和识别这些数据,已经成为一种迫切的需求。方法本文面向智能视频监控中大规模视觉感知与智能处理问题,围绕监控视频编码、目标检测与跟踪、监控视频增强、视频运动与异常行为识别等4个主要研究方向,系统阐述2013年度的技术发展状况,并对未来的发展趋势进行展望。结果中国最新制定的国家标准AVS2在对监控视频的编码效率上比最新国际标准H.265/HEVC高出一倍,标志着我国的视频编码技术和标准在视频监控领域已经实现跨越;视频运动目标检测跟踪的研究主要集中在有效特征提取和分类器训练等方面,机器学习等方法的引入,使得基于多实例学习、稀疏表示的运动目标检测跟踪成为研究的热点;监控视频质量增强主要包括去雾、去夜色、去雨雪、去模糊和超分辨率增强等多方面的内容,现有的算法均是对某类图像清晰化效果较好,而对其他类则相对较差,普适性不高;现有的智能动作分析与异常行为识别技术虽然得到了不断发展,算法的性能也在不断提高,但是从实用角度,除了简单的特定或可控场景外,还没有太多成熟的应用系统。结论随着大数据时代的到来,智能视频监控的需求将日益迫切,面对众多挑战的同时,该研究领域将迎来前所未有的重大机遇,必将产生越来越多可以实用的研究成果。 展开更多
关键词 视频监控 目标检测 目标跟踪 视频增强 行为识别
原文传递
基于长短时预测一致性的大规模视频语义识别算法
11
作者 王铮 翁泽佳 +2 位作者 王锐 陈静静 姜育刚 《中国科学:信息科学》 CSCD 北大核心 2020年第6期877-891,共15页
片段视频语义识别旨在识别视频中短小片段的语义概念,是视频分析的一项重要任务.由于片段视频的数量巨大且缺乏可参考的网络标签,片段视频的标记十分困难,通常只能对部分片段视频进行标记.如何利用有限的语义标签提高片段视频语义识别... 片段视频语义识别旨在识别视频中短小片段的语义概念,是视频分析的一项重要任务.由于片段视频的数量巨大且缺乏可参考的网络标签,片段视频的标记十分困难,通常只能对部分片段视频进行标记.如何利用有限的语义标签提高片段视频语义识别的准确率是一项关键挑战.因此本文提出了一种基于长短时预测一致性的视频语义识别算法.该算法通过引入完整视频语义与片段视频语义一致性的约束,对片段视频语义识别结果进行筛选,以此提高片段视频语义识别的准确率.本文提出的算法在大规模视频数据集YouTube-8M的片段视频语义识别任务上达到了82.62%的平均均值准确率(mean average precision, MAP)识别精度,在第三届YouTube-8M比赛中排名第二. 展开更多
关键词 大规模视频语义识别 片段视频语义识别 语义一致性 特征聚合 预测可靠性
原文传递
Name-Face Association in Web Videos: A Large-Scale Dataset,Baselines, and Open Issues
12
作者 陈智能 杨宗桦 +2 位作者 张炜 曹娟 姜育刚 《Journal of Computer Science & Technology》 SCIE EI CSCD 2014年第5期785-798,共14页
Associating faces appearing in Web videos with names presented in the surrounding context is an important task in many applications. However, the problem is not well investigated particularly under large-scale realist... Associating faces appearing in Web videos with names presented in the surrounding context is an important task in many applications. However, the problem is not well investigated particularly under large-scale realistic scenario,mainly due to the scarcity of dataset constructed in such circumstance. In this paper, we introduce a Web video dataset of celebrities, named WebV-Cele, for name-face association. The dataset consists of 75 073 Internet videos of over 4 000 hours,covering 2 427 celebrities and 649 001 faces. This is, to our knowledge, the most comprehensive dataset for this problem.We describe the details of dataset construction, discuss several interesting findings by analyzing this dataset like celebrity community discovery, and provide experimental results of name-face association using five existing techniques. We also outline important and challenging research problems that could be investigated in the future. 展开更多
关键词 Web video CELEBRITY name-face association dataset construction community analysis
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部