期刊文献+
共找到9篇文章
< 1 >
每页显示 20 50 100
利用深度神经网络的无监督视频表示 被引量:2
1
作者 吴心筱 伍堃 《北京交通大学学报》 CAS CSCD 北大核心 2017年第6期8-12,共5页
在计算机视觉领域中,大多数的视频表示方法都是有监督的,需要大量带有标签的训练视频集,但标注大量视频数据会花费极大的人力和物力.为了解决这个问题,提出了一种基于深度神经网络的无监督视频表示方法.该方法利用改进的稠密轨迹(iDT)... 在计算机视觉领域中,大多数的视频表示方法都是有监督的,需要大量带有标签的训练视频集,但标注大量视频数据会花费极大的人力和物力.为了解决这个问题,提出了一种基于深度神经网络的无监督视频表示方法.该方法利用改进的稠密轨迹(iDT)算法提取的视频块交替地训练深度卷积神经网络和特征聚类,得到可提取视频特征的深度卷积神经网络模型;通过视频的中层语义特征,实现了无监督视频表示.该模型在HMDB 51行为识别数据库和CCV事件检测数据库上分别进行了动作识别和事件检测的实验,获得了62.6%的识别率和43.6%的检测率,证明了本文方法的有效性. 展开更多
关键词 无监督学习 卷积神经网络 视频表示
下载PDF
基于非参数信念传播的可行C-空间关节人手跟踪方法 被引量:13
2
作者 刘棠丽 吴心筱 +1 位作者 梁玮 贾云得 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2008年第4期476-481,共6页
采用三维人手图模型描述了人手结构、运动学、动力学及自遮挡特性,将人手高维(27维)跟踪问题转为并行跟踪16个6维变量的问题,降低了计算复杂度.在非参数信念传播过程中嵌入连续自适应均值漂移方法得到可行C-空间,在该空间中传递消息以... 采用三维人手图模型描述了人手结构、运动学、动力学及自遮挡特性,将人手高维(27维)跟踪问题转为并行跟踪16个6维变量的问题,降低了计算复杂度.在非参数信念传播过程中嵌入连续自适应均值漂移方法得到可行C-空间,在该空间中传递消息以提高跟踪效率.实验结果表明,该方法在人手发生自遮挡的情况下,能快速、鲁棒地跟踪关节人手. 展开更多
关键词 关节人手跟踪 图模型 非参数信念传播
下载PDF
从正面车辆图像中识别车型的中层特征表示方法
3
作者 董震 裴明涛 +1 位作者 吴心筱 贾云得 《北京理工大学学报》 EI CAS CSCD 北大核心 2015年第5期528-532,共5页
为有效识别正面车辆图像中的车辆类型,提出了一种车辆中层特征表示方法.该方法以SIFT特征为底层特征,建立两类中层特征:结构特征分布和表观特征分布.结构特征分布是对SIFT特征在图像中位置信息的统计,描述车辆不同部分之间的相对位置关... 为有效识别正面车辆图像中的车辆类型,提出了一种车辆中层特征表示方法.该方法以SIFT特征为底层特征,建立两类中层特征:结构特征分布和表观特征分布.结构特征分布是对SIFT特征在图像中位置信息的统计,描述车辆不同部分之间的相对位置关系,在不同类车辆之间以及车辆与背景之间具有较强的判别力;表观特征分布是对SIFT特征本身的统计,描述车辆的局部表观信息,对光照变化和背景干扰十分鲁棒.利用多核学习方法融合两类中层特征,进而识别车辆类型.实验结果表明,该方法在光照变化和有背景干扰等复杂情况下表现出良好的车型识别性能. 展开更多
关键词 车型识别 结构特征分布 表观特征分布 多核学习
下载PDF
使用异构互联网图像组的视频标注 被引量:7
4
作者 王晗 吴心筱 贾云得 《计算机学报》 EI CSCD 北大核心 2013年第10期2062-2069,共8页
标注用户视频中的事件是一项极具挑战性的工作.目前的研究主要关注如何从大量的已标注视频中获取视频相关概念,并用来标注未知的用户视频.现实场景下的视频具有复杂性和多样性的特点,建模需要收集大量已标注的视频训练样本,这个过程非... 标注用户视频中的事件是一项极具挑战性的工作.目前的研究主要关注如何从大量的已标注视频中获取视频相关概念,并用来标注未知的用户视频.现实场景下的视频具有复杂性和多样性的特点,建模需要收集大量已标注的视频训练样本,这个过程非常费时费力.为了缓解这一问题,作者利用大量互联网图像来建立模型,这些图像数据涵盖了各种环境下的各种事件.然而,从互联网上得到的知识变化多样且有噪声,如果不加选择而盲目进行知识迁移,反而会影响视频标注的效果.因此,作者提出了一种联合组权重学习框架来权衡互联网上不同但相关的图像组,并用这些知识建立视频标注模型.在该框架下,作者采用联合优化的方法来获得不同图像组的权重,每一个权重值表示了相应的图像组在知识迁移中所起的作用.为了解决视频与图像特征的异构问题,作者建立了一个共同特征子空间来连接视频和图像这两个特征空间.两个视频数据库上的实验结果表明了文中方法的有效性. 展开更多
关键词 知识迁移 视频标注 互联网图像搜索引擎 共同特征子空间
下载PDF
跨语言知识蒸馏的视频中文字幕生成 被引量:3
5
作者 侯静怡 齐雅昀 +1 位作者 吴心筱 贾云得 《计算机学报》 EI CAS CSCD 北大核心 2021年第9期1907-1921,共15页
视频字幕生成(video captioning)在视频推荐、辅助视觉、人机交互等领域具有广泛的应用前景.目前已有大量的视频英文字幕生成方法和数据,通过机器翻译视频英文字幕可以实现视频中文字幕的生成.然而,中西方文化差异和机器翻译算法性能都... 视频字幕生成(video captioning)在视频推荐、辅助视觉、人机交互等领域具有广泛的应用前景.目前已有大量的视频英文字幕生成方法和数据,通过机器翻译视频英文字幕可以实现视频中文字幕的生成.然而,中西方文化差异和机器翻译算法性能都会影响中文字幕生成的质量.为此,本文提出了一种跨语言知识蒸馏的视频中文字幕生成方法.该方法不仅可以根据视频内容直接生成中文语句,还充分利用了易于获取的视频英文字幕作为特权信息(privileged information)指导视频中文字幕的生成.由于同一视频的英文字幕与中文字幕之间存在语义关联关系,本文方法从中学习到与视频内容相关的跨语言知识,并利用知识蒸馏将英文字幕包含的高层语义信息融入中文字幕生成.同时,通过端到端的训练方式确保模型训练目标与视频中文字幕生成任务目标的一致性,有效提升中文字幕生成性能.此外,本文还对视频英文字幕数据集MSVD扩展,给出了中英文视频字幕数据集MSVD-CN. 展开更多
关键词 中文字幕生成 视频理解 知识蒸馏 视频中英字幕数据集 特权信息
下载PDF
基于隐任务学习的动作识别方法 被引量:1
6
作者 侯静怡 刘翠微 吴心筱 《北京理工大学学报》 EI CAS CSCD 北大核心 2017年第7期733-737,共5页
提出一种基于多分类隐任务学习的动作识别方法.将多个动作共享的一组子动作作为隐任务,通过对隐任务的联合学习来建模动作之间的关联,从而训练动作分类器并对视频中人的动作进行识别.利用基于softmax的多分类模型学习多个动作之间的隐任... 提出一种基于多分类隐任务学习的动作识别方法.将多个动作共享的一组子动作作为隐任务,通过对隐任务的联合学习来建模动作之间的关联,从而训练动作分类器并对视频中人的动作进行识别.利用基于softmax的多分类模型学习多个动作之间的隐任务,能够有效防止动作识别过程中的二义性,同时计算简单,节省了模型训练时间.在UCF sports和Olympic sports数据集上的实验结果表明,本文提出的多分类隐任务学习方法在迭代一次的时间上从130s缩短至0.5s,并且能更有效地识别视频中的动作. 展开更多
关键词 动作识别 softmax分类器 多分类 隐任务学习
下载PDF
融合语义信息的视频摘要生成 被引量:2
7
作者 滑蕊 吴心筱 赵文天 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2021年第3期650-657,共8页
任务旨在通过生成简短的视频片段来表示原视频的主要内容,针对现有方法缺乏对语义信息探索的问题,提出了一种融合语义信息的视频摘要生成模型,学习视频特征使其包含丰富的语义信息,进而同时生成描述原始视频内容的视频摘要和文本摘要。... 任务旨在通过生成简短的视频片段来表示原视频的主要内容,针对现有方法缺乏对语义信息探索的问题,提出了一种融合语义信息的视频摘要生成模型,学习视频特征使其包含丰富的语义信息,进而同时生成描述原始视频内容的视频摘要和文本摘要。该模型分为3个模块:帧级分数加权模块、视觉-语义嵌入模块、视频文本描述生成模块。帧级分数加权模块结合卷积网络与全连接层以获取帧级重要性分数;视觉-语义嵌入模块将视觉特征与文本特征映射到同一空间,以使2种特征相互靠近;视频文本描述生成模块最小化视频摘要的生成描述与文本标注真值之间的距离,以生成带有语义信息的视频摘要。测试时,在获取视频摘要的同时,该模型获得简短的文本摘要作为副产品,可以帮助人们更直观地理解视频内容。在SumMe和TVSum数据集上的实验表明:该模型通过融合语义信息,比现有先进方法取得了更好的性能,在这2个数据集上F-score指标分别提高了0.5%和1.6%。 展开更多
关键词 视频摘要 视觉-语义嵌入空间 视频文本描述 视频关键帧 长短期记忆(LSTM)模型
下载PDF
时序传递和上下文抑制的图像到视频物体检测 被引量:1
8
作者 闻子涵 陈谨 吴心筱 《中国科技论文》 CAS 北大核心 2022年第11期1188-1193,1200,共7页
为解决图像到视频跨域物体检测任务中存在的视频运动模糊、目标遮挡姿态变化及图像与视频帧域偏移的问题,提出了一个新颖的图像到视频跨域物体检测框架。首先采用循环一致性对抗生成网络,将源域图像映射到目标视频域,生成与视频帧类似... 为解决图像到视频跨域物体检测任务中存在的视频运动模糊、目标遮挡姿态变化及图像与视频帧域偏移的问题,提出了一个新颖的图像到视频跨域物体检测框架。首先采用循环一致性对抗生成网络,将源域图像映射到目标视频域,生成与视频帧类似的图像(即伪视频帧),用于训练物体检测器。为进一步提升检测器的鲁棒性,提出时序传递模块,将检测结果传递到相邻视频帧以减少假阴性检测。同时设计上下文抑制模块,降低低置信度类别的分数,从而减少假阳性检测。在Youtube-Objects数据集上的实验结果验证了所提方法的有效性。 展开更多
关键词 深度学习 视频物体检测 域适应 时序上下文约束
下载PDF
Hand Motion Tracking Using Simulated Annealing Method in a Discrete Space
9
作者 梁玮 贾云得 +2 位作者 刘棠丽 韩磊 吴心筱 《Journal of Beijing Institute of Technology》 EI CAS 2007年第1期61-66,共6页
Hand tracking is a challenging problem due to the complexity of searching in a 20 + degrees of freedom (DOF) space for an optimal estimation of hand configuration. The feasible hand configurations are represented a... Hand tracking is a challenging problem due to the complexity of searching in a 20 + degrees of freedom (DOF) space for an optimal estimation of hand configuration. The feasible hand configurations are represented as a discrete space, which avoids learning to find parameters as general configuration space representations do. Then, an extended simulated annealing method with particle filtering to search for optimal hand configuration in the proposed discrete space, in which simplex search running in multi-processor is designed to predict the hand motion instead of initializing the simulated annealing randomly, and particle filtering is employed to represent the state of the tracker at each layer for searching in high dimensional configuration space. Experimental results show that the proposed method makes the hand tracking more efficient and robust. 展开更多
关键词 hand tracking human-computer interface simulated annealing articulated object tracking
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部