iMakeup:特定领域的大规模长视频数据集——用于细粒度视频语义内容描述被引量：1

iMakeup:Makeup Instructional Video Dataset for Fine-Grained Dense Video Captioning

下载PDF

导出

摘要实际生活中,大多数视频均含有若干动作或物体,简单的单句描述难以展现视频中的全部信息,而各类长视频中,教学视频步骤清晰、逻辑明确,容易从中提取特征并使用深度学习相关算法进行实验验证,从长视频中提取复杂信息成为研究人员日益关注的问题之一.为此,文中收集整理了一个命名为iMakeup的大规模的美妆类教学视频数据集,其包含总时长256 h的热门50类2000个长视频,以及12823个短视频片段,每个片段均根据视频的逻辑步骤顺序进行划分,并标注起止时间和自然语句描述.文中主要通过视频网站下载收集原始视频,并请志愿者对视频的详细内容进行人工标注;同时统计分析了此数据集的规模大小和文本内容,并与其他类似研究领域的若干数据集进行对比;最后,展示了在此数据集上进行视频语义内容描述的基线实验效果,验证了此数据集在视频语义内容描述任务中的可行性.iMakeup数据集在收集整理时注重内容多样性和类别完整性,包含丰富的视觉、听觉甚至统计信息.除了基本的视频语义内容描述任务之外,该数据集还可用于视频分割、物体检测、时尚智能化推荐等多个前沿领域. Automatically describing images or videos with natural language sentences(a.k.a.image/video captioning)has increasingly received significant attention.Most related works focused on generating one caption sentence for an image or a short video.While most videos in our daily life contain numerous actions or objects de facto,it is hard to describe complicated information involved in these videos with a single sentence.How to learn information from long videos has become a compelling problem.The number of large-scale dataset for such task is limited.Instructional videos are a unique type of videos that have distinct and attractive characteristics for learning.Makeup instructional videos are very popular on commercial video websites.Hence,we present a large-scale makeup instructional video dataset named iMakeup,containing 2000 videos that are equally distributed over 50 topics.The total duration of this dataset is about 256 hours,containing about 12 823 video clips in total which are segmented based on makeup procedures.We describe the collection and annotation process of our dataset;analyze the scale,the text statistics and diversity in comparison with other video dataset for similar problems.We then present the results of our baseline video caption models on this dataset.The iMakeup dataset contains information from both visual and auditory modalities with a large coverage and diversity of content.Despite for video captioning,it can be used in an extensive range of problems,such as video segmentation,object detection,intelligent fashion recommendation,etc.

作者林霄竹金琴陈师哲 Lin Xiaozhu;Jin Qin;Chen Shizhe(Multimedia Computing Laboratory,School of Information,Renmin University of China,Beijing 100872)

机构地区中国人民大学信息学院多媒体计算实验室

出处《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2019年第8期1350-1357,共8页 Journal of Computer-Aided Design & Computer Graphics

基金国家自然科学基金(61772535) 国家重点研发计划(2016YFB1001202)

关键词大规模数据集美妆视频语义内容描述视频分割 large-scale dataset makeup video caption video segmentation

分类号 TP391.41 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

同被引文献29

1孟建,胡学峰.数字人文研究:超学科方法论的一种认知与阐释[J].现代传播（中国传媒大学学报）,2020,42(2):13-17. 被引量：12
2崔雷,刘伟,闫雷,张晗,侯跃芳,黄莹娜,张浩.文献数据库中书目信息共现挖掘系统的开发[J].现代图书情报技术,2008(8):70-75. 被引量：544
3廖胜姣,肖仙桃.科学知识图谱应用研究概述[J].情报理论与实践,2009,32(1):122-125. 被引量：73
4许珺,裴韬,姚永慧.地学知识图谱的定义、内涵和表达方式的探讨[J].地球信息科学学报,2010,12(4):496-502. 被引量：27
5杨国立,李品,刘竟.科学知识图谱——科学计量学的新领域[J].科普研究,2010,5(4):28-34. 被引量：42
6陈娜.寻求超学科临界点的突破——访复旦大学教授孟建[J].新闻爱好者,2013(12):50-55. 被引量：3
7王维佳.“胁迫之术”:传播学的心理战起源[J].读书,2017,0(6):86-92. 被引量：2
8柳竹.从“精神交往论”看短视频之热[J].青年记者,2018(29):6-7. 被引量：3
9廖秉宜,金奇慧,李淑芳.基于SCP范式的中国短视频新媒体产业组织分析[J].编辑之友,2019,0(8):44-48. 被引量：7
10陈涛,刘炜,单蓉蓉,朱庆华.知识图谱在数字人文中的应用研究[J].中国图书馆学报,2019,45(6):34-49. 被引量：81

引证文献1

1孟建,张剑锋.数字人文:中国短视频研究的学术地图与脉络[J].现代传播（中国传媒大学学报）,2022,44(8):127-137. 被引量：2

二级引证文献2

1林仲轩,王逸楠.拓印、转译与超越:短视频平台文化生产集群的调节机制[J].江苏社会科学,2023(5):193-202. 被引量：2
2齐正达,李芸,孙晓晴.国外短视频研究:格局、径路与前沿展望[J].中国广播电视学刊,2023(11):72-77.

1张雪松,庄严,闫飞,王伟.基于迁移学习的类别级物体识别与检测研究与进展[J].自动化学报,2019,45(7):1224-1243. 被引量：59
2任毓敏,杜新宇.英语教师个人教学视频语料库的构建[J].读与写（教育教学刊）,2019,16(7):7-7.
3张秀梅.微课，让小学语文课堂多姿多彩[J].当代家庭教育,2019,0(22):59-59.
4唐聪,凌永顺(指导),杨华,杨星,路远.基于深度学习的红外与可见光决策级融合检测（英文）[J].红外与激光工程,2019,48(6):446-460. 被引量：13
5王博.基于深度学习的低信息量图片物体检测算法研究[J].价值工程,2019,38(24):256-259. 被引量：1
6张思敏.浅析粉丝圈的网络词汇特点[J].中国文艺家,2019,0(7):264-264. 被引量：1
7刘芳.“绿色化学”理念下的中学化学实验研究[J].中学化学教学参考,2019,0(14):55-56.
8朱凯兴.基于“科学探究”的高中生物实验教学的思考[J].试题与研究,2019(18):178-178. 被引量：1
9白美丽.基于迁移学习的卷积神经网络服装图像分类[J].信息与电脑,2019,0(14):32-34. 被引量：4
10陈长锁.在知识逻辑与认知逻辑的统一中培育解释素养——《两极对峙格局的形成》教学思考[J].中学历史教学,2019,0(8):16-19.

计算机辅助设计与图形学学报

2019年第8期

浏览历史

内容加载中请稍等...

iMakeup:特定领域的大规模长视频数据集——用于细粒度视频语义内容描述被引量：1

同被引文献29

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

iMakeup:特定领域的大规模长视频数据集——用于细粒度视频语义内容描述 被引量：1

同被引文献29

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

iMakeup:特定领域的大规模长视频数据集——用于细粒度视频语义内容描述被引量：1