期刊文献+
共找到315篇文章
< 1 2 16 >
每页显示 20 50 100
基于S-YOLO V5和Vision Transformer的视频内容描述算法
1
作者 徐鹏 李铁柱 职保平 《印刷与数字媒体技术研究》 CAS 北大核心 2023年第4期212-222,共11页
视频内容描述的自动生成是结合计算机视觉和自然语言处理等相关技术提出的一种新型交叉学习任务。针对当前视频内容生成描述模型可读性不佳的问题,本研究提出一种基于S-YOLO V5和Vison Transformer(ViT)的视频内容描述算法。首先,基于... 视频内容描述的自动生成是结合计算机视觉和自然语言处理等相关技术提出的一种新型交叉学习任务。针对当前视频内容生成描述模型可读性不佳的问题,本研究提出一种基于S-YOLO V5和Vison Transformer(ViT)的视频内容描述算法。首先,基于神经网络模型KATNA提取关键帧,以最少帧数进行模型训练;其次,利用S-YOLO V5模型提取视频帧中的语义信息,并结合预训练ResNet101模型和预训练C3D模型提取视频静态视觉特征和动态视觉特征,并对两种模态特征进行融合;然后,基于ViT结构的强大长距离编码能力,构建模型编码器对融合特征进行长距离依赖编码;最后,将编码器的输出作为LSTM解码器的输入,依次输出预测词,生成最终的自然语言描述。通过在MSR-VTT数据集上进行测试,本研究模型的BLEU-4、METEOR、ROUGEL和CIDEr分别为42.9、28.8、62.4和51.4;在MSVD数据集上进行测试,本研究模型的BLEU-4、METEOR、ROUGEL和CIDEr分别为56.8、37.6、74.5以及98.5。与当前主流模型相比,本研究模型在多项评价指标上表现优异。 展开更多
关键词 视频内容描述 S-YOLO V5 Vision Transformer 多头注意力
下载PDF
基于ViT与语义引导的视频内容描述生成
2
作者 赵宏 陈志文 +1 位作者 郭岚 安冬 《计算机工程》 CAS CSCD 北大核心 2023年第5期247-254,共8页
现有视频内容描述模型生成的视频内容描述文本可读性差且准确率不高。基于ViT模型提出一种语义引导的视频内容描述方法。利用ReNeXt和ECO网络提取视频的视觉特征,以提取的视觉特征为输入、语义标签的概率预测值为输出训练语义检测网络(S... 现有视频内容描述模型生成的视频内容描述文本可读性差且准确率不高。基于ViT模型提出一种语义引导的视频内容描述方法。利用ReNeXt和ECO网络提取视频的视觉特征,以提取的视觉特征为输入、语义标签的概率预测值为输出训练语义检测网络(SDN)。在此基础上,通过ViT模型对静态和动态视觉特征进行全局编码,并与SDN提取的语义特征进行注意力融合,采用语义长短期记忆网络对融合特征进行解码,生成视频对应的描述文本。通过引入视频中的语义特征能够引导模型生成更符合人类习惯的描述,使生成的描述更具可读性。在MSR-VTT数据集上的测试结果表明,该模型的BLEU-4、METEOR、ROUGE-L和CIDEr指标分别为44.8、28.9、62.8和51.1,相比于当前主流的视频内容描述模型ADL和SBAT,提升的得分总和达到16.6和16.8。 展开更多
关键词 视频内容描述 视频理解 ViT模型 语义引导 长短期记忆网络 注意力机制
下载PDF
基于MPEG-7的图像内容描述方案研究 被引量:7
3
作者 张李义 李歆 《情报学报》 CSSCI 北大核心 2004年第3期313-320,共8页
多媒体内容检索是互联网应用的一种重要方面,如何准确地描述多媒体信息特别是图像信息是多媒体信息检索必须要解决的问题.本文提出一种基于MPEG-7标准的图像内容的描述方案,可以用于多媒体内容检索中的图像检索.文章首先介绍了MPEG-7标... 多媒体内容检索是互联网应用的一种重要方面,如何准确地描述多媒体信息特别是图像信息是多媒体信息检索必须要解决的问题.本文提出一种基于MPEG-7标准的图像内容的描述方案,可以用于多媒体内容检索中的图像检索.文章首先介绍了MPEG-7标准以及MPEG-7标准中的多媒体描述方案,然后叙述基于MPEG-7的图像描述方案的技术与相关特征,最后给出一个具体的基于MPEG-7的图像描述方案的实际例子. 展开更多
关键词 MPEG-7 图像编码 图像内容描述 多媒体信息检索
下载PDF
基于形状内容描述子的点特征匹配 被引量:10
4
作者 冯晓伟 田裕鹏 《光电工程》 EI CAS CSCD 北大核心 2008年第3期108-111,116,共5页
针对两幅图像中特征点的匹配问题,本文提出了一种新的基于形状内容描述子的点特征匹配方法。该方法首先利用基于曲率尺度空间(CSS)的角点检测技术获得两幅图像中的角点及其所在的曲线;然后,计算两幅图像中每个角点的形状内容描述子,运用... 针对两幅图像中特征点的匹配问题,本文提出了一种新的基于形状内容描述子的点特征匹配方法。该方法首先利用基于曲率尺度空间(CSS)的角点检测技术获得两幅图像中的角点及其所在的曲线;然后,计算两幅图像中每个角点的形状内容描述子,运用χ2统计检验函数得到描述子的匹配度,对该匹配度进行评估,如果高于某一个阈值,则认为初始匹配成功;最后对初始匹配成功的点对,利用半局域限制完成点集之间的最终匹配。实验结果表明,本文所提出的匹配算法具有较高的点特征匹配准确率。 展开更多
关键词 CSS角点提取算子 点特征匹配 形状内容描述 半局域限制
下载PDF
信息可视化与内容描述 被引量:12
5
作者 林夏 《现代图书情报技术》 CSSCI 北大核心 2004年第10期3-13,共11页
为了方便地对大量的数字化信息进行搜索 ,需要新的内容描述方法。本文介绍了几个例子和原型系统 ,它们指明了信息可视化技术如何被应用于内容描述。信息可视化技术使可视化内容地图可以自动生成。这些地图抽取和定义信息模型、种类和作... 为了方便地对大量的数字化信息进行搜索 ,需要新的内容描述方法。本文介绍了几个例子和原型系统 ,它们指明了信息可视化技术如何被应用于内容描述。信息可视化技术使可视化内容地图可以自动生成。这些地图抽取和定义信息模型、种类和作者、概念以及其它信息实体之间的关系。这些地图还支持多种多样的交互功能 ,用于用户探索概念关系和隐含的信息。本文还提出了关于内容测度、内容结构和内容与内容结构的可视化显示的许多问题。我们相信 。 展开更多
关键词 信息可视化 内容描述 数字化信息 信息检索
下载PDF
基于块边缘模式的图像内容描述符
6
作者 康勤 邱开金 肖国强 《计算机科学》 CSCD 北大核心 2008年第5期249-252,共4页
本文提出一种有效的基于从图像压缩域提取的块边缘模式的内容描述符,它特别适用于JPEG压缩图像或MPEG压缩视频。该图像内容描述符由三种块边缘模式的游程编码直方图构成。大量的实验结果证明,与现行的类似算法相比,本文提出的算法在进... 本文提出一种有效的基于从图像压缩域提取的块边缘模式的内容描述符,它特别适用于JPEG压缩图像或MPEG压缩视频。该图像内容描述符由三种块边缘模式的游程编码直方图构成。大量的实验结果证明,与现行的类似算法相比,本文提出的算法在进行图像检索时,具有更高的平均查准率和查全率。 展开更多
关键词 JPEG MPEG 图像内容描述 图像检索
下载PDF
多媒体内容描述接口MPEG-7及其应用
7
作者 肖贤玉 《武汉理工大学学报(信息与管理工程版)》 CAS 2001年第3期25-27,共3页
由于多媒体内容有非结构化和多义性两个特征 ,因而多媒体内容难以被描述和检索。即将出台的多媒体内容描述接口MPEG 7,将会提供一个国际标准接口 ,以解决多媒体内容的描述和检索问题。文中介绍了MPEG 7的主要内容和检索工作流程 ,预测了... 由于多媒体内容有非结构化和多义性两个特征 ,因而多媒体内容难以被描述和检索。即将出台的多媒体内容描述接口MPEG 7,将会提供一个国际标准接口 ,以解决多媒体内容的描述和检索问题。文中介绍了MPEG 7的主要内容和检索工作流程 ,预测了MPEG 展开更多
关键词 多媒体内容描述接口 检索工作流程 多媒体技术 MPEG-7 搜索引警 检索方式
下载PDF
基于MPEG-7的多媒体内容描述方法研究
8
作者 张小刚 丁振国 《电子科技》 2005年第1期34-37,41,共5页
如何准确地描述多媒体信息是多媒体信息检索必须要解决的问题。文中介绍了MPEG-7标准多媒体内容的描述工具,然后从结构和内容两个方面研究MPEG-7描述多媒体内容的方法,并给出了实际的例子。
关键词 MPEG-7 多媒体内容描述 描述方案
下载PDF
iMakeup:特定领域的大规模长视频数据集——用于细粒度视频语义内容描述 被引量:1
9
作者 林霄竹 金琴 陈师哲 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2019年第8期1350-1357,共8页
实际生活中,大多数视频均含有若干动作或物体,简单的单句描述难以展现视频中的全部信息,而各类长视频中,教学视频步骤清晰、逻辑明确,容易从中提取特征并使用深度学习相关算法进行实验验证,从长视频中提取复杂信息成为研究人员日益关注... 实际生活中,大多数视频均含有若干动作或物体,简单的单句描述难以展现视频中的全部信息,而各类长视频中,教学视频步骤清晰、逻辑明确,容易从中提取特征并使用深度学习相关算法进行实验验证,从长视频中提取复杂信息成为研究人员日益关注的问题之一.为此,文中收集整理了一个命名为iMakeup的大规模的美妆类教学视频数据集,其包含总时长256 h的热门50类2000个长视频,以及12823个短视频片段,每个片段均根据视频的逻辑步骤顺序进行划分,并标注起止时间和自然语句描述.文中主要通过视频网站下载收集原始视频,并请志愿者对视频的详细内容进行人工标注;同时统计分析了此数据集的规模大小和文本内容,并与其他类似研究领域的若干数据集进行对比;最后,展示了在此数据集上进行视频语义内容描述的基线实验效果,验证了此数据集在视频语义内容描述任务中的可行性.iMakeup数据集在收集整理时注重内容多样性和类别完整性,包含丰富的视觉、听觉甚至统计信息.除了基本的视频语义内容描述任务之外,该数据集还可用于视频分割、物体检测、时尚智能化推荐等多个前沿领域. 展开更多
关键词 大规模数据集 美妆 视频语义内容描述 视频分割
下载PDF
信息可视化与内容描述(上)
10
作者 林夏 张学福(译) 《图书情报工作动态》 2005年第8期4-8,共5页
1简介.在人类的历史长河中,信息可视化是不可缺少的。不论是古时候描述远方的猎场,还是农耕时代农田的划分,以及后来的航海导航、工业城市建设等,人们都发明及应用了各种各样的地图、航海图和其他可视图表。在今天的信息时代,我们... 1简介.在人类的历史长河中,信息可视化是不可缺少的。不论是古时候描述远方的猎场,还是农耕时代农田的划分,以及后来的航海导航、工业城市建设等,人们都发明及应用了各种各样的地图、航海图和其他可视图表。在今天的信息时代,我们期望“信息图”能成为引领我们翱翔信息海洋的一个重要工具,但目前这还很不现实。 展开更多
关键词 信息可视化 内容描述 信息检索 数据库 情报工作
下载PDF
多媒体内容描述接口——MPEG-7
11
作者 丁杰 余琦 《现代有线传输》 2003年第2期41-45,共5页
本文对于 2 0 0 1年 9月颁布的 MPEG- 7标准做了综述 ,介绍了 MPEG- 7的目标 ,讨论了 MPEG- 7的原理、范围、结构和应用。最后 ,对 MPEG-
关键词 MPEG-7 描述 DDL 多媒体内容描述接口 互操作性
下载PDF
行政机关如何把握对信息公开内容描述进行补充的限度
12
作者 宋清坤 《资源导刊》 2018年第15期46-46,共1页
案情 申请人:王某、谷某、秦某 被申请人:J市国土资源局 复议机关:H省国土资源厅 申请人于2018年1月8日分别向被申请人递交《政府信息公开申请书》,要求公开:“2005年左右贵局处罚J市J区A商贸城及B市场非法占地的处罚公告、处罚结... 案情 申请人:王某、谷某、秦某 被申请人:J市国土资源局 复议机关:H省国土资源厅 申请人于2018年1月8日分别向被申请人递交《政府信息公开申请书》,要求公开:“2005年左右贵局处罚J市J区A商贸城及B市场非法占地的处罚公告、处罚结果”“J市国土资源局关于C村安置小区项目用地的初审意见”. 被申请人分别于2018年1月10日、12日、15日收到王某、谷某、秦某的政府信息公开申请.被申请人审查后认为申请人关于“2005年左右贵局处罚J市J区A商贸城及B市场非法占地的处罚公告、处罚结果”“J市国土资源局关于C村安置小区项目用地的初审意见”的信息描述不清楚,于2018年1月29日向申请人作出答复,要求申请人补充后再提出信息公开申请. 展开更多
关键词 信息公开 内容描述 行政机关 国土资源局 申请人 国土资源厅 复议机关 信息描述
下载PDF
多媒体内容描述接口——MPEG-7
13
作者 黄剑玲 《电子工程师》 2000年第11期15-16,28,共3页
国际标准化组织继 MPEG1、2和 4之后 ,又着手制定了 MPEG- 7标准。本文初步探讨了MPEG- 7的内容及应用范围 ,并讨论了 MPEG- 7与MPEG1、2和
关键词 MPEG-7 内容描述接口 多媒体通信
下载PDF
谈MPEG-7内容描述规范及应用 被引量:1
14
作者 陈晖 詹磊 《中国多媒体视讯》 2004年第3期62-63,共2页
人们如何在大量的媒体信息中迅速找到自己所需的内容,并对其进行个性化的访问。MPEG-7媒体内容描述规范使无法通过现有的搜索引擎查询视频、音频等内容的难题迎刃而解。本文分析了MPEG-7的描述方案,并重点分析了它的集中应用。
关键词 MPEG-7 内容描述规范 描述 描述定义语言 多媒体内容描述接口
原文传递
MPEG—7:多媒体内容描述接口 被引量:1
15
作者 宋培义 《广播电视网络技术》 2001年第6期65-71,共7页
本文综述了正在开发的MPEG-7标准,介绍了MPEG-7的目标,讨论了MPEG-7的应用、范围、结构和基本构成部分、术语和要求。最后,阐述了描述定义语言(DDL)的主要特征,该语言将允许MPEG-7用户创建自己的描述图和描述符。
关键词 运动图像系统 描述定义语言 多媒体内容描述接口 多媒体通信 图像编码
原文传递
图像内容自动描述技术综述 被引量:1
16
作者 邓旭冉 李灵慧 +1 位作者 唐胜 张勇东 《信息安全研究》 2019年第11期988-992,共5页
图像内容自动描述是计算机视觉和自然语言处理领域的一个重要任务,在生活娱乐、智慧交通以及帮助视觉障碍者理解视觉内容等领域有着广泛而重要的应用价值.相比于图像分类和目标检测等感知任务,图像内容自动描述是一种更高级别、更复杂... 图像内容自动描述是计算机视觉和自然语言处理领域的一个重要任务,在生活娱乐、智慧交通以及帮助视觉障碍者理解视觉内容等领域有着广泛而重要的应用价值.相比于图像分类和目标检测等感知任务,图像内容自动描述是一种更高级别、更复杂的认知任务,对帮助分析和理解图像有着重要的意义.旨在对现有的图像自动描述技术进行全面的综述.讨论图像内容自动描述中常用的数据集和评价指标,以及现有图像自动描述技术的性能、优点和局限性. 展开更多
关键词 图像内容描述 卷积神经网络 循环神经网络 注意力机制 深度学习
下载PDF
图像特征注意力与自适应注意力融合的图像内容中文描述 被引量:6
17
作者 赵宏 孔东一 《计算机应用》 CSCD 北大核心 2021年第9期2496-2503,共8页
针对现有基于注意力机制的图像内容中文描述模型无法在关注信息不减弱和无缺失的条件下对重点内容进行注意力加强关注的问题,提出一种图像特征注意力与自适应注意力融合的图像内容中文描述模型。模型使用编解码结构,首先在编码器网络中... 针对现有基于注意力机制的图像内容中文描述模型无法在关注信息不减弱和无缺失的条件下对重点内容进行注意力加强关注的问题,提出一种图像特征注意力与自适应注意力融合的图像内容中文描述模型。模型使用编解码结构,首先在编码器网络中提取图像特征,并通过图像特征注意力提取图像全部特征区域的注意力信息;然后使用解码器网络将带有注意力权重的图像特征解码生成隐藏信息,以保证关注信息不减弱、无缺失;最后利用自适应注意力的视觉哨兵模块对图像特征中的重点内容进行再次加强关注,从而更加精准地提取图像的主体内容。使用多种评价指标(BLEU、METEOR、ROUGEL和CIDEr)进行模型验证,将所提模型与单一基于自适应注意力和基于图像特征注意力的图像描述模型进行对比实验,该模型的CIDEr评价指标值分别提高了10.1%和7.8%;同时与基线模型NIC(Neural Image Caption)以及基于自底向上和自顶向下(BUTD)注意力的图像描述模型相比,该模型的CIDEr评价指标值分别提高了10.9%和12.1%。实验结果表明,所提模型的图像理解能力得到了有效提升,其各项评价指标得分均优于对比模型。 展开更多
关键词 图像内容中文描述 注意力机制 深度学习 卷积神经网络 循环神经网络
下载PDF
基于Vision Transformer和语义学习的视频描述模型 被引量:1
18
作者 王翀 查易艺 +3 位作者 顾颖程 宋玉 程环宇 林杉 《印刷与数字媒体技术研究》 CAS 北大核心 2023年第5期49-59,68,共12页
针对当前视频内容描述任务中所生成的描述语句晦涩难懂问题,本研究提出一种基于ViT(Vision Transformer)和语义学习的视频描述模型。首先,采用深度可分离卷积优化ResNet152、C3D等特征提取网络,通过减少网络参数,降低模型时间开销;其次... 针对当前视频内容描述任务中所生成的描述语句晦涩难懂问题,本研究提出一种基于ViT(Vision Transformer)和语义学习的视频描述模型。首先,采用深度可分离卷积优化ResNet152、C3D等特征提取网络,通过减少网络参数,降低模型时间开销;其次,利用多模态融合网络融合多种模态特征,使不同模态进行语义对齐;然后,基于Vision Transformer网络建立一种长距离依赖性编码器,并结合时间注意力机制,在生成每个单词时有选择性地聚焦视频中的特定帧;最后,在解码阶段,利用LSTM循环网络并引入语义信息,使模型生成的描述更具可读性。通过在MSR-VTT数据集上进行测试,本研究模型可以实现0.425、0.288、0.624和0.538分的BLEU4、METEOR、ROUGE-L和CIDEr得分;在MSVD数据集上的BLEU4、METEOR、ROUGE-L和CIDEr得分分别达到了0.564、0.369、0.741和0.964分。相比当前主流视频内容描述模型,所提模型具有更好的描述生成效果。 展开更多
关键词 视频内容描述 语义学习 Vision Transformer 多模态 SCN解码器
下载PDF
多媒体内容描述接口MPEG-7
19
作者 林涛 《音响技术》 2006年第12期49-51,共3页
随着多媒体技术的发展,越来越多的信息以数字形式、在线形式以及诸如静止图像、图形、3D模型、声频、语音、视频等形式出现。而现有的搜索引擎主要基于文本信息的检索,不能满足用户对音视频信息、多媒体信息检索的需求。要实现对多媒... 随着多媒体技术的发展,越来越多的信息以数字形式、在线形式以及诸如静止图像、图形、3D模型、声频、语音、视频等形式出现。而现有的搜索引擎主要基于文本信息的检索,不能满足用户对音视频信息、多媒体信息检索的需求。要实现对多媒体内容的搜索,关键要定义一种标准的描述多媒体内容的接口,规范对多媒体内容的描述。其目标是产生一种描述多媒体内容数据的标准,满足实时、非实时以及推一拉应用的需求。1998年10月,MPEG(运动图像专家组)组织着手制定MPEG-7标准,称为“多媒体内容描述接口”(Multimedia Content Description Interface)。 展开更多
关键词 多媒体内容描述接口 MPEG-7标准 多媒体信息检索 运动图像专家组 文本信息 搜索引擎 视频信息 多媒体技术
原文传递
描述内容的情绪特征对摹拟画像的影响 被引量:2
20
作者 付旭东 张伟 《刑事技术》 2011年第2期53-55,共3页
摹拟画像是一门沟通的艺术,画像专家总是希望通过目击者的描述并且从描述内容中挖掘素材、寻找灵感,从而在脑海中逐步构建一张与现实相符的脸。描述内容的重要性无容置疑,但实际的情形却令人堪忧,这些内容似乎永远满足不了需求。在沟通... 摹拟画像是一门沟通的艺术,画像专家总是希望通过目击者的描述并且从描述内容中挖掘素材、寻找灵感,从而在脑海中逐步构建一张与现实相符的脸。描述内容的重要性无容置疑,但实际的情形却令人堪忧,这些内容似乎永远满足不了需求。在沟通中我们发现,他们要么缺乏目的和动机,要么缺乏细致的分析,因而不可避免地具有琐碎凌乱、模棱两可的特性。 展开更多
关键词 摹拟画像 目击者 描述内容 情绪特征
下载PDF
上一页 1 2 16 下一页 到第
使用帮助 返回顶部