-
题名融合多模态特征的新闻短视频分类模型
被引量:3
- 1
-
-
作者
曾祥玖
刘达维
刘逸凡
赵志滨
柳秀梅
任酉贵
-
机构
东北大学计算机科学与工程学院
辽宁省自然资源事务服务中心
-
出处
《计算机工程与应用》
CSCD
北大核心
2023年第14期107-113,共7页
-
基金
全国高等院校计算机基础教育研究会计算机基础教育教学研究项目(2022-AFCEC-236)。
-
文摘
视频分类是理解、归纳和检索视频数据的一个重要环节。新闻短视频具有音频信息比图像信息更能完整地描述新闻事件的特点,但传统视频分类模型常常只考虑图像信息或融合了音频和图像的多模态信息,并没有考虑模态信息之间的主辅关系。针对上述问题,采用以音频模态为主,图像模态为辅的融合机制,提出了融合多模态特征的新闻短视频分类模型。为进一步利用音频为主的特点,采用两阶段训练方式,使用音频模态单独训练,音频和图像模态联合训练,利用图像信息修正分类结果,提升新闻短视频分类的准确率。为训练和评价模型,采集了10304个新闻联播短视频作为实验数据集,总时长约为240 h。实验结果表明,所提模型的分类效果优于传统的新闻短视频分类模型。
-
关键词
音画关系
多模态特征融合
新闻短视频分类
-
Keywords
audio-visual relationship
multimodal feature fusion
news short video classification
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-