摘要
文章通过对短视频领域真实场景多模态的数据进行分析研究,对短视频中的标题、音频转文本识别结果以及视频OCR识别结果采用多种不同的拼接方式并展开消融实验。同时,对基线模型进行改进,将文本特征和视频特征分别在权重共享的Embedding和非权重共享的Embedding上将合并的文本模态特征和视频模态特征一起传入BERT网络实现Early-Fusion。实验结果表明,改进的算法有效地提升了分类精度。
出处
《电脑知识与技术》
2023年第25期106-108,共3页
Computer Knowledge and Technology
基金
福建省教育厅中青年教师科研项目(科技)(编号:JAT210704)(项目名称:基于多模态数据融合的行人重识别研究)。