期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
视频问答技术研究进展
1
作者 包翠竹 丁凯 +3 位作者 董建峰 杨勋 谢满德 王勋 《计算机研究与发展》 EI CSCD 北大核心 2024年第3期639-673,共35页
视频问答(video question answering,VideoQA)根据视频内容自动回答自然语言问题,是视觉语言领域较为新兴的一个研究方向,近年来引起了广泛关注.VideoQA问题的解决对于人机交互、智慧教育、智能交通、场景分析以及视频检索等各个领域都... 视频问答(video question answering,VideoQA)根据视频内容自动回答自然语言问题,是视觉语言领域较为新兴的一个研究方向,近年来引起了广泛关注.VideoQA问题的解决对于人机交互、智慧教育、智能交通、场景分析以及视频检索等各个领域都有着重大意义.VideoQA是一项具有挑战性的任务,因为它需要模型同时理解视频与文本内容来生成问题的答案.首先,分析了VideoQA与图像问答(image question answering,ImageQA)的区别,总结了当下VideoQA相对于ImageQA所面临的4个挑战;然后,围绕着这些挑战对目前现有VideoQA模型进行了细致的分类,并重点介绍了模型的实现及不同模型之间的关联;接着详细介绍了在VideoQA中常用的基准数据集及目前主流算法在部分数据集上的性能,并进行了对比与分析;最后,讨论了该领域未来面临的挑战和研究趋势,为未来进一步研究提供一些思路. 展开更多
关键词 视频问答 注意力 记忆网络 循环神经网络 图网络模型 预训练模型
下载PDF
混合现实环境下的观演空间支撑技术研发
2
作者 王勋 丛德宏 +2 位作者 李绍彬 贾杰 王钦 《中国科技成果》 2022年第20期20-21,共2页
项目拟研究基于主动视觉的复杂观演空间三维全景感知与建模,基于多源异构数据融合的多目标演员实时定位、跟踪与动作识别,面向大尺度复杂异形立体投影面的实时自适应内容呈现等关键技术,进而研建虚实演出交互实验平台,测试上:述关键技... 项目拟研究基于主动视觉的复杂观演空间三维全景感知与建模,基于多源异构数据融合的多目标演员实时定位、跟踪与动作识别,面向大尺度复杂异形立体投影面的实时自适应内容呈现等关键技术,进而研建虚实演出交互实验平台,测试上:述关键技术的可用性与集成度,验证虚实融合的观演互动模式,并在此基础上,研发演出排演编辑与控制系统,形成演员表演与舞台装置的编程控制与实时交互的决策方法,完成实验性演出艺术作品(图1)。 展开更多
关键词 多源异构数据融合 立体投影 主动视觉 三维全景 实时交互 虚实融合 动作识别 舞台装置
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部