-
题名视频问答技术研究进展
- 1
-
-
作者
包翠竹
丁凯
董建峰
杨勋
谢满德
王勋
-
机构
浙江工商大学计算机科学与技术学院
浙江工商大学信息与电子工程学院
浙江省电子商务与物流信息技术研究重点实验室(浙江工商大学)
中国科学技术大学信息科学技术学院
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2024年第3期639-673,共35页
-
基金
国家自然科学基金项目(61972352,61902347,61976188,62272435,U22A2094)
浙江省重点研发计划项目(2021C03150)
浙江省省属高校基本科研业务费专项。
-
文摘
视频问答(video question answering,VideoQA)根据视频内容自动回答自然语言问题,是视觉语言领域较为新兴的一个研究方向,近年来引起了广泛关注.VideoQA问题的解决对于人机交互、智慧教育、智能交通、场景分析以及视频检索等各个领域都有着重大意义.VideoQA是一项具有挑战性的任务,因为它需要模型同时理解视频与文本内容来生成问题的答案.首先,分析了VideoQA与图像问答(image question answering,ImageQA)的区别,总结了当下VideoQA相对于ImageQA所面临的4个挑战;然后,围绕着这些挑战对目前现有VideoQA模型进行了细致的分类,并重点介绍了模型的实现及不同模型之间的关联;接着详细介绍了在VideoQA中常用的基准数据集及目前主流算法在部分数据集上的性能,并进行了对比与分析;最后,讨论了该领域未来面临的挑战和研究趋势,为未来进一步研究提供一些思路.
-
关键词
视频问答
注意力
记忆网络
循环神经网络
图网络模型
预训练模型
-
Keywords
video question answering
attention
memory network
recurrent neural network
graph network model
pre-training model
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名混合现实环境下的观演空间支撑技术研发
- 2
-
-
作者
王勋
丛德宏
李绍彬
贾杰
王钦
-
机构
浙江省电子商务与物流信息技术研究重点实验室
不详
-
出处
《中国科技成果》
2022年第20期20-21,共2页
-
文摘
项目拟研究基于主动视觉的复杂观演空间三维全景感知与建模,基于多源异构数据融合的多目标演员实时定位、跟踪与动作识别,面向大尺度复杂异形立体投影面的实时自适应内容呈现等关键技术,进而研建虚实演出交互实验平台,测试上:述关键技术的可用性与集成度,验证虚实融合的观演互动模式,并在此基础上,研发演出排演编辑与控制系统,形成演员表演与舞台装置的编程控制与实时交互的决策方法,完成实验性演出艺术作品(图1)。
-
关键词
多源异构数据融合
立体投影
主动视觉
三维全景
实时交互
虚实融合
动作识别
舞台装置
-
分类号
TP3
[自动化与计算机技术—计算机科学与技术]
-