期刊文献+
共找到23篇文章
< 1 2 >
每页显示 20 50 100
Triple Multimodal Cyclic Fusion and Self-Adaptive Balancing for Video Q&A Systems
1
作者 Xiliang Zhang Jin Liu +2 位作者 Yue Li Zhongdai Wu Y.Ken Wang 《Computers, Materials & Continua》 SCIE EI 2022年第12期6407-6424,共18页
Performance of Video Question and Answer(VQA)systems relies on capturing key information of both visual images and natural language in the context to generate relevant questions’answers.However,traditional linear com... Performance of Video Question and Answer(VQA)systems relies on capturing key information of both visual images and natural language in the context to generate relevant questions’answers.However,traditional linear combinations of multimodal features focus only on shallow feature interactions,fall far short of the need of deep feature fusion.Attention mechanisms were used to perform deep fusion,but most of them can only process weight assignment of single-modal information,leading to attention imbalance for different modalities.To address above problems,we propose a novel VQA model based on Triple Multimodal feature Cyclic Fusion(TMCF)and Self-AdaptiveMultimodal Balancing Mechanism(SAMB).Our model is designed to enhance complex feature interactions among multimodal features with cross-modal information balancing.In addition,TMCF and SAMB can be used as an extensible plug-in for exploring new feature combinations in the visual image domain.Extensive experiments were conducted on MSVDQA and MSRVTT-QA datasets.The results confirm the advantages of our approach in handling multimodal tasks.Besides,we also provide analyses for ablation studies to verify the effectiveness of each proposed component. 展开更多
关键词 video question and answer systems feature fusion scaling matrix attention mechanism
下载PDF
基于多模态知识主动学习的视频问答方案
2
作者 刘明阳 王若梅 +1 位作者 周凡 林格 《计算机研究与发展》 EI CSCD 北大核心 2024年第4期889-902,共14页
视频问答是人工智能领域的一个热点研究问题.现有方法在特征提取方面缺乏针对视觉目标运动细节的获取,从而会导致错误因果关系的建立.此外,在数据融合与推理过程中,现有方法缺乏有效的主动学习能力,难以获取特征提取之外的先验知识,影... 视频问答是人工智能领域的一个热点研究问题.现有方法在特征提取方面缺乏针对视觉目标运动细节的获取,从而会导致错误因果关系的建立.此外,在数据融合与推理过程中,现有方法缺乏有效的主动学习能力,难以获取特征提取之外的先验知识,影响了模型对多模态内容的深度理解.针对这些问题,首先,设计了一种显性多模态特征提取模块,通过获取图像序列中视觉目标的语义关联以及与周围环境的动态关系来建立每个视觉目标的运动轨迹.进一步通过动态内容对静态内容的补充,为数据融合与推理提供了更加精准的视频特征表达.其次,提出了知识自增强多模态数据融合与推理模型,实现了多模态信息理解的自我完善和逻辑思维聚焦,增强了对多模态特征的深度理解,减少了对先验知识的依赖.最后,提出了一种基于多模态知识主动学习的视频问答方案.实验结果表明,该方案的性能优于现有最先进的视频问答算法,大量的消融和可视化实验也验证了方案的合理性. 展开更多
关键词 视频问答 数据融合与推理 多模态主动学习 视频细节描述提取 深度学习
下载PDF
视频问答技术研究进展
3
作者 包翠竹 丁凯 +3 位作者 董建峰 杨勋 谢满德 王勋 《计算机研究与发展》 EI CSCD 北大核心 2024年第3期639-673,共35页
视频问答(video question answering,VideoQA)根据视频内容自动回答自然语言问题,是视觉语言领域较为新兴的一个研究方向,近年来引起了广泛关注.VideoQA问题的解决对于人机交互、智慧教育、智能交通、场景分析以及视频检索等各个领域都... 视频问答(video question answering,VideoQA)根据视频内容自动回答自然语言问题,是视觉语言领域较为新兴的一个研究方向,近年来引起了广泛关注.VideoQA问题的解决对于人机交互、智慧教育、智能交通、场景分析以及视频检索等各个领域都有着重大意义.VideoQA是一项具有挑战性的任务,因为它需要模型同时理解视频与文本内容来生成问题的答案.首先,分析了VideoQA与图像问答(image question answering,ImageQA)的区别,总结了当下VideoQA相对于ImageQA所面临的4个挑战;然后,围绕着这些挑战对目前现有VideoQA模型进行了细致的分类,并重点介绍了模型的实现及不同模型之间的关联;接着详细介绍了在VideoQA中常用的基准数据集及目前主流算法在部分数据集上的性能,并进行了对比与分析;最后,讨论了该领域未来面临的挑战和研究趋势,为未来进一步研究提供一些思路. 展开更多
关键词 视频问答 注意力 记忆网络 循环神经网络 图网络模型 预训练模型
下载PDF
Instance-sequence reasoning for video question answering
4
作者 Rui LIU Yahong HAN 《Frontiers of Computer Science》 SCIE EI CSCD 2022年第6期93-101,共9页
Video question answering(Video QA)involves a thorough understanding of video content and question language,as well as the grounding of the textual semantic to the visual content of videos.Thus,to answer the questions ... Video question answering(Video QA)involves a thorough understanding of video content and question language,as well as the grounding of the textual semantic to the visual content of videos.Thus,to answer the questions more accurately,not only the semantic entity should be associated with certain visual instance in video frames,but also the action or event in the question should be localized to a corresponding temporal slot.It turns out to be a more challenging task that requires the ability of conducting reasoning with correlations between instances along temporal frames.In this paper,we propose an instance-sequence reasoning network for video question answering with instance grounding and temporal localization.In our model,both visual instances and textual representations are firstly embedded into graph nodes,which benefits the integration of intra-and inter-modality.Then,we propose graph causal convolution(GCC)on graph-structured sequence with a large receptive field to capture more causal connections,which is vital for visual grounding and instance-sequence reasoning.Finally,we evaluate our model on TVQA+dataset,which contains the groundtruth of instance grounding and temporal localization,three other Video QA datasets and three multimodal language processing datasets.Extensive experiments demonstrate the effectiveness and generalization of the proposed method.Specifically,our method outperforms the state-of-the-art methods on these benchmarks. 展开更多
关键词 video question answering instance grounding graph causal convolution
原文传递
嵌入局部聚类描述符的视频问答Transformer模型 被引量:1
5
作者 郭丹 姚沈涛 +1 位作者 王辉 汪萌 《计算机学报》 EI CAS CSCD 北大核心 2023年第4期671-689,共19页
视频问答(Video Question Answering)是典型的跨模态理解任务,其目的是根据提问的文本对视频内容进行理解并推理正确的答案,如何有效地对多模态输入进行特征表示并建立跨模态间复杂的语义关联是解决这一任务的关键难点.为了正确地推理结... 视频问答(Video Question Answering)是典型的跨模态理解任务,其目的是根据提问的文本对视频内容进行理解并推理正确的答案,如何有效地对多模态输入进行特征表示并建立跨模态间复杂的语义关联是解决这一任务的关键难点.为了正确地推理结果,模型首先必须捕获视频序列和复杂文本中包含的关键语义信息.本文提出了一种嵌入局部聚类描述符的视频问答Transformer模型,称为TVLAD-Net(Transformer Residual-less VLAD Network).TVLAD-Net主要包含一个端到端可训练的无残差局部聚合描述符模块(RVLAD,Residual-less Vec⁃tor of Local Aggregated Descriptor),以及一个统一的语义转换模块(Transformer).具体来说,RVLAD通过设置多个不同的聚类中心将视频和文本特征分别聚合为少量紧凑的局部聚类描述符;每个聚类描述符从全局角度分配及汇总了序列上权重不一的语义信息,相比于聚合前的视频帧特征或文本词特征具有更丰富的表征能力.Trans⁃former模块能够利用模态间的相互语义引导,实现多模态聚类描述符的语义交互,即采用多头注意力机制同时求解模态内和模态间的语义关联,进而避免了与所求解问题无关或者冗余的描述符语义单元的聚合.实验评估在TGIF-QA、MSVD-QA和MSRVTT-QA三个基准数据集上进行;实验结果表明本文方法能够实现先进的问答推理,在整体的评价指标上与现有方法相比有2%~5%的性能提升. 展开更多
关键词 视频问答 多模态数据 聚类描述符 自注意力变换网络 深度学习
下载PDF
视频监控图像斑点特征智能提取与仿真 被引量:1
6
作者 谭淅予 叶丽娜 《计算机仿真》 北大核心 2023年第10期237-241,共5页
视频监控具有便捷、低成本的应用优势,但是摄像机获取的图像质量受环境影响较大,如当室外环境复杂或夜晚可视程度偏低时,很难及时获取监控异常情况。为此提出视频监控智能视觉图像斑点特征提取方法。利用智能视频监控系统采集视觉图像,... 视频监控具有便捷、低成本的应用优势,但是摄像机获取的图像质量受环境影响较大,如当室外环境复杂或夜晚可视程度偏低时,很难及时获取监控异常情况。为此提出视频监控智能视觉图像斑点特征提取方法。利用智能视频监控系统采集视觉图像,通过图像灰度处理和图像二值化处理预处理采集到的视觉图像,将预处理后的视觉图像输入至视觉问答模型中,实现视频监控智能视觉图像斑点特征的提取。实验结果验证了所提方法提取的斑点特征与原图像具有一致性,可视化效果更好,且半点特征分布具有较高合理性,上述图像斑点特征提取方法应用下监控视频的图像分辨率更高,更利于监控视频的后续处理。 展开更多
关键词 智能视频监控 视觉图像 视觉问答模型 斑点特征 图像灰度 图像二值化
下载PDF
基于自监督图对比学习的视频问答方法
7
作者 姚暄 高君宇 徐常胜 《软件学报》 EI CSCD 北大核心 2023年第5期2083-2100,共18页
视频问答作为一种跨模态理解任务,在给定一段视频和与之相关的问题的条件下,需要通过不同模态语义信息之间的交互来产生问题的答案.近年来,由于图神经网络在跨模态信息融合与推理方面强大的能力,其在视频问答任务中取得了显著的进展.但... 视频问答作为一种跨模态理解任务,在给定一段视频和与之相关的问题的条件下,需要通过不同模态语义信息之间的交互来产生问题的答案.近年来,由于图神经网络在跨模态信息融合与推理方面强大的能力,其在视频问答任务中取得了显著的进展.但是,大多数现有的图网络方法由于自身固有的过拟合或过平滑、弱鲁棒性和弱泛化性的缺陷使得视频问答模型的性能未能进一步提升.鉴于预训练技术中自监督对比学习方法的有效性和鲁棒性,在视频问答任务中利用图数据增强的思路提出了一种图网络自监督对比学习框架GMC.该框架使用针对节点和边的两种数据增强操作来生成相异子样本,并通过提升原样本与生成子样本图数据预测分布之间的一致性来提高视频问答模型的准确率和鲁棒性.在视频问答公开数据集上通过与现有先进的视频问答模型和不同GMC变体模型的实验对比验证了所提框架的有效性. 展开更多
关键词 图对比学习 视频问答 图数据增强 预训练
下载PDF
针对长视频问答的深度记忆融合模型 被引量:1
8
作者 孙广路 吴猛 +1 位作者 邱景 梁丽丽 《哈尔滨理工大学学报》 CAS 北大核心 2021年第1期1-8,共8页
长视频问答包含丰富的多模态语义信息和推理信息。当前,基于循环神经网络的视频问答模型难以充分保存重要记忆信息、忽略无关冗余信息和实现记忆信息高效融合。针对该问题,依据记忆网络思想,提出一种深度记忆融合模型。本模型利用记忆... 长视频问答包含丰富的多模态语义信息和推理信息。当前,基于循环神经网络的视频问答模型难以充分保存重要记忆信息、忽略无关冗余信息和实现记忆信息高效融合。针对该问题,依据记忆网络思想,提出一种深度记忆融合模型。本模型利用记忆网络的记忆组件有效保存视频剪辑及其字幕的融合特征,提出一种多模态相似性匹配方法过滤冗余记忆信息。经过卷积网络的初步融合和注意力机制的二次融合,生成整个视频的上下文表示,并进行答案生成。本模型在长视频剪辑MovieQA数据集上进行实验,平均准确率为39.78%,相较传统方法提升近10%且比当前最先进方法提升近5%,准确率提升明显,模型泛化性能好。 展开更多
关键词 视频问答 长视频理解 记忆网络 注意力机制 多模态融合
下载PDF
多媒体内容理解的研究现状与展望 被引量:32
9
作者 彭宇新 綦金玮 黄鑫 《计算机研究与发展》 EI CSCD 北大核心 2019年第1期183-208,共26页
随着多媒体和网络技术的迅猛发展,海量的图像、视频、文本、音频等多媒体数据快速涌现.这些不同媒体的数据在形式上多源异构,语义上相互关联.认知科学研究表明,人脑生理组织结构决定了其对外界的感知和认知过程是跨越多种感官信息的融... 随着多媒体和网络技术的迅猛发展,海量的图像、视频、文本、音频等多媒体数据快速涌现.这些不同媒体的数据在形式上多源异构,语义上相互关联.认知科学研究表明,人脑生理组织结构决定了其对外界的感知和认知过程是跨越多种感官信息的融合处理.如何对不同媒体的数据进行语义分析和关联建模以实现多媒体内容理解,成为了一个研究和应用的关键问题,受到了学术界和工业界的广泛关注.选取了多媒体内容理解的5个最新热点研究方向:图像细分类与检索、视频分类与目标检测、跨媒体检索、视觉描述与生成、视觉问答,分别阐述了它们的基本概念、代表性方法、研究现状等,并进一步阐述了多媒体内容理解面临的重要挑战,同时给出未来的发展趋势,旨在帮助读者全面了解多媒体内容理解的研究现状,吸引更多研究人员投身相关研究并为他们提供技术参考,推动该领域的进一步发展. 展开更多
关键词 多媒体内容理解 图像细分类与检索 视频分类与目标检测 跨媒体检索 视觉描述与生成 视觉问答
下载PDF
利用全局与局部帧级特征进行基于共享注意力的视频问答 被引量:1
10
作者 王雷全 候文艳 +3 位作者 袁韶祖 赵欣 林瑶 吴春雷 《计算机科学》 CSCD 北大核心 2021年第8期145-149,共5页
视频问答是视觉理解领域中非常重要且具有挑战性的任务。目前的视觉问答(VQA)方法主要关注单个静态图片的问答,而现实生活中的数据是立体动态的视频。此外,由于问题的复杂性,视频问答任务必须根据问答问题恰当地处理多种视觉特征才能获... 视频问答是视觉理解领域中非常重要且具有挑战性的任务。目前的视觉问答(VQA)方法主要关注单个静态图片的问答,而现实生活中的数据是立体动态的视频。此外,由于问题的复杂性,视频问答任务必须根据问答问题恰当地处理多种视觉特征才能获得高质量的答案。文中提出了一个通过利用局部和全局帧级别的视觉信息来进行视频问答的多共享注意力网络。具体来说,以不同帧率提取视频帧,并以此提取帧级的全局与局部视觉特征,这两种特征包含了多个帧级别特征,用于对视频时间动态建模,再以共享注意力的形式建模全局与局部视觉特征的相关性,然后结合文本问题来推断答案。在天池视频问答数据集上进行了大量的实验,验证了所提方法的有效性。 展开更多
关键词 视频问答 共享注意力机制 全局和局部帧级特征
下载PDF
一本适用于线上线下相结合的混合式教学的高等数学教材 被引量:19
11
作者 李晓鹏 《大学数学》 2015年第3期39-41,共3页
随着以MOOC为代表的国内外在线开放课程的飞速发展,高校在课程建设、教学方法和教学模式等方面都在进行相应的改革.高等教育出版社紧密配合高校的教学改革,结合当前线上线下相结合的混合式教学的新趋势,在数字化教材方面也进行了很多有... 随着以MOOC为代表的国内外在线开放课程的飞速发展,高校在课程建设、教学方法和教学模式等方面都在进行相应的改革.高等教育出版社紧密配合高校的教学改革,结合当前线上线下相结合的混合式教学的新趋势,在数字化教材方面也进行了很多有益的探索,推出了"纸质教材+数字课程"的教材出版新模式.文中以高等教育出版社出版的朱士信、唐烁主编的《高等数学(上、下)》为例,介绍了该书在教材建设、教学资源建设等方面的工作,并对学生使用平台学习的数据进行了简要的分析. 展开更多
关键词 高等数学 在线学习平台 教学资源 微视频 概念解析 典型例题解析 归纳总结 自测题 在线答疑
下载PDF
基于Web的远程教学平台的设计与实现 被引量:4
12
作者 张来希 《中国教育技术装备》 2007年第5期64-66,共3页
本文介绍了一个基于Web的远程教学平台的设计与实现。该平台分为管理员模块、教员模块和学员模块等三个逻辑功能模块;物理实现上包括管理员测试子系统、个性化教学子系统、答疑子系统和子系统。
关键词 Web远程教学平台 个性化教学 同步智能答疑 网上视音频考试
下载PDF
微视频辅助“工程数学”课程答疑的探索与实践 被引量:2
13
作者 杨美妮 艾小川 李响军 《科教导刊》 2022年第5期35-38,共4页
“工程数学”是高校理工类本科专业学生必修的公共基础课。文章阐述了“工程数学”课程在传统答疑模式中存在的答疑不及时和重复答疑的问题,并分析了问题存在的客观因素和主观因素。针对课程在传统答疑模式中存在的问题,提出了利用雨课... “工程数学”是高校理工类本科专业学生必修的公共基础课。文章阐述了“工程数学”课程在传统答疑模式中存在的答疑不及时和重复答疑的问题,并分析了问题存在的客观因素和主观因素。针对课程在传统答疑模式中存在的问题,提出了利用雨课堂平台建立微视频辅助课程答疑的教学模式,并在教学环节中进行了积极的探索与尝试。详细阐述了该教学模式的优点以及具体的实施流程,最后对这种教学模式在实际教学过程中的实施效果进行了分析和总结。该模式已在实际的教学环节中使用且效果良好,可为“工程数学”课程的建设与实施提供有益参考。 展开更多
关键词 微视频 工程数学 课程答疑
下载PDF
视觉问答技术研究 被引量:21
14
作者 俞俊 汪亮 余宙 《计算机研究与发展》 EI CSCD 北大核心 2018年第9期1946-1958,共13页
随着深度学习在计算机视觉、自然语言处理领域取得的长足进展,现有方法已经能准确理解视觉对象和自然语言的语义,并在此基础上开展跨媒体数据表达与交互研究.近年来,视觉问答(visual question answering,VQA)是跨媒体表达与交互方向上... 随着深度学习在计算机视觉、自然语言处理领域取得的长足进展,现有方法已经能准确理解视觉对象和自然语言的语义,并在此基础上开展跨媒体数据表达与交互研究.近年来,视觉问答(visual question answering,VQA)是跨媒体表达与交互方向上的研究热点问题.视觉问答旨在让计算机理解图像内容后根据自然语言输入的查询进行自动回答.围绕视觉问答问题,从概念、模型、数据集等方面对近年来的研究进展进行综述,同时探讨现有工作存在的不足;最后从方法论、应用和平台等多方面对视觉问答未来的研究方向进行了展望. 展开更多
关键词 视觉问答 见觉推理 见频问答 深度学习 知识网络
下载PDF
基于Web的远程教学平台的设计与实现
15
作者 张来希 《电脑知识与技术》 2007年第3期1443-1444,共2页
本文介绍了一个基于Web的远程教学平台的设计与实现。该平台分为管理员模块、教员模块和学员模块等三个逻辑功能模块:物理实现上包括管理员子系统、个性化教学子系统、答疑子系统和考试子系统。个性化教学子系统采用适应性和智能技术... 本文介绍了一个基于Web的远程教学平台的设计与实现。该平台分为管理员模块、教员模块和学员模块等三个逻辑功能模块:物理实现上包括管理员子系统、个性化教学子系统、答疑子系统和考试子系统。个性化教学子系统采用适应性和智能技术动态生成个性化学习课件【1,2】,答疑子系统采用了同步智能答疑的技术,考试子系统突破了只能文字出题的限制,引入视频、音频和复杂数学公式等各类题目。该平台在“计算机基础”课程中得到初步实现。 展开更多
关键词 Web远程教学平台 个性化教学 同步智能答疑 网上视音频考试
下载PDF
MSAM:针对视频问答的多阶段注意力模型 被引量:1
16
作者 梁丽丽 刘昕雨 +1 位作者 孙广路 朱素霞 《哈尔滨理工大学学报》 CAS 北大核心 2022年第4期107-117,共11页
视频问答(VideoQA)任务需要理解视频和问题中的语义信息生成答案。目前,基于注意力模型的VideoQA方法很难完全理解和准确定位与问题相关的视频信息。为解决上述问题,提出一种基于注意力机制的多阶段注意力模型网络(MSAMN)。该网络将视... 视频问答(VideoQA)任务需要理解视频和问题中的语义信息生成答案。目前,基于注意力模型的VideoQA方法很难完全理解和准确定位与问题相关的视频信息。为解决上述问题,提出一种基于注意力机制的多阶段注意力模型网络(MSAMN)。该网络将视频、音频以及文本等多模态特征输入到多阶段注意力模型(MSAM)中,通过逐阶段的定位方式精准找到与回答问题相关的视频信息,用于答案生成。为了提高特征融合的有效性,提出一种三模态压缩级联双线性(TCCB)算法计算不同模态特征之间的相关性。MASMN在ZJL数据集上进行实验,平均准确率均为54.3%,比传统方法提高了近15%,比现有方法提高了近7%。 展开更多
关键词 视频问答 多阶段注意力模型 多模态特征融合
下载PDF
基于先验MASK注意力机制的视频问答方案 被引量:2
17
作者 许振雷 董洪伟 《计算机工程》 CAS CSCD 北大核心 2021年第2期52-59,共8页
视频问答是深度学习领域的研究热点之一,广泛应用于安防和广告等系统中。在注意力机制框架下,建立先验MASK注意力机制模型,使用Faster R-CNN模型提取视频关键帧以及视频中的对象标签,将其与问题文本特征进行3种注意力加权,利用MASK屏蔽... 视频问答是深度学习领域的研究热点之一,广泛应用于安防和广告等系统中。在注意力机制框架下,建立先验MASK注意力机制模型,使用Faster R-CNN模型提取视频关键帧以及视频中的对象标签,将其与问题文本特征进行3种注意力加权,利用MASK屏蔽与问题无关的答案,从而增强模型的可解释性。实验结果表明,该模型在视频问答任务中的准确率达到61%,与VQA+、SA+等视频问答模型相比,其具有更快的预测速度以及更好的预测效果。 展开更多
关键词 视频问答 计算机视觉 自然语言处理 注意力机制 MASK模型
下载PDF
基于视觉和语言的跨媒体问答与推理研究综述 被引量:3
18
作者 武阿明 姜品 韩亚洪 《计算机科学》 CSCD 北大核心 2021年第3期71-78,共8页
基于视觉和语言的跨媒体问答与推理是人工智能领域的研究热点之一,其目的是基于给定的视觉内容和相关问题,模型能够返回正确的答案。随着深度学习的飞速发展及其在计算机视觉和自然语言处理领域的广泛应用,基于视觉和语言的跨媒体问答... 基于视觉和语言的跨媒体问答与推理是人工智能领域的研究热点之一,其目的是基于给定的视觉内容和相关问题,模型能够返回正确的答案。随着深度学习的飞速发展及其在计算机视觉和自然语言处理领域的广泛应用,基于视觉和语言的跨媒体问答与推理也取得了较快的发展。文中首先系统地梳理了当前基于视觉和语言的跨媒体问答与推理的相关工作,具体介绍了基于图像的视觉问答与推理、基于视频的视觉问答与推理以及基于视觉常识推理模型与算法的研究进展,并将基于图像的视觉问答与推理细分为基于多模态融合、基于注意力机制和基于推理3类,将基于视觉常识推理细分为基于推理和基于预训练2类;然后总结了目前常用的问答与推理数据集,以及代表性的问答与推理模型在这些数据集上的实验结果;最后展望了基于视觉和语言的跨媒体问答与推理的未来发展方向。 展开更多
关键词 跨媒体问答与推理 图像问答与推理 视频问答与推理 视觉常识问答与推理 多模态融合 注意力机制 预训练
下载PDF
网络课程中视频答疑模块的设计与实现
19
作者 卢如荣 彭文辉 文忆 《现代教育技术》 CSSCI 2011年第6期138-141,共4页
答疑是学习活动中必不可少的关键环节,但网络的介入却给这种双向的交流带来了障碍,如何疏通解惑途径,给学习者以满意的答复就成为网络教育系统中需要关注的一个重要问题。文章提出的基于Flash Media Server和Flex技术的视频答疑方式,能... 答疑是学习活动中必不可少的关键环节,但网络的介入却给这种双向的交流带来了障碍,如何疏通解惑途径,给学习者以满意的答复就成为网络教育系统中需要关注的一个重要问题。文章提出的基于Flash Media Server和Flex技术的视频答疑方式,能够为学习者和教师提供一个互动交流的平台,突破了传统答疑模块中基于文字、图形和非交互的多媒体形式,满足了用户在需要传统的文字和图形外还需要语音和视频等更人性化的内容之要求,使教师能够及时地与学习者进行多方的沟通,及时地答疑解惑。 展开更多
关键词 视频答疑 FLASH MEDIA SERVER FLEX
下载PDF
基于视频描述和阅读理解的视频问答研究
20
作者 胡锦祥 孟朝晖 《计算机应用研究》 CSCD 北大核心 2021年第12期3781-3785,共5页
针对大多数视频问答(VideoQA)模型将视频和问题嵌入到同一空间进行答案推理所面临的多模态交互困难、视频语义特征保留能力差等问题,提出了一种视频描述机制来获得视频语义特征的文本表示,从而避免了多模态的交互。提出方法将视频特征... 针对大多数视频问答(VideoQA)模型将视频和问题嵌入到同一空间进行答案推理所面临的多模态交互困难、视频语义特征保留能力差等问题,提出了一种视频描述机制来获得视频语义特征的文本表示,从而避免了多模态的交互。提出方法将视频特征通过描述机制得到相应的视频描述文本,并将描述文本特征与问题特征进行阅读理解式的交互与分析,最后推理出问题的答案。在MSVD-QA以及MSRVTT-QA数据集上的测试结果显示,提出问答模型的回答准确率较现有模型均有不同程度的提升,说明所提方法能更好地完成视频问答任务。 展开更多
关键词 视频问答 视频描述 阅读理解
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部