期刊文献+
共找到206篇文章
< 1 2 11 >
每页显示 20 50 100
CVTD: A Robust Car-Mounted Video Text Detector
1
作者 Di Zhou Jianxun Zhang +2 位作者 Chao Li Yifan Guo Bowen Li 《Computers, Materials & Continua》 SCIE EI 2024年第2期1821-1842,共22页
Text perception is crucial for understanding the semantics of outdoor scenes,making it a key requirement for building intelligent systems for driver assistance or autonomous driving.Text information in car-mounted vid... Text perception is crucial for understanding the semantics of outdoor scenes,making it a key requirement for building intelligent systems for driver assistance or autonomous driving.Text information in car-mounted videos can assist drivers in making decisions.However,Car-mounted video text images pose challenges such as complex backgrounds,small fonts,and the need for real-time detection.We proposed a robust Car-mounted Video Text Detector(CVTD).It is a lightweight text detection model based on ResNet18 for feature extraction,capable of detecting text in arbitrary shapes.Our model efficiently extracted global text positions through the Coordinate Attention Threshold Activation(CATA)and enhanced the representation capability through stacking two Feature Pyramid Enhancement Fusion Modules(FPEFM),strengthening feature representation,and integrating text local features and global position information,reinforcing the representation capability of the CVTD model.The enhanced feature maps,when acted upon by Text Activation Maps(TAM),effectively distinguished text foreground from non-text regions.Additionally,we collected and annotated a dataset containing 2200 images of Car-mounted Video Text(CVT)under various road conditions for training and evaluating our model’s performance.We further tested our model on four other challenging public natural scene text detection benchmark datasets,demonstrating its strong generalization ability and real-time detection speed.This model holds potential for practical applications in real-world scenarios. 展开更多
关键词 Deep learning text detection Car-mounted video text detector intelligent driving assistance arbitrary shape text detector
下载PDF
Trends in Event Understanding and Caption Generation/Reconstruction in Dense Video:A Review
2
作者 Ekanayake Mudiyanselage Chulabhaya Lankanatha Ekanayake Abubakar Sulaiman Gezawa Yunqi Lei 《Computers, Materials & Continua》 SCIE EI 2024年第3期2941-2965,共25页
Video description generates natural language sentences that describe the subject,verb,and objects of the targeted Video.The video description has been used to help visually impaired people to understand the content.It... Video description generates natural language sentences that describe the subject,verb,and objects of the targeted Video.The video description has been used to help visually impaired people to understand the content.It is also playing an essential role in devolving human-robot interaction.The dense video description is more difficult when compared with simple Video captioning because of the object’s interactions and event overlapping.Deep learning is changing the shape of computer vision(CV)technologies and natural language processing(NLP).There are hundreds of deep learning models,datasets,and evaluations that can improve the gaps in current research.This article filled this gap by evaluating some state-of-the-art approaches,especially focusing on deep learning and machine learning for video caption in a dense environment.In this article,some classic techniques concerning the existing machine learning were reviewed.And provides deep learning models,a detail of benchmark datasets with their respective domains.This paper reviews various evaluation metrics,including Bilingual EvaluationUnderstudy(BLEU),Metric for Evaluation of Translation with Explicit Ordering(METEOR),WordMover’s Distance(WMD),and Recall-Oriented Understudy for Gisting Evaluation(ROUGE)with their pros and cons.Finally,this article listed some future directions and proposed work for context enhancement using key scene extraction with object detection in a particular frame.Especially,how to improve the context of video description by analyzing key frames detection through morphological image analysis.Additionally,the paper discusses a novel approach involving sentence reconstruction and context improvement through key frame object detection,which incorporates the fusion of large languagemodels for refining results.The ultimate results arise fromenhancing the generated text of the proposedmodel by improving the predicted text and isolating objects using various keyframes.These keyframes identify dense events occurring in the video sequence. 展开更多
关键词 video description video to text video caption sentence reconstruction
下载PDF
Integrating Audio-Visual Features and Text Information for Story Segmentation of News Video 被引量:1
3
作者 Liu Hua-yong, Zhou Dong-ru School of Computer,Wuhan University,Wuhan 430072, Hubei, China 《Wuhan University Journal of Natural Sciences》 CAS 2003年第04A期1070-1074,共5页
Video data are composed of multimodal information streams including visual, auditory and textual streams, so an approach of story segmentation for news video using multimodal analysis is described in this paper. The p... Video data are composed of multimodal information streams including visual, auditory and textual streams, so an approach of story segmentation for news video using multimodal analysis is described in this paper. The proposed approach detects the topic-caption frames, and integrates them with silence clips detection results, as well as shot segmentation results to locate the news story boundaries. The integration of audio-visual features and text information overcomes the weakness of the approach using only image analysis techniques. On test data with 135 400 frames, when the boundaries between news stories are detected, the accuracy rate 85.8% and the recall rate 97.5% are obtained. The experimental results show the approach is valid and robust. 展开更多
关键词 news video story segmentation audio-visual features analysis text detection
下载PDF
相由心生:AIGC时代的艺术生产与审美新景观——由文生视频AI模型Sora引发的思考 被引量:11
4
作者 夏德元 《文化艺术研究》 2024年第1期24-31,112,共9页
ChatGPT、Bert、Midjourney等大语言模型的诞生,标志着人类社会已进入人工智能生成内容(AIGC)的时代。AIGC技术促进了科学与人文、技术与艺术的深度融合,使艺术创作的门槛不断降低。文生图、文生视频AI模型的快速迭代升级,不仅正在改写... ChatGPT、Bert、Midjourney等大语言模型的诞生,标志着人类社会已进入人工智能生成内容(AIGC)的时代。AIGC技术促进了科学与人文、技术与艺术的深度融合,使艺术创作的门槛不断降低。文生图、文生视频AI模型的快速迭代升级,不仅正在改写艺术生产的格局,重塑视觉文化景观,也必将对人们的日常审美生活实践带来革命性的影响。OpenAI新近推出的文生视频AI模型Sora的惊人表现,再次带给人们前所未有的视觉冲击和心理震撼,从科学哲学和艺术哲学层面对Sora所带来的影响进行审思,或可有利于缓解人们的技术焦虑,并有望建立一种审慎乐观的人机共生信念。 展开更多
关键词 SORA 文生视频 AIGC 人机共生 艺术生产 审美革命
下载PDF
Sora:作为世界模拟器的“天空”媒介 被引量:4
5
作者 邓建国 《文化艺术研究》 2024年第1期16-23,112,共9页
目前,关于文生视频人工智能应用Sora的分析存在两个极端:过于内行的技术分析,让人云里雾里;过于外行的“炸裂”分析,让人惊恐不已。从媒介学、传播学和新闻学角度分析Sora,可以发现,它同时属于超级媒介、基础设施型媒介、冷/热媒介、贫... 目前,关于文生视频人工智能应用Sora的分析存在两个极端:过于内行的技术分析,让人云里雾里;过于外行的“炸裂”分析,让人惊恐不已。从媒介学、传播学和新闻学角度分析Sora,可以发现,它同时属于超级媒介、基础设施型媒介、冷/热媒介、贫/富媒介、新/旧媒介、真/假媒介。Sora证明了物理规律的强大和现实的坚韧,能“画出不可画者”,朝着元宇宙方向迈进。在人工智能的重重包围和步步逼近下,在人类创造力的顶峰,红旗仍将高高飘扬;在各种虚拟现实技术盛行的今天,新闻业更应坚守现实本身,此时,机构型媒体作为信源的品牌公信力将变得更加重要。 展开更多
关键词 人工智能 AIGC SORA 文生视频 媒介 元宇宙 繁花
下载PDF
媒介变革中网络文学现实观照的幻像强化——从Internet到Sora的技术迁跃 被引量:2
6
作者 禹建湘 张浩翔 《西华大学学报(哲学社会科学版)》 2024年第2期16-22,共7页
网络文学的媒介提供了一种虚拟空间的文化交流与精神对话方式。伴随着互联网媒介生产技术从早期诞生到Sora AI问世的持续发展,文艺同社会生活边界的日渐模糊,进而打破了以往同社会存在遥远距离的束缚,以一种超现实的虚拟空间状态进入社... 网络文学的媒介提供了一种虚拟空间的文化交流与精神对话方式。伴随着互联网媒介生产技术从早期诞生到Sora AI问世的持续发展,文艺同社会生活边界的日渐模糊,进而打破了以往同社会存在遥远距离的束缚,以一种超现实的虚拟空间状态进入社会大众的生活。网络文艺创作将个体“无意识之思”通过超现实的叙事表达在集体“无意识之思”的公共语境空间内,并通过一种“在场”式体验的创作同创作者与阅读者构成共同的语意空间。而由于公共语境空间的平等交流性,读者与创作者都在他者介入的影响下参与到网络文艺在“自我理想”中找寻“理想自我”的过程中。 展开更多
关键词 网络文学 媒介生产 镜像理论 自我幻像 SORA 文生视频
下载PDF
教育评价改革如何应对AI快速发展的挑战?
7
作者 熊丙奇 《上海教育评估研究》 2024年第2期25-27,43,共4页
继ChatGPT之后,文生视频Sora横空出世。为了应对人工智能快速发展带来的挑战,我国学校教育正在加快推进AI+教育,但是AI+教育受唯分数、唯升学、唯学历的教育评价体系的影响,存在知识化、应试化倾向,人工智能在教育领域的应用还主要服务... 继ChatGPT之后,文生视频Sora横空出世。为了应对人工智能快速发展带来的挑战,我国学校教育正在加快推进AI+教育,但是AI+教育受唯分数、唯升学、唯学历的教育评价体系的影响,存在知识化、应试化倾向,人工智能在教育领域的应用还主要服务于应试,这既不符合教育改革方向,也难以培养适应人工智能时代的创新人才。应对人工智能快速发展的挑战,关键在推进教育评价改革,要坚定破除唯分数、唯升学的教育评价顽瘴痼疾,要在推进教育评价改革过程中,利用人工智能技术提高评价的效率与公信力。 展开更多
关键词 文生视频 创新人才 教育评价
下载PDF
图文结合习题在组织学与胚胎学教学中的应用
8
作者 张金平 田洋洋 +4 位作者 邵素霞 赵静 赵昱 赵秀军 王立轩 《中国组织化学与细胞化学杂志》 CAS CSCD 2024年第2期196-200,共5页
目的本研究旨在研究图文结合习题和不同类型教学视频在组织学和胚胎学教学中的应用效果。方法选取我校2021级影像班和全科医学班学生为研究对象,实验组采用图文结合习题,对照组采用传统纯文字习题。两组学生在教学过程中使用相同的教学... 目的本研究旨在研究图文结合习题和不同类型教学视频在组织学和胚胎学教学中的应用效果。方法选取我校2021级影像班和全科医学班学生为研究对象,实验组采用图文结合习题,对照组采用传统纯文字习题。两组学生在教学过程中使用相同的教学视频辅助教学。课程结束后,对两组学生的切片成绩和期末成绩进行比较和相关性分析,使用调查问卷评价两组的教学效果。结果实验组学生的成绩和高分段学生人数均显著高于对照组。实验组切片成绩和期末成绩之间存在密切相关性,实验组图文结合习题相关知识考点试题中,超过50%得分率的试题数量显著高于对照组。调查问卷显示,图文结合习题配合教学视频中的微课视频更有利于知识的掌握。结论使用图文结合习题能更好地加强组织学与胚胎学理论知识和实践内容的联系。 展开更多
关键词 图文结合习题 教学视频 组织学与胚胎学
下载PDF
文生视频类人工智能在图书领域的应用场景及有效治理
9
作者 李涛 《图书与情报》 CSSCI 北大核心 2024年第4期101-110,共10页
文生视频类生成式人工智能作为一种“新质生产力”,在图书出版领域中具有广阔的应用前景。相较于ChatGPT,文生视频类生成式人工智能Sora可赋能图书馆建设可视化数字资源、虚拟空间建设、智慧服务模式创新与用户个性化定制服务创新等。... 文生视频类生成式人工智能作为一种“新质生产力”,在图书出版领域中具有广阔的应用前景。相较于ChatGPT,文生视频类生成式人工智能Sora可赋能图书馆建设可视化数字资源、虚拟空间建设、智慧服务模式创新与用户个性化定制服务创新等。但与此同时,它也使图书馆面临侵犯人身权、知识产权、数据信息、算法安全以及虚假信息等风险的挑战。鉴于此,为消弭这些法律风险与科技隐患,应加强对人工智能Sora在图书领域应用风险的有效治理,明确人工智能生成物的著作权归属,并在此基础上进一步强化算法监管,提升图书馆的自我合规能力,使文生视频类生成式人工智能技术更好地服务于图书行业的可持续发展,共同营造一个健康有序的人机共存环境。 展开更多
关键词 文生视频 SORA 生成式人工智能 图书出版 治理
下载PDF
Sora文生影像模式下中国风格产品系统参数化建构策略研究
10
作者 周敏宁 《新疆师范大学学报(哲学社会科学版)》 CSSCI 北大核心 2024年第6期138-144,共7页
Sora文生影像模式的出现,标志着人工智能正式进入千亿级参数量的大数据、大模型时代。AI智能既初步具备了机器知觉能够“识万物”,又能通过输入文字、参数使“万物生”。伴随新质生产力的壮大,中国应深刻理解科技不仅是生产力,而且是意... Sora文生影像模式的出现,标志着人工智能正式进入千亿级参数量的大数据、大模型时代。AI智能既初步具备了机器知觉能够“识万物”,又能通过输入文字、参数使“万物生”。伴随新质生产力的壮大,中国应深刻理解科技不仅是生产力,而且是意识形态,应努力建构符合中国美学风格、满足中国用户需求的智能化系统;推动中国语境下的科学与人文相结合,形成能够在未来国际虚拟社区传播、具有中国风格的自创生AI体系,全面推进新时代中国智造与世界智能新业态的紧密融合。 展开更多
关键词 SORA 文生影像 中国风格 人工智能 自创生 隐私让渡
下载PDF
弹幕视频广告与用户购买意愿
11
作者 刘军跃 董秋霞 +1 位作者 李军锋 胡媛艳 《经济论坛》 2024年第10期109-118,共10页
随着弹幕在广告领域的广泛应用,如何提升弹幕视频广告效果,增强用户购买意愿,成为众多企业共同关注且试图解决的问题。文章从认知闭合需要视角出发,基于AIDA模型,将消费者认知特质和弹幕文本类型两种特征因素相结合,构建弹幕视频广告影... 随着弹幕在广告领域的广泛应用,如何提升弹幕视频广告效果,增强用户购买意愿,成为众多企业共同关注且试图解决的问题。文章从认知闭合需要视角出发,基于AIDA模型,将消费者认知特质和弹幕文本类型两种特征因素相结合,构建弹幕视频广告影响用户购买意愿的理论模型,分析弹幕视频广告对异质性消费者购买意愿的影响。研究发现:有无弹幕对于不同认知闭合需要用户购买意愿的影响不同:对于低认知闭合需要用户,有无弹幕对购买意愿影响不显著,而对于高认知闭合需要用户,弹幕的存在会显著提升其购买意愿;不同弹幕文本类型对于用户购买意愿的影响程度不同,情感类弹幕和行为类弹幕对于用户购买意愿的影响显著高于认知类弹幕。 展开更多
关键词 弹幕视频广告 购买意愿 认知闭合需要 弹幕文本类型 眼动
下载PDF
文生视频类人工智能的风险与三维规制:以Sora为视角 被引量:7
12
作者 邓建鹏 赵治松 《新疆师范大学学报(哲学社会科学版)》 CSSCI 北大核心 2024年第6期92-100,共9页
文生视频类人工智能Sora一经发布即引发万众瞩目,其具有的强理解能力、高度仿真性及多模态融合能力为社会带来视觉、听觉震撼的同时,引发诸多法律风险。与此前的生成式人工智能大模型相比,Sora的潜在法律风险在人格权保护、网络犯罪及... 文生视频类人工智能Sora一经发布即引发万众瞩目,其具有的强理解能力、高度仿真性及多模态融合能力为社会带来视觉、听觉震撼的同时,引发诸多法律风险。与此前的生成式人工智能大模型相比,Sora的潜在法律风险在人格权保护、网络犯罪及社会信任等方面更为突出。面对前沿科技给个人权益、刑事犯罪及社会稳定等领域带来的挑战,要及时采取相应的多维规制对策。一是加强对人格权的民法保护,明确个人信息使用的授权,强化数据采集和视频内容监管;二是优化刑法适用与归责,完善刑事法律的解释、适用及责任制度;三是通过规范监管,提升社会信任,推动人工智能由规制对象转向规制工具,助推人工智能系统的安全性和可靠性。 展开更多
关键词 SORA 法律风险 三维规制 人工智能 文生视频类人工智能
下载PDF
“世界模拟”的拟像迷思——基于通用视觉大模型技术的哲学反思 被引量:1
13
作者 吴静 《南通大学学报(社会科学版)》 CSSCI 北大核心 2024年第3期20-30,159,共12页
随着通用视觉大模型技术的迅速发展,对人工智能技术底层逻辑的哲学反思变得刻不容缓。生成式人工智能文生视频、文生图像现象的背后,是数字技术借由算法公理化逻辑所营造出的普世视觉景观,这种视觉景观消解了真实与虚拟之间的边界,在本... 随着通用视觉大模型技术的迅速发展,对人工智能技术底层逻辑的哲学反思变得刻不容缓。生成式人工智能文生视频、文生图像现象的背后,是数字技术借由算法公理化逻辑所营造出的普世视觉景观,这种视觉景观消解了真实与虚拟之间的边界,在本质上与一种通过数字技术而布展的知识生产权力具有同构性。基于数据预训练和投喂的通用视觉大模型,其知识生产中存在着数据“通用”性与模型“泛化”的张力,大模型泛化能力的提高意味着其所依赖的数据来源愈加具有普遍性和公理性,由此在技术无意识层面形成一种代表数字普遍理性的公共知识体系。为此应重新思考虚拟与现实之间的边界问题,在技术设计关注差异要素的基础上,探索人工智能时代人机交互的可能前景。 展开更多
关键词 人工智能 文生视频 大模型 泛化
下载PDF
人工智能文生视频大模型Sora的核心技术、运行机理及未来场景 被引量:14
14
作者 朱光辉 王喜文 《新疆师范大学学报(哲学社会科学版)》 CSSCI 北大核心 2024年第4期149-156,共8页
Sora的出现对人工智能的发展具有重大意义,如推动人工智能技术的普及和应用,革新人机交互方式,促进跨学科研究和应用。但同时也应注意到,面对人工智能领域的不断革新,会引发一系列伦理和法律问题。政府有关部门应尽快制定相应的战略、... Sora的出现对人工智能的发展具有重大意义,如推动人工智能技术的普及和应用,革新人机交互方式,促进跨学科研究和应用。但同时也应注意到,面对人工智能领域的不断革新,会引发一系列伦理和法律问题。政府有关部门应尽快制定相应的战略、规划、政策和标准,引导新一代人工智能技术更好地服务经济社会发展。 展开更多
关键词 文生视频大模型 SORA 扩散模型 世界模型 ChatGPT
下载PDF
人工智能文生视频大模型的作品风险、著作权归属及有效治理 被引量:7
15
作者 丛立先 李泳霖 《新疆师范大学学报(哲学社会科学版)》 CSSCI 北大核心 2024年第6期101-111,共11页
以Sora为代表的文生视频大模型的出现,赋予作品风险、著作权归属和著作权风险治理新的讨论意蕴。笔者认为文生视频大模型作为人类精神产品创作的工具,其生成的内容构成作品。基于文生视频大模型的技术特点,其引发的作品风险不能一概而论... 以Sora为代表的文生视频大模型的出现,赋予作品风险、著作权归属和著作权风险治理新的讨论意蕴。笔者认为文生视频大模型作为人类精神产品创作的工具,其生成的内容构成作品。基于文生视频大模型的技术特点,其引发的作品风险不能一概而论,应基于对作品的不同使用行为加以识别和判断。在著作权归属领域,应坚持视听作品的私权属性,在秉持以意思自治约定归属优先的同时,在个案中结合实质贡献、投资激励和利益平衡原则确定著作权归属。在著作权风险治理领域,应通过著作权规则完善、著作权审判指导、著作权执法监管和大模型行业自治,共同作用于文生视频大模型的合规、高效与可持续发展。 展开更多
关键词 SORA 人工智能 文生视频 作品风险 著作权归属 风险治理
下载PDF
文本到视频生成:研究现状、进展和挑战
16
作者 邓梓焌 何相腾 彭宇新 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第5期1632-1644,共13页
文本到视频生成旨在根据用户给定的文本描述生成语义一致、内容真实、时序连贯且符合逻辑的视频。该文首先介绍了文本到视频生成领域的研究现状,详细介绍了3类主流的文本到视频生成方法:基于循环网络与生成对抗网络(GAN)的生成方法,基于... 文本到视频生成旨在根据用户给定的文本描述生成语义一致、内容真实、时序连贯且符合逻辑的视频。该文首先介绍了文本到视频生成领域的研究现状,详细介绍了3类主流的文本到视频生成方法:基于循环网络与生成对抗网络(GAN)的生成方法,基于Transformer的生成方法和基于扩散模型的生成方法。这3类生成方法在视频生成任务上各有优劣:基于循环网络与生成对抗网络的生成方法能生成较高分辨率和时长的视频,但难以生成复杂的开放域视频;基于Transformer的生成方法有能力生成复杂的开放域视频,但受限于Transformer模型单向偏置、累计误差等问题,难以生成高保真视频;扩散模型具有很好的泛化性,但受制于推理速度和高昂的内存消耗,难以生成高清的长视频。然后,该文介绍了文本到视频生成领域的评测基准和指标,并分析比较了现有主流方法的性能。最后,展望了未来可能的研究方向。 展开更多
关键词 文本到视频生成 扩散模型 生成对抗网络
下载PDF
文生视频模型Sora的时间性结构分析——对生成式人工智能的现象学思考 被引量:1
17
作者 邓志文 《编辑之友》 CSSCI 北大核心 2024年第6期46-52,共7页
近日,OpenAI推出了代表了目前文生视频最高水平的模型Sora,成为生成式人工智能发展史上的里程碑。然而,Sora还是存在着一些技术上的缺陷和不足。从时间现象学角度看,Sora外在时间结构“阵容”残缺,只有客观时间,没有主观时间和内在时间... 近日,OpenAI推出了代表了目前文生视频最高水平的模型Sora,成为生成式人工智能发展史上的里程碑。然而,Sora还是存在着一些技术上的缺陷和不足。从时间现象学角度看,Sora外在时间结构“阵容”残缺,只有客观时间,没有主观时间和内在时间意识,导致其无法描述人类的心理时间,不能解释事件的因果关系和建构复杂有意义的事件及情节。此外,滞留和前摄的缺席,导致其无法连接动作和结果;缺少内在时间性动态生成结构的介入,Sora亦难以展现随着时间推移而发生的事件。因此,从技术层面增加数据模型的意向性实践和提升意向性设计的算量、算法,完善内外两个时间性结构,成为提升Sora现实表现的关键。 展开更多
关键词 文生视频 SORA 时间性结构 生成式人工智能 现象学 滞留与前摄
下载PDF
基于云计算的短视频媒体资源个性化推送方法 被引量:2
18
作者 王南 《兵工自动化》 北大核心 2024年第2期16-22,共7页
为提高短视频媒体资源推送的匹配度,提出基于云计算的短视频媒体资源个性化推送方法。设计基于Hadoop的短视频媒体资源个性化推送框架,以采集的信息为基础,采用隐含狄利克雷分布(latent Dirichlet allocation,LDA)模型按主题分类短视频... 为提高短视频媒体资源推送的匹配度,提出基于云计算的短视频媒体资源个性化推送方法。设计基于Hadoop的短视频媒体资源个性化推送框架,以采集的信息为基础,采用隐含狄利克雷分布(latent Dirichlet allocation,LDA)模型按主题分类短视频类型,并通过基于注意力机制的卷积神经网络模型识别精彩瞬间短视频主题;短视频媒体资源推荐模块根据用户的历史短视频浏览行为,确定用户对未浏览短视频的兴趣值,根据其值大小生成推荐列表,通过数据展示层将推送结果呈现给用户。实验结果表明:该方法可实现用户感兴趣主题短视频媒体资源的个性化推送,当各弹幕文本提取的最佳主题数量为2、推荐列表长度为3时,推送效果最突出;该方法能提高短视频媒体资源个性化推送的性能,推送的内容更加符合用户的兴趣度。 展开更多
关键词 云计算 短视频 个性化推送 弹幕文本 注意力机制
下载PDF
多尺度视觉特征提取及跨模态对齐的连续手语识别
19
作者 郭乐铭 薛万利 袁甜甜 《计算机科学与探索》 CSCD 北大核心 2024年第10期2762-2769,共8页
连续手语识别研究中,视觉特征的有效表示是提升识别效果的关键。然而,手语动作时序长度的差异性及手语弱标注现象,使得有效的视觉特征提取更加困难。针对上述问题,提出了多尺度视觉特征提取及跨模态对齐的连续手语识别方法(MECA)。该方... 连续手语识别研究中,视觉特征的有效表示是提升识别效果的关键。然而,手语动作时序长度的差异性及手语弱标注现象,使得有效的视觉特征提取更加困难。针对上述问题,提出了多尺度视觉特征提取及跨模态对齐的连续手语识别方法(MECA)。该方法主要包含多尺度视觉特征提取模型和跨模态对齐约束。在多尺度视觉特征提取模型中,并行地融合具备不同扩张因子的瓶颈残差结构,来丰富多尺度时序感受野,用于提取不同时序长度的手语视觉特征,同时采用层级复用设计进一步强化视觉特征表示。在跨模态对齐约束中,采用动态时间规整建模手语视觉特征和文本特征之间的内在联系,其中,文本特征提取由多层感知机和长短期记忆网络协作实现。在具备挑战性的公开数据集RWTH-2014、RWTH-2014T、CSL-Daily上进行实验,结果表明所提方法达到目前具有竞争力的性能。上述实验验证了所提的采用多尺度的方式可以捕捉不同时序长度的手语动作,以及构建跨模态对齐约束的思路是正确且有效的,适用于弱监督条件下的连续手语识别任务。 展开更多
关键词 连续手语识别 多尺度 跨模态对齐约束 视频视觉特征 文本特征
下载PDF
互动仪式链理论视角下短视频弹幕互动研究——以Bilibili情侣类视频为例 被引量:7
20
作者 汪雅倩 荣懋丹 《新闻与传播评论》 CSSCI 北大核心 2024年第1期56-70,共15页
移动视频社交时代,各类短视频平台涌现了大批极具影响力的“微名人”,新型互动文化随之产生。为了挖掘其特征属性,聚焦情侣视频博主及CP文化,以B站为例,基于互动仪式链理论视角,探讨情侣博主的内容特征及其与用户之间的互动模式。通过... 移动视频社交时代,各类短视频平台涌现了大批极具影响力的“微名人”,新型互动文化随之产生。为了挖掘其特征属性,聚焦情侣视频博主及CP文化,以B站为例,基于互动仪式链理论视角,探讨情侣博主的内容特征及其与用户之间的互动模式。通过参与式观察和内容分析法进行研究后发现:情侣博主的视频以情境互动类为主,视频主题倾向于搞怪、整蛊,视频基调突出较强的情绪特征。在此基础上,通过文本分析法挖掘弹幕类型、关键词等,并最终建立短视频平台情侣博主与用户之间的互动仪式链模型。基于综合研究方法,勾勒出短视频情侣博主与用户之间从启动到结果的完整互动仪式图景,揭示了互动仪式要素从“身体共同在场”到虚拟共同在场的转变,突出了虚拟场景和情感能量在移动视频社交时代的重要意义。 展开更多
关键词 短视频平台 情侣博主 弹幕互动 内容分析 文本挖掘
下载PDF
上一页 1 2 11 下一页 到第
使用帮助 返回顶部