期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
电影智能化制作新机遇:CVPR 2024多模态技术发展综述
1
作者 谢志峰 余盛叶 《现代电影技术》 2024年第7期12-20,共9页
为了探讨电影智能化制作新机遇,本文深入分析2024年国际计算机视觉与模式识别会议(CVPR)中多模态领域前沿技术成果。具体而言,本文聚焦视觉、文本和音频三个模态的研究与多模态技术在电影制作领域的重要应用:视频生成、视频编辑和预告... 为了探讨电影智能化制作新机遇,本文深入分析2024年国际计算机视觉与模式识别会议(CVPR)中多模态领域前沿技术成果。具体而言,本文聚焦视觉、文本和音频三个模态的研究与多模态技术在电影制作领域的重要应用:视频生成、视频编辑和预告片剪辑技术,视频描述生成和视频内容解读技术,以及声画同步、音效生成和视频配乐技术。研究表明,电影制作过程与多模态技术的融合应用不仅大幅提高制作效率,也将显著增强艺术表现力。最后,本文总结了当前面临的多模态技术挑战,并展望了相关技术在未来电影制作中的发展方向。 展开更多
关键词 人工智能 电影制作 多模态技术 大语言模型 计算机视觉
下载PDF
基于LD特征引导NeRF的可操控语音驱动人脸重演
2
作者 郑迦恒 余盛叶 谢志峰 《工业控制计算机》 2023年第10期58-60,共3页
语音驱动的人脸重演的目标是通过输入一段任意语音,驱动目标人物重演相应表情。现有方法无法仅以一段自然场景下视频作为训练素材,实现可操控的高保真语音驱动人脸重演,为此,提出了一种基于LD特征的语音驱动人脸重演方法。首先,对输入... 语音驱动的人脸重演的目标是通过输入一段任意语音,驱动目标人物重演相应表情。现有方法无法仅以一段自然场景下视频作为训练素材,实现可操控的高保真语音驱动人脸重演,为此,提出了一种基于LD特征的语音驱动人脸重演方法。首先,对输入视频进行人脸对齐,检测人脸关键点并提取LD特征;然后,通过音频特征提取模块将输入音频映射为一段64维的潜码,构建基于多层感知机的编码器和解码器,由解码器将潜码解码为LD特征后,通过编码器将其还原为潜码表示;接着,将更新后的潜码输入基于网格的NeRF获得采样点密度和颜色,通过体绘制输出头部重演RGB帧;同时,将姿势输入身体变形模块,合成重演帧的身体部分。实验结果证明,方法能够根据输入语音内容生成高保真重演结果,并且在重演过程中能够对目标人物的面部表情进行个性化控制。 展开更多
关键词 语音驱动人脸重演 神经辐射场 人脸关键点
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部