基于关键视图的文本驱动3D场景编辑方法

A text-driven 3D scene editing method based on key views

下载PDF

导出

摘要基于去噪扩散模型的零样本图像编辑方法取得了瞩目的成就,将之应用于3D场景编辑可实现零样本的文本驱动3D场景编辑。然而,其3D编辑效果容易受扩散模型的3D连续性与过度编辑等问题影响,产生错误的编辑结果。针对这些问题,提出了一种新的文本驱动3D编辑方法,该方法从数据端着手,提出了基于关键视图的数据迭代方法与基于像素点的异常数据掩码模块。关键视图数据可以引导一个3D区域的编辑以减少3D不一致数据的影响,而数据掩码模块则可以过滤掉2D输入数据中的异常点。使用该方法,可以实现生动的照片级文本驱动3D场景编辑效果。实验证明,相较于一些目前先进的文本驱动3D场景编辑方法,可以大大减少3D场景中错误的编辑,实现更加生动的、更具真实感的3D编辑效果。此外,使用该方法生成的编辑结果更具多样性、编辑效率也更高。 The zero-shot image editing method based on denoising diffusion model has made remarkable achievements,and its application to 3D scene editing enables zero-shot text-driven 3D scene editing.However,its 3D editing results are easily affected by the 3D continuity of the diffusion model and over-editing,leading to erroneous editing results.To address these problems,a new text-driven 3D editing method was proposed,which started from the dataset and proposed key view-based data iteration and pixel-based abnormal data masking module.The key view data could guide the editing of a 3D area to minimize the effect of 3D inconsistent data,while the data masking module could filter out anomalies in the 2D input data.Using this method,vivid photo-quality text-driven 3D scene editing effects could be realized.Experiments have demonstrated that compared to some current advanced text-driven 3D scene editing methods,the erroneous editing in the 3D scenes could be greatly reduced,resulting in more vivid and realistic 3D editing effects.In addition,the editing results generated by the method in this paper were more diversified and more efficient.

作者张冀崔文帅张荣华王文彬李亚琦 ZHANG Ji;CUI Wenshuai;ZHANG Ronghua;WANG Wenbin;LI Yaqi(Department of Computer,North China Electric Power University,Baoding Hebei 071003,China;Hebei Key Laboratory of Knowledge Computing for Energy&Power,Baoding Hebei 071003,China;Engineering Research Center of Intelligent Computing for Complex Energy Systems,Ministry of Education,Baoding Hebei 071003,China)

机构地区华北电力大学计算机系河北省能源电力知识计算重点实验室复杂能源系统智能计算教育部工程研究中心

出处《图学学报》 CSCD 北大核心 2024年第4期834-844,共11页 Journal of Graphics

基金河北省科技计划资助项目(22310302D)。

关键词扩散模型文本驱动 3D场景编辑关键视图数据掩码 diffusion model text-driven 3D scene editing key views data mask

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1范腾,杨浩,尹稳,周冬明.基于神经辐射场的多尺度视图合成研究[J].图学学报,2023,44(6):1140-1148. 被引量：3
2岳明宇,高希峰,毕重科.三维建筑模型的低模网格生成[J].图学学报,2023,44(4):764-774. 被引量：2
3王吉,王森,蒋智文,谢志峰,李梦甜.基于深度条件扩散模型的零样本文本驱动虚拟人生成方法[J].图学学报,2023,44(6):1218-1226. 被引量：1

二级参考文献4

1张小蒙,方贤勇,汪粼波,田利利,孙有为.基于改进分段铰链变换的人体重建技术[J].图学学报,2020,41(1):108-115. 被引量：3
2常远,盖孟.基于神经辐射场的视点合成算法综述[J].图学学报,2021,42(3):376-384. 被引量：12
3蔡兴泉,霍宇晴,李发建,孙海燕.面向太极拳学习的人体姿态估计及相似度计算[J].图学学报,2022,43(4):695-706. 被引量：5
4王玉萍,曾毅,李胜辉,张磊.一种基于Transformer的三维人体姿态估计方法[J].图学学报,2023,44(1):139-145. 被引量：4

共引文献3

1於厚荣,彭茜.基于Cinema 4D的三维模型减面优化方法与实践[J].现代信息科技,2024,8(4):15-18.
2孙文权,刘佳,董炜娜,陈立峰,钮可.基于可逆神经网络的神经辐射场水印[J].计算机应用研究,2024,41(6):1840-1844.
3韩开,徐娟.3D场景渲染技术——神经辐射场的研究[J].计算机应用研究,2024,41(8):2252-2260.

1张君,范铭,金举.基于混合近邻局部分布差异的离群点检测算法[J].计算机与数字工程,2024,52(2):301-306.
2张海亮,程坚,高波,赵伟伟.公安视图数据与业务数据融合关键技术探索及应用[J].中国安防,2024(8):10-14.
3向茹梅,魏星,戴维,张丽君,徐玮,田杰,张宏伟,孙佳昕,石丘玲.医院麻醉信息系统数据科研化预处理方法探索[J].中国医院统计,2024,31(3):219-229.

图学学报

2024年第4期

浏览历史

内容加载中请稍等...

基于关键视图的文本驱动3D场景编辑方法

参考文献3

二级参考文献4

共引文献3

相关作者

相关机构

相关主题

浏览历史