基于字体字符属性引导的文本图像编辑方法

Text image editing method based on font and character attribute guidance

下载PDF

导出

摘要针对文本图像编辑任务中编辑前后文字风格样式不一致和生成的新文本可读性不足的问题,提出一种基于字体字符属性引导的文本图像编辑方法。首先,通过字体属性分类器结合字体分类、感知和纹理损失引导文本前景风格样式的生成方向,提升编辑前后的文字风格样式一致性;其次,通过字符属性分类器结合字符分类损失引导文字字形的准确生成,减小文本伪影与生成误差,并提升生成的新文本的可读性;最后,通过端到端微调的训练策略为整个分阶段编辑模型精炼生成结果。对比实验中,所提方法的峰值信噪比(PSNR)、结构相似度(SSIM)分别达到了25.48 dB、0.842,相较于SRNet(Style Retention Network)和SwapText分别提高了2.57 dB、0.055和2.11 dB、0.046;均方误差(MSE)为0.0043,相较于SRNet和SwapText分别降低了0.0031和0.0024。实验结果表明,所提方法能有效提升文本图像编辑的生成效果。 Aiming at the problems of inconsistent text style before and after editing and insufficient readability of the generated new text in text image editing tasks,a text image editing method based on the guidance of font and character attributes was proposed.Firstly,the generation direction of text foreground style was guided by the font attribute classifier combined with font classification,perception and texture losses to improve the consistency of text style before and after editing.Secondly,the accurate generation of text glyphs was guided by the character attribute classifier combined with the character classification loss to reduce text artifacts and generation errors,and improve the readability of generated new text.Finally,the end-to-end fine-tuned training strategy was used to refine the generated results for the entire staged editing model.In the comparison experiments with SRNet(Style Retention Network)and SwapText,the proposed method achieves PSNR(Peak Signal-to-Noise Ratio)and SSIM(Structural SIMilarity)of 25.48 dB and 0.842,which are 2.57 dB and 0.055 higher than those of SRNet and 2.11 dB and 0.046 higher than those of SwapText,respectively;the Mean Square Error(MSE)is 0.0043,which is 0.0031 and 0.024 lower than that of SRNet and SwapText,respectively.Experimental results show that the proposed method can effectively improve the generation effect of text image editing.

作者陈靖超徐树公丁友东 CHEN Jingchao;XU Shugong;DING Youdong(School of Communication and Information Engineering,Shanghai University,Shanghai 200444,China;Shanghai Film Academy,Shanghai University,Shanghai 200072,China)

机构地区上海大学通信与信息工程学院上海大学上海电影学院

出处《计算机应用》 CSCD 北大核心 2023年第5期1416-1421,共6页 journal of Computer Applications

关键词文本图像编辑字符识别字体识别多任务训练属性引导 text image editing character recognition font recognition multi-task training attribute guidance

分类号 TP183 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献2

1朱莉,陈宏,景小荣.任意方向自然场景文本识别[J].重庆邮电大学学报（自然科学版）,2022,34(1):125-133. 被引量：2
2师广琛,巫义锐.像素聚合和特征增强的任意形状场景文本检测[J].中国图象图形学报,2021,26(7):1614-1624. 被引量：6

共引文献6

1冷莉,邹威.面向自然场景的多语言文本特征自动检测研究[J].自动化与仪器仪表,2021(12):24-27. 被引量：1
2胡高丽,文成玉.自然场景下交通标识文本检测与识别算法研究[J].成都信息工程大学学报,2022,37(2):171-176. 被引量：4
3梁浩然,叶凌晨,梁荣华,陈龙,吴昊.注意力监督策略下的自然场景文本检测算法[J].计算机辅助设计与图形学学报,2022,34(7):1011-1019. 被引量：3
4李雨,闫甜甜,周东生,魏小鹏.基于注意力机制与深度多尺度特征融合的自然场景文本检测[J].图学学报,2023,44(3):473-481. 被引量：3
5王紫霄,谢洪涛,王裕鑫,张勇东.层级语义融合的场景文本检测[J].中国图象图形学报,2023,28(8):2343-2355. 被引量：2
6张蝶依.基于深度学习的自然场景文本检测与识别研究[J].移动信息,2024,46(6):245-247.

1桂婷婷,杨占.医学文献机器翻译的常见错误及译前编辑途径探索——以谷歌翻译为例[J].英语广场（学术研究）,2023(13):37-40.
2李宗霖,张盛平,刘杨,张兆心,张维刚,黄庆明.基于多级残差映射器的文本驱动人脸图像生成和编辑[J].软件学报,2023,34(5):2101-2115. 被引量：4
3刘阳,陆志扬,王骏,施俊.基于自注意力连接UNet的磁共振成像去吉布斯伪影算法[J].计算机应用,2023,43(5):1606-1611. 被引量：1
4魏慧,梁志文,高佳琦,聂鑫,张盛,朱志超.瓦里安新型锥形束迭代重建算法的图像质量分析[J].现代肿瘤医学,2023,31(10):1899-1903. 被引量：2
5高定国,侯闫,高红梅,索朗曲珍.乌梅印刷多字体藏文文本的检测与识别[J].高原科学研究,2023,7(1):92-100. 被引量：2
6张婷,张兴忠,王慧民,杨罡,王大伟.基于图神经网络的变电站场景三维目标检测[J].计算机工程与应用,2023,59(9):329-336. 被引量：5
7黄亚群,罗俊,蒋慕蓉,杨磊,郑培煜.结合GAN和风格迁移的太阳斑点图重建方法[J].计算机技术与发展,2023,33(5):49-55.
8赵威.计算机视频修复技术研究[J].中国新技术新产品,2023(4):28-30.
9夏玲,李宜蔓,李弘武.人工智能背景下科技论文摘要的机器翻译与译后编辑[J].编辑学报,2022,34(4):396-401. 被引量：14
10王先林.卷首语[J].竞争法律与政策评论,2022(1):1-2.

计算机应用

2023年第5期

浏览历史

内容加载中请稍等...

基于字体字符属性引导的文本图像编辑方法

参考文献2

共引文献6

相关作者

相关机构

相关主题

浏览历史