基于跨模态互译渲染模型的预训练视觉翻译技术

Pre-trained Visual Translation Technology Based on Cross-modal Translation Rendering Model

下载PDF

导出

摘要如何在保证风格不变的情况下将图片中的外文替换为中文是一个有趣并富有挑战的问题。为此,针对图像中文本的跨语言转换提出一种预训练视觉翻译技术,结合文字检测、字体识别、OCR、图像修复、机器翻译及图像渲染技术构建跨模态自适应互译渲染模型,以保持原文风格和排版样式。首先使用EAST算法定位并提取文字区域;其次采用ResNet识别字体样式,CTC-OCR提取文字内容并由GPT模型进行翻译;最后由LaMa算法修复文字区域后,采用区域坐标渲染算法将翻译文字融入修复图像,实现高质量视觉翻译。由评估员对翻译效果进行定量评估,该方法主观评估分数达到7.90,具有较高准确性。 How to replace foreign language in images with Chinese while maintaining the same style is an interesting and challenging problem.To this end,a pre trained visual translation technique is proposed for cross language conversion of text in images to maintain the original text style and layout style.Build a cross modal adaptive translation rendering model by combining text detection,font recognition,OCR,image res-toration,machine translation,and image rendering technologies.Firstly,use EAST algorithm to locate and extract text regions;Then,ResNet is used to recognize font styles,while CTC-OCR extracts text content and translates it into GPT;Finally,after repairing the text area using the LaMa algorithm,the region coordinate rendering algorithm is used to integrate the translated text into the repaired image,achieving high-qual-ity visual translation.The method of quantitatively evaluating translation effectiveness by evaluators has a subjective evaluation score of 7.90,indicating high accuracy.

作者屈梦楠靳宇浩胡勃宁 QU Mengnan;JIN Yuhao;HU Boning(School of Information Science and Engineering,Hebei University of Science and Technology,Shijiazhuang 050018,China)

机构地区河北科技大学信息科学与工程学院

出处《软件导刊》 2024年第6期59-66,共8页 Software Guide

关键词视觉翻译多模态 GPT 中文翻译神经网络 visual translation multi-modal GPT Chinese translation neural network

分类号 TP391.4 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1白志程,李擎,陈鹏,郭立晴.自然场景文本检测技术研究综述[J].工程科学学报,2020,42(11):1433-1448. 被引量：12
2黄海丰,刘培森,李擎,于欣波.协作机器人智能控制与人机交互研究综述[J].工程科学学报,2022,44(4):780-791. 被引量：18

二级参考文献17

1戴津.自然场景中文本检测技术研究综述[J].计算机光盘软件与应用,2013,16(18):104-104. 被引量：3
2王润民,桑农,丁丁,陈杰,叶齐祥,高常鑫,刘丽.自然场景图像中的文本检测综述[J].自动化学报,2018,44(12):2113-2141. 被引量：53
3李宝全,方勇纯,张雪波.基于2D三焦点张量的移动机器人视觉伺服镇定控制[J].自动化学报,2014,40(12):2706-2715. 被引量：9
4尹宝才,王文通,王立春.深度学习研究综述[J].北京工业大学学报,2015,41(1):48-59. 被引量：383
5郑文昊,贾英民.具有状态约束与输入饱和的全向移动机器人自适应跟踪控制[J].工程科学学报,2019,41(9):1176-1186. 被引量：13
6卓力,龙海霞,彭远帆,李晓光,张菁.加密域图像处理综述[J].北京工业大学学报,2016,42(2):174-183. 被引量：3
7李建更,李立杰,张岩,王朋飞,左国玉.适用于具有多分类器的卷积神经网络训练方法[J].北京工业大学学报,2018,44(10):1291-1296. 被引量：6
8余峥,王晴晴,吕岳.基于特征融合网络的自然场景文本检测[J].计算机系统应用,2018,27(10):1-10. 被引量：3
9李树春,张静,张华,刘满禄,杨厚易,刘理想.面向机器人抓取过程中目标位姿估计方法[J].传感器与微系统,2019,38(7):32-34. 被引量：14
10牛作东,李捍东.引入注意力机制的自然场景文本检测算法研究[J].计算机应用与软件,2019,36(9):198-203. 被引量：5

共引文献28

1孟月波,石德旺,刘光辉,徐胜军,金丹.多维度卷积融合的密集不规则文本检测[J].光学精密工程,2021,29(9):2210-2221. 被引量：6
2胡巧遇,仝明磊.基于高斯密度图估计的自然场景汉字检测[J].计算机应用研究,2022,39(2):623-627. 被引量：2
3王明宇.基于深度学习的自然场景多方向文本检测与识别[J].电子技术与软件工程,2021(24):93-96. 被引量：1
4郭婧,周斌.基于OCR的运动员心率图的实现[J].信息技术与信息化,2022(5):29-32.
5王戈,黄浩,汪沛洁,郑昕.基于DBNet和CRNN算法的端到端企业实体识别[J].湖北大学学报（自然科学版）,2022,44(4):481-488. 被引量：1
6郑泽凡,谷飞飞,王思成,宋展.基于三维视觉的机器人安全预警系统[J].集成技术,2022,11(4):80-91. 被引量：1
7李虎.基于SLAM导航和人脸识别的家庭服务机器人设计研究[J].信息与电脑,2022,34(13):127-130. 被引量：1
8蔡玉宝,李德峰,王宁,杜会盈,徐聪.雷达态势图像表格检测与识别[J].指挥控制与仿真,2022,44(6):110-114.
9葛先雷,杨帅斌.基于CNN的手写中文数字识别研究[J].太原师范学院学报（自然科学版）,2022,21(4):53-57. 被引量：1
10李润泽,钱仕德,逯汉宁.汽车智能制造中协作机器人的任务分配问题研究[J].微特电机,2023,51(1):61-68. 被引量：2

1谢婷,徐旭,张佳祺.翻译技术课程思政建设探究[J].河南教育（高教版）（中）,2024(5):95-96.
2谷红梅,陈瑞瑞.探索人工智能技术在传统美术类非遗中的应用[J].中文科技期刊数据库（文摘版）社会科学,2024(6):0150-0153.
3俞婷宁.政治文献用典英译探析[J].中国翻译,2024,45(1):145-151.
4《铁道勘测与设计》编辑部.《铁道勘测与设计》投稿说明[J].铁道勘测与设计,2024(1).
5《铁道勘测与设计》编辑部.《铁道勘测与设计》投稿说明[J].铁道勘测与设计,2024(2).
6肖宛霖,马境苑,崔馨月,胡杨安.目的论视角下北京市非遗项目英译研究[J].现代语言学,2024,12(5):229-236.
7王琪.基于权值共享的中朝神经机器翻译方法[J].长江信息通信,2024,37(5):98-100.
8曹倩.中西方文化差异对茶文化英语翻译的影响[J].福建茶叶,2024,46(6):153-155.
9《铁道勘测与设计》编辑部.《铁道勘测与设计》投稿说明[J].铁道勘测与设计,2024(4).
10《铁道勘测与设计》编辑部.《铁道勘测与设计》投稿说明[J].铁道勘测与设计,2024(3).

软件导刊

2024年第6期

浏览历史

内容加载中请稍等...

基于跨模态互译渲染模型的预训练视觉翻译技术

参考文献2

二级参考文献17

共引文献28

相关作者

相关机构

相关主题

浏览历史