面向满文字符识别的训练数据增广方法研究被引量：7

Research on Training Data Augmentation Methods for Manchu Character Recognition

下载PDF

导出

摘要为解决采用深度学习方法研究满文识别中训练样本匮乏的问题,提出一种使用数据增广方法扩展训练样本集的技术框架。该框架包括字体几何结构变形与图像质量变换两个模块,采用仿射变换、弹性形变等9种数据生成方法,分别模拟满文字符图像的笔画粗细变化、扭曲变形、光照不均、不同视角及背景等情况下的采集效果。在满文识别的研究中,采用该方法将每个类别的字符数据量扩展到7万个。实验表明,该方法生成的数据在一定程度上弥补了训练样本不足的问题,是解决训练样本匮乏问题的有效技术手段。 In order to solve the insufficient training data problem on Manchu character recognition using deep learning method,this paper proposed a technical framework to expand training data using data augmentation methods. The framework consists of two modules： character structure distortion and image quality transformation. There are 9 synthetic data generating methods in the framework,e. g. affine transformation,elastic deformation and so on,which simulate various effects during Manchu word images collection respectively,such as stroke thickness variation,font distortion,uneven illumination,different perspectives and backgrounds. For each class of Manchu words,we gained 70,000 synthetic samples via the data augmentation framework for a study on Manchu word recognition. Experiments demonstrate that,to a certain degree,the synthetic data yielded with the proposed data augmentation framework can expand training set. The proposed data augmentation methods are also effective ways to solve insufficient training data problem.

作者毕佳晶李敏郑蕊蕊许爽贺建军黄荻

机构地区大连民族大学信息与通信工程学院北方民族大学数学与信息科学学院

出处《大连民族大学学报》 2018年第1期73-78,共6页 Journal of Dalian Minzu University

基金国家自然科学基金青年基金项目(61702081) 辽宁省自然科学基金指导计划(201602205 2015020084) 辽宁省教育厅科学研究项目(L2015127) 中央高校基本科研业务费专项资金资助项目(DC201502060202 DC201502060407 DC201502060301) 大连市青年科技之星项目(2016RQ072)

关键词光学字符识别满文识别数据增广数据生成 optical character recognition Manchu recognition data augmentation synthetic data

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1金连文,钟卓耀,杨钊,杨维信,谢泽澄,孙俊.深度学习在手写汉字识别中的应用综述[J].自动化学报,2016,42(8):1125-1141. 被引量：109
2郑蕊蕊,李敏,吴宝春.基于MATLAB GUI的少数民族文字手写体采集系统——以满文为例[J].大连民族学院学报,2014,16(3):306-309. 被引量：4
3周兴华,李敏,郑蕊蕊,许爽,胡艳霞.印刷体满文文字数据库的构建与实现[J].大连民族学院学报,2015,17(3):270-273. 被引量：4

二级参考文献169

1刘赛,李益东.彝文文字识别中的文字切分算法设计与实现[J].中南民族大学学报（自然科学版）,2007,26(3):70-72. 被引量：14
2王华,丁晓青,哈力木拉提.多字体多字号印刷维吾尔文字符识别[J].清华大学学报（自然科学版）,2004,44(7):946-949. 被引量：18
3王华,丁晓青.一种多字体印刷藏文字符识别方法[J].计算机工程,2004,30(13):18-20. 被引量：10
4钱跃良,林守勋,刘群,刘洋,刘宏,谢萦.863计划中文信息处理与智能人机接口基础数据库的设计和实现[J].高技术通讯,2005,15(1):107-110. 被引量：4
5赵骥,王丽君,李晶皎.基于统计的满文识别后处理的研究和实现[J].鞍山科技大学学报,2005,28(6):444-446. 被引量：1
6吴刚,德熙嘉措,黄鹤鸣.印刷体藏文识别技术[J].青海师范大学学报（自然科学版）,2006,22(1):32-37. 被引量：7
7魏宏喜,高光来.印刷体蒙古文字识别中蒙古文字特征的选择[J].内蒙古大学学报（自然科学版）,2006,37(6):694-697. 被引量：8
8张广渊,李晶皎,王爱侠.脱机手写满文笔画基元的提取和识别[J].计算机工程,2007,33(22):200-202. 被引量：6
9LIN W S, JAY K C C. Perceptual Visual Quality Met- rics : A Survey [ J ]. Journal of Visual Communication and Image Representation, 2011,22 (4) :297 - 312.
10刘芳,欧珠.藏文文字识别系统中的数字图像预处理方法研究[J].西藏大学学报,2006,22(13):257-264.

共引文献112

1尹萍,杨为进.加强创新意识,重视仪器研制工作[J].现代科学仪器,2000,17(1):3-4. 被引量：3
2王润民,桑农,丁丁,陈杰,叶齐祥,高常鑫,刘丽.自然场景图像中的文本检测综述[J].自动化学报,2018,44(12):2113-2141. 被引量：51
3韩丰,龙明盛,李月安,薛峰,王建民.循环神经网络在雷达临近预报中的应用[J].应用气象学报,2019,30(1):61-69. 被引量：47
4周兴华,李敏,郑蕊蕊,许爽,胡艳霞.印刷体满文文字数据库的构建与实现[J].大连民族学院学报,2015,17(3):270-273. 被引量：4
5王帆,李敏,丁纪峰,许爽,郑蕊蕊.手写满文字母采集系统的设计与实现[J].大连民族大学学报,2016,18(5):513-516. 被引量：2
6潘浩,王昭.基于深度学习的肺癌细胞检测方法研究[J].自动化与仪器仪表,2017,0(3):196-197. 被引量：5
7索南尖措,关白,李雷,山发富.藏文联机手写识别的研究与实现[J].计算机时代,2017(7):10-12. 被引量：1
8谷宁馨,王帆,李敏.嵌入式手写满文单词录入系统设计与实现[J].智能计算机与应用,2017,7(4):121-123.
9董水龙,李海生,祝晓斌,蔡强.利用CNN特征和BoWs的三维模型检索算法[J].广西大学学报（自然科学版）,2017,42(5):1787-1792. 被引量：3
10周成伟.基于卷积神经网络的自然场景中数字识别[J].计算机技术与发展,2017,27(11):101-105. 被引量：16

同被引文献56

1王蓬辉,李明正,李思.基于数据增强的中文医疗命名实体识别[J].北京邮电大学学报,2020,43(5):84-90. 被引量：12
2向晓雯,史晓东,曾华琳.一个统计与规则相结合的中文命名实体识别系统[J].计算机应用,2005,25(10):2404-2406. 被引量：37
3杨明,刘强,尹忠科,王建英.基于轮廓追踪的字符识别特征提取[J].计算机工程与应用,2007,43(20):207-209. 被引量：7
4万玉丽,谢金法.一种基于PERCLOS驾驶员疲劳检测方法的实现算法[J].农业装备技术,2009,35(2):25-28. 被引量：7
5郭永彩,李文涛,高潮.基于PERCLOS的驾驶员疲劳检测算法[J].计算机系统应用,2009,18(8):54-57. 被引量：24
6徐来,周德龙.人眼检测技术的方法研究[J].计算机系统应用,2010,19(6):226-232. 被引量：16
7鲍虎欣.论满文档册及其史学功能[J].河南工程学院学报（社会科学版）,2012,27(4):67-69. 被引量：2
8王玮,刘琪,丁建乐,房金岑.渔业术语标准探讨[J].中国渔业质量与标准,2012,2(4):6-10. 被引量：1
9赵元庆,吴华.多尺度特征和神经网络相融合的手写体数字识别[J].计算机科学,2013,40(8):316-318. 被引量：14
10阎崇年.满文的创制与价值[J].故宫博物院院刊,2002(2):42-49. 被引量：5

引证文献7

1魏小娜,李英豪,王振宇,李皓尊,汪红志.医学影像人工智能辅助诊断的样本增广方法[J].计算机应用,2019,39(9):2558-2567. 被引量：5
2林恒青,郑晓斌,王麟珠,戴立庆.基于深度卷积神经网络和随机弹性变换的脱机手写形近汉字识别[J].兰州工业学院学报,2020,27(3):62-67. 被引量：3
3杨鹤,于红,刘巨升,杨惠宁,孙哲涛,程名,任媛,张思佳.基于BERT+BiLSTM+CRF深度学习模型和多元组合数据增广的渔业标准命名实体识别[J].大连海洋大学学报,2021,36(4):661-669. 被引量：10
4孙凯明,刘彤军,郝明,王刚.基于机器视觉的钢包号识别方法[J].自动化技术与应用,2022,41(5):26-28. 被引量：1
5刘兴丽,范俊杰,马海群.面向小样本命名实体识别的数据增强算法改进策略研究[J].数据分析与知识发现,2022,6(10):128-141. 被引量：4
6孙凯明,孙磊,王刚,张丽娜,郝明,邢芳芳.面向满文档案图像的手写体满文智能识别软件设计与实现[J].自动化技术与应用,2024,43(1):91-94.
7尹真杰,刘明方,高峰,张皓天.一种基于面部特征点的疲劳人脸图像检测与识别改进算法研究[J].计算机科学与应用,2021,11(7):2019-2027.

二级引证文献23

1靳树强,樊季长,谷红伟.数智化系统在黑炭沟监装站的应用[J].洁净煤技术,2023,29(S02):834-838.
2肖儿良,周莹,简献忠.迁移学习与GAN结合的医学图像融合模型[J].小型微型计算机系统,2020,41(9):1972-1978. 被引量：9
3姜雪,李王佳,魏淼,吕发金.容积CT数字减影血管造影与人工智能技术对头颈CTA减影效果的比较[J].中国医疗设备,2020,35(10):113-116. 被引量：6
4管小卫,丁琳.基于胶囊网络与深度置信网络融合模型的手写汉字识别[J].软件工程,2021,24(10):18-22. 被引量：1
5杨鹤,于红,孙哲涛,刘巨升,杨惠宁,张思佳,孙华,姜鑫,于英囡.基于双重注意力机制的渔业标准实体关系抽取[J].农业工程学报,2021,37(14):204-212. 被引量：14
6甘恒,黎曙,张松华,郭婷.基于优化二叉树SVM脱机手写体汉字粗分类研究[J].电子技术与软件工程,2022(8):179-183.
7徐峥匀,钱松荣.基于迁移学习和Xception网络的混凝土裂纹识别研究[J].软件工程,2022,25(7):15-18. 被引量：2
8刘巨升,杨惠宁,孙哲涛,杨鹤,邵立铭,于红,张思佳,叶仕根.面向知识图谱构建的水产动物疾病诊治命名实体识别[J].农业工程学报,2022,38(7):210-217. 被引量：10
9刘巨升,于红,杨惠宁,邵立铭,宋奇书,李光宇,张思佳,孙华.基于多核卷积神经网络(BERT+Multi-CNN+CRF)的水产医学嵌套命名实体识别[J].大连海洋大学学报,2022,37(3):524-530. 被引量：10
10刘兴丽,范俊杰,马海群.面向小样本命名实体识别的数据增强算法改进策略研究[J].数据分析与知识发现,2022,6(10):128-141. 被引量：4

1陈晏堂.“小名片”中的“大科技”[J].上海信息化,2017,0(10):68-71.
2凌华科技智能制造解决方案DEX-100[J].自动化博览,2017,34(12):8-8.
3周玮,宋启祥.车牌检测中小波变换改进算法[J].蚌埠学院学报,2017,6(6):26-29.
4蒋映.数据决策系统在高校管理中的应用研究[J].电脑迷,2017(5):127-127.
5商明慧.汉王OCR文字识别软件使用技巧[J].广东印刷,2018(1):38-39. 被引量：1
6曹旭峰,江国华.一种适用于流式大数据系统测试的数据生成方法[J].计算技术与自动化,2017,36(3):139-145. 被引量：3
7庄艳.严重肺部感染机械通气患者不同时机血气分析采集效果探析[J].实用临床护理学电子杂志,2017,2(33):13-13. 被引量：2
8英国：研究证明扩展训练有助于脊髓损伤者神经恢复[J].中国残疾人,2017,0(12):28-28.
9郑俊,杨志强,张凯南.三维激光扫描仪在道路工程中的应用分析[J].北京测绘,2017,31(01S):106-109. 被引量：10
10郭琳.基于二维码技术的访客系统的设计与实现[J].电脑知识与技术,2017,13(7X):93-96.

大连民族大学学报

2018年第1期

浏览历史

内容加载中请稍等...

面向满文字符识别的训练数据增广方法研究被引量：7

参考文献3

二级参考文献169

共引文献112

同被引文献56

引证文献7

二级引证文献23

相关作者

相关机构

相关主题

浏览历史

面向满文字符识别的训练数据增广方法研究 被引量：7

参考文献3

二级参考文献169

共引文献112

同被引文献56

引证文献7

二级引证文献23

相关作者

相关机构

相关主题

浏览历史

面向满文字符识别的训练数据增广方法研究被引量：7