期刊文献+

面向满文字符识别的训练数据增广方法研究 被引量:7

Research on Training Data Augmentation Methods for Manchu Character Recognition
下载PDF
导出
摘要 为解决采用深度学习方法研究满文识别中训练样本匮乏的问题,提出一种使用数据增广方法扩展训练样本集的技术框架。该框架包括字体几何结构变形与图像质量变换两个模块,采用仿射变换、弹性形变等9种数据生成方法,分别模拟满文字符图像的笔画粗细变化、扭曲变形、光照不均、不同视角及背景等情况下的采集效果。在满文识别的研究中,采用该方法将每个类别的字符数据量扩展到7万个。实验表明,该方法生成的数据在一定程度上弥补了训练样本不足的问题,是解决训练样本匮乏问题的有效技术手段。 In order to solve the insufficient training data problem on Manchu character recognition using deep learning method,this paper proposed a technical framework to expand training data using data augmentation methods. The framework consists of two modules: character structure distortion and image quality transformation. There are 9 synthetic data generating methods in the framework,e. g. affine transformation,elastic deformation and so on,which simulate various effects during Manchu word images collection respectively,such as stroke thickness variation,font distortion,uneven illumination,different perspectives and backgrounds. For each class of Manchu words,we gained 70,000 synthetic samples via the data augmentation framework for a study on Manchu word recognition. Experiments demonstrate that,to a certain degree,the synthetic data yielded with the proposed data augmentation framework can expand training set. The proposed data augmentation methods are also effective ways to solve insufficient training data problem.
出处 《大连民族大学学报》 2018年第1期73-78,共6页 Journal of Dalian Minzu University
基金 国家自然科学基金青年基金项目(61702081) 辽宁省自然科学基金指导计划(201602205 2015020084) 辽宁省教育厅科学研究项目(L2015127) 中央高校基本科研业务费专项资金资助项目(DC201502060202 DC201502060407 DC201502060301) 大连市青年科技之星项目(2016RQ072)
关键词 光学字符识别 满文识别 数据增广 数据生成 optical character recognition Manchu recognition data augmentation synthetic data
  • 相关文献

参考文献3

二级参考文献169

共引文献112

同被引文献56

引证文献7

二级引证文献23

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部