-
题名藏文手写乌梅体古籍文献文本识别方法研究
- 1
-
-
作者
扎西多吉
格桑多吉
杨宇帆
白玛旺久
-
机构
西藏大学信息科学技术学院
-
出处
《计算机仿真》
2024年第10期232-236,共5页
-
基金
国家自然科学基金项目(62066042)。
-
文摘
藏文文献是藏民族传统文化的重要载体,数量在国内仅次于汉语,其中手写文献占有一定比例。文献数字化能够有效缓解藏文文献资源“藏”与“用”的矛盾,对藏文化挖掘、保护、传播、利用有重要作用和意义。目前藏文手写乌梅体文本识别研究甚少,导致文献数字化主要靠人工录入。在分析藏文手写乌梅体古籍文献特点的基础上,其首先标注8466张藏文手写乌梅体古籍文献文本行图片,同时合成多粒度文本行数据共623257张,然后针对藏文手写乌梅体古籍文献识别难点,提出一种基于VITSTR的新识别方法。经试验,方法的准确率达到81.44%,对藏文手写乌梅体文本中存在的长尾分布、相似字符多等问题有较好的表现,并且具有较好的泛化能力。
-
关键词
手写乌梅体
文本识别
模型训练
-
Keywords
Handwritten umei
Text recognition
Model traning
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名藏文手写乌梅体字母预处理和特征提取研究
被引量:2
- 2
-
-
作者
扎西多吉
格桑多吉
西热旦增
米次
-
机构
西藏大学信息科学技术学院
西藏大学图书馆
-
出处
《高原科学研究》
CSCD
2021年第4期104-110,共7页
-
基金
国家自然科学基金项目(62066042,61961038)
西藏大学科研培育基金项目(ZDQMJH21-13)。
-
文摘
文章以藏文手写乌梅体辅音字母为研究对象,构建一个小样本图像数据集,共包含30个类别,每类有13个样本。分析藏文手写乌梅体字符特征基础上,利用灰度化、尺寸归一化、二值化和取反、位置对齐、图像细化和主轴方向校正等方法首先对乌梅体字体进行预处理,再利用Hu不变矩和Hog特征法提取手写体字符特征。实验表明,在预处理中图像细化(骨架提取)和主轴方向校正等常用的预处理方法并不能提高手写乌梅体字母识别率,而位置对齐的处理能够显著提升手写乌梅体字母识别率,在特征提取中Hog特征对纹理复杂的手写乌梅体特征描述力较强,实验中表现最佳,SVM分类器上识别率能够达到87%。
-
关键词
藏文
手写乌梅体
预处理
特征提取
-
Keywords
Tibetan
handwritten wumei
Pre-processing
feature extraction
-
分类号
TP391.43
[自动化与计算机技术—计算机应用技术]
-