-
题名古代汉字文献切分研究
被引量:8
- 1
-
-
作者
倪恩志
蒋旻隽
周昌乐
-
机构
厦门大学信息科学与技术学院
上海应用技术学院计算机科学与信息工程学院
-
出处
《计算机工程与应用》
CSCD
2013年第2期29-33,38,共6页
-
基金
国家自然科学基金(No.6097507)
-
文摘
针对古代汉字文档的特点,提出了适合于古文档的列切分方法和字切分方法。提出的列切分方法直接对文档的笔画投影进行分析,采用一种基于分层投影过滤和变长间隙阈值的递归切分算法。该算法在列间隔较小、列与格线存在粘连、文档具有一定程度的倾斜的情况下,也能准确地抽取出列,尤其对短列的切分达到了较好的效果。提出的字切分方法分为两步,进行粗切分确定大致的切分位置,采用基于连通域分析与粘连点判断的方法做进一步的细切分。该算法对具有较多粘连和重叠汉字的列,也能较好地切分出完整的单字。实验结果表明,提出的方法用于古代汉字文档切分能够获得较好的效果。
-
关键词
文档图像处理
文档切分
古籍数字化
-
Keywords
document image processing
Chinese character segmentation
ancient books digitalization
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-