-
题名基于特征提取和机器学习的文档区块图像分类算法
被引量:17
- 1
-
-
作者
李翌昕
邹亚君
马尽文
-
机构
北京大学数学科学学院信息科学系和数学及其应用教育部重点实验室
-
出处
《信号处理》
CSCD
北大核心
2019年第5期747-757,共11页
-
基金
国家自然科学基金(U1604153)资助
-
文摘
文档区块图像分类对于文档版面图像的理解和分析至关重要。在传统机器学习分类模型中,直接使用图像作为输入会导致学习模型参数量过大而无法进行有效的训练。为了克服这个困难,我们针对文档区块图像设计了一组有效的特征,并提出了基于这些特征和机器学习的文档区块分类算法。在特征设计上,我们提取了几何、灰度、区域、纹理和内容五方面在内的32种特征,以增强特征针对区块类别的分辨能力。在分类器方面,我们在所提出的特征上对传统机器学习分类模型、自动机器学习方法以及深度学习均进行了实验。在公开数据集上的实验结果表明,我们提出的文档版面区块分类算法具有很高的分类准确率,并且效率很高。另外,我们实现了一个简单的分步文档版面分析算法,以展示所提出的区块分类算法的推广能力。
-
关键词
文档版面分析
文档区块分类
特征提取
机器学习
图像分类
-
Keywords
page layout analysis
document region classification
feature extraction
machine learning
image classification
-
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
TP181
[自动化与计算机技术—控制理论与控制工程]
-