摘要
文档图像标题检测作为文档版面分析的特定应用在信息检索、机器翻译等方面存在广泛应用,也是学术研究的热点之一。传统基于规则的文档图像标题检测算法存在因为规则覆盖率有限导致算法泛化能力差的问题。本文提出一种基于CTPN的文档图像标题检测算法,首先检测图像中文本块,将每个文本块位置信息转化为标题检测模型所需的特征向量,并形成训练样本集,利用随机森林分类器学习样本分布。该算法结合了神经网络和随机森林分类器,算法泛化能力强,同时在给定样本分布下,标题检测算法具有较优的性能,可用于一般场景下文本图像标题检测。
出处
《电子技术与软件工程》
2021年第5期175-176,共2页
ELECTRONIC TECHNOLOGY & SOFTWARE ENGINEERING
基金
上海电机学院博士科研启动基金(20200110)