-
题名一种基于CTPN网络的文档图像标题检测算法
被引量:2
- 1
-
-
作者
郝聚涛
段静文
陈超
陈鸿龙
-
机构
上海电机学院电子信息学院
上海思贤信息技术有限公司
-
出处
《电子技术与软件工程》
2021年第5期175-176,共2页
-
基金
上海电机学院博士科研启动基金(20200110)
-
文摘
文档图像标题检测作为文档版面分析的特定应用在信息检索、机器翻译等方面存在广泛应用,也是学术研究的热点之一。传统基于规则的文档图像标题检测算法存在因为规则覆盖率有限导致算法泛化能力差的问题。本文提出一种基于CTPN的文档图像标题检测算法,首先检测图像中文本块,将每个文本块位置信息转化为标题检测模型所需的特征向量,并形成训练样本集,利用随机森林分类器学习样本分布。该算法结合了神经网络和随机森林分类器,算法泛化能力强,同时在给定样本分布下,标题检测算法具有较优的性能,可用于一般场景下文本图像标题检测。
-
关键词
标题检测
神经网络
文本行特征工程
分类算法
-
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
-