-
题名自然场景文本检测关键技术及应用
被引量:3
- 1
-
-
作者
易尧华
杨锶齐
王新宇
汤梓伟
-
机构
武汉大学印刷与包装系
-
出处
《数字印刷》
北大核心
2020年第4期1-11,22,共12页
-
文摘
场景文本信息理解是计算机视觉任务(诸如智能导航等)的基础,基于卷积神经网络的自然场景图像文本检测是计算机视觉领域的研究热点。本文梳理自然场景文本检测方法体系,归纳总结场景文本检测方法、评价协议及测试数据集;阐述分析自然场景文本检测的关键技术及应用领域;展望自然场景文本检测的发展趋势。
-
关键词
自然场景
卷积神经网络
文本检测
关键技术
-
Keywords
Natural scene
Convolutional neural network
Text detection
Key technology
-
分类号
P208
[天文地球—地图制图学与地理信息工程]
-
-
题名嵌入注意力机制的自然场景文本检测方法
被引量:7
- 2
-
-
作者
杨锶齐
易尧华
汤梓伟
王新宇
-
机构
武汉大学印刷与包装系
-
出处
《计算机工程与应用》
CSCD
北大核心
2021年第24期185-191,共7页
-
基金
国家科技重大专项(2017ZX01030102)。
-
文摘
针对自然场景文本检测中存在的文本检测信息缺失、漏检的问题,提出了嵌入注意力机制的自然场景文本检测方法。利用Faster-RCNN目标检测网络和特征金字塔网络(FPN)作为基本框架;在区域建议网络(RPN)中嵌入注意力机制并依据文本的特点改进锚点(anchor)的设置,精确了文本候选区域;重新设定损失函数的作用范围。实验结果表明,该方法有效地保证文本检测信息的完整性,较之现有方法明显地提高了文本检测的召回率和准确率,能够应用于文本检测的实际任务中。
-
关键词
自然场景文本检测
特征金字塔网络
区域建议网络
注意力机制
-
Keywords
natural scene text detection
feature pyramid network
region proposal network
attention mechanism
-
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
-
-
题名融合图像场景与目标显著性特征的图像描述生成方法
被引量:5
- 3
-
-
作者
盛豪
易尧华
汤梓伟
-
机构
武汉大学印刷与包装系
-
出处
《计算机应用研究》
CSCD
北大核心
2021年第12期3776-3780,共5页
-
基金
国家科技重大专项资助项目(2017ZX01030102)。
-
文摘
图像描述生成是图像人工智能领域的重要研究方向之一。现有方法大多仅使用单一图像特征,导致无法完全描述图像中多个目标或者无法准确表达目标间的关系。提出方法通过场景特征解码模块和目标显著性特征解码模块分别对图像场景特征和目标显著性特征进行解码,并将解码后的两种特征进行融合,实现图像目标属性与目标间关系的信息互补。在MSCOCO数据集上进行实验,结果相较于基准方法有一定的提升,表明该模型对图像内容的描述更加准确和完善,对图像信息表达更加丰富。
-
关键词
图像描述生成
图像场景
目标显著性特征
特征融合
-
Keywords
image caption
image scene
object salient feature
feature fusion
-
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
-
-
题名基于通道注意力机制的文本生成图像方法
被引量:1
- 4
-
-
作者
张云帆
易尧华
汤梓伟
王新宇
-
机构
武汉大学印刷与包装系
-
出处
《计算机工程》
CAS
CSCD
北大核心
2022年第4期206-212,222,共8页
-
基金
国家重点研发计划(2021YFB2206200)。
-
文摘
针对文本生成图像任务中生成图像细节缺失及低分辨率阶段生成图像存在结构性错误的问题,基于动态注意力机制生成对抗网络(DMGAN),引入内容感知上采样模块和通道注意力卷积模块,提出一种新的文本生成图像方法ECAGAN。在低分辨率图像生成阶段的特征图上采样过程中采用基于内容感知的上采样方法,通过输入特征图计算得到重组卷积核,使用重组卷积核和特征图进行卷积操作,确保上采样后的特征图和文本条件的语义一致性,使生成的低分辨率图像更加准确,利用通道注意力卷积模块学习特征图各个特征通道的重要程度,突出重要的特征通道,抑制无效信息,使生成图像的细节更丰富。此外在训练过程中结合条件增强和感知损失函数辅助训练,增强训练过程的鲁棒性,提高生成图像质量。在CUB-200-2011数据集上的实验结果表明,ECAGAN模型初始分数达到了4.83,R值达到了75.62,与DMGAN方法相比,分别提高了1.6%和4.6%,并且可改善生成图像结构错乱的问题,同时能够生成清晰的图像细节,语义一致性更高,更加接近真实图像。
-
关键词
生成对抗网络
文本生成图像
通道注意力机制
内容感知上采样
感知损失
-
Keywords
Generation Adversarial Networks(GAN)
text-to-image synthesis
channel attention mechanism
contentaware upsampling
aware loss
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于CNN特征加权和区域整合的图像检索
被引量:9
- 5
-
-
作者
袁晖
廖开阳
郑元林
曹从军
汤梓伟
邓轩
-
机构
西安理工大学印刷包装与数字媒体学院
陕西省印刷包装工程技术研究中心
陕西省印刷包装工程重点实验室
-
出处
《计算机工程与科学》
CSCD
北大核心
2019年第1期113-121,共9页
-
基金
陕西省教育厅科研计划(17JK0990)
-
文摘
相比传统特征,卷积神经网络提取的特征对图像具有更强的描述能力,其卷积层比全连接层更适合用来检索图像。然而卷积特征是高维特征,若直接用来匹配图像会消耗大量的时间和内存。提出了一种新的改善和整合卷积特征,形成单维特征向量,再将其用于图像匹配的方法。首先,提取最后一个卷积层的三维特征,再对该卷积特征重新加权,突显图像的边缘信息和位置信息;其次,用滑动窗口进行处理,形成多个区域特征向量,再相加整合成全局特征向量;最后,用余弦距离衡量查询图和测试图的相似性得出检索的初始排名,并且用拓展查询方法进行重排得出最终的平均精度均值mAP。分别在Paris6k和Oxford5k数据库以及用100k张图扩展的Paris106k和Oxford105k数据库上进行测试。相对于CroW方法在Paris数据库上获得的mAP性能指标,本文方法提升了约3个百分点;在Oxford数据库上提升了约1个百分点。实验结果表明,新方法提取的全局特征能够更好地描述图像。
-
关键词
图像检索
卷积神经网络
全局特征
特征加权
区域整合
-
Keywords
image retrieval
convolutional neural network
global feature
feature weighting
region integration
-
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
-
-
题名基于级联R-FCN的文档图像表格检测方法
- 6
-
-
作者
宋颖
易尧华
汤梓伟
卢利琼
-
机构
武汉大学印刷与包装系
-
出处
《数字印刷》
北大核心
2020年第2期50-57,共8页
-
基金
国家科技重大专项(No.2017ZX01030102)。
-
文摘
表格检测是文档分析中的非文本内容检测部分的重要任务,表格检测的高准确率是提高文本检测准确性的必要条件。本研究提出了一种基于深度学习的文档图像分析的表格检测方法。该方法采用级联R-FCN(基于区域的全卷积网络)框架,首先检测出文档图像的公式区域并移除;然后在无公式的文档图像中,检测提取表格与图区域,最后通过参数调节筛选出最终的文档图像表格区域。该方法在ICDAR 2017 Competitionon Page Object Detection数据集上IoU(交叉重合区域)为0.8时,AP值和F1值相应为0.851和0.898。实验结果表明,该方法与传统的基于形态学变换和水平垂直投影的方法相比,可以简单而高效地检测文档图像中的表格。
-
关键词
文档图像
表格检测
级联R-FCN
-
Keywords
Document image
Table detection
Cascade R-FCN
-
分类号
TP183
[自动化与计算机技术—控制理论与控制工程]
-
-
题名融合场景先验的船名文本检测方法
- 7
-
-
作者
陈博伟
易尧华
汤梓伟
彭继兵
尹爱国
-
机构
武汉大学遥感信息工程学院
自然资源部西南山地自然资源遥感监测工程技术创新中心
武汉大学数字成像与智能感知研究中心
珠海奔图电子有限公司
-
出处
《中国图象图形学报》
CSCD
北大核心
2024年第10期3104-3115,共12页
-
基金
国家重点研发计划资助(2021YFB2206200)
自然资源部西南山地自然资源遥感监测工程技术创新中心开放课题基金项目(RSMNRSCM-2024-001)。
-
文摘
目的船名文本信息是船舶身份识别的核心要素。真实场景船舶影像中文本区域尺度不一导致船名文本检测存在漏检等问题。同时,现有自然场景文本检测算法难以排除背景文本、图案等因素对船名检测任务的干扰。因此,针对以上问题提出一种融合场景先验的船名检测方法。方法首先,依据船首与船名目标关联性,提出一个基于先验损失的区域监督模块,以约束模型关注船名文本区域特征。然后,为了提高文本区域细粒度,提出一个基于非对称卷积的船名区域定位模块,增强文本区域边缘信息,进一步提高船名检测的召回率。结果本文收集、标注并公开发布了一个真实场景船名文本检测数据集CBWLZ2023进行实验验证,并与最新的8种通用自然场景文本检测方法进行比较。本文算法在船名文本检测任务上取得了94.2%的F1值,相比于性能第2的模型,F1值提高了2.3%;相比于基线模型,F1值提高了2.8%。同时在CBWLZ2023数据集中进行了参数分析实验及消融实验以验证算法各模块的有效性。实验结果证明提出的算法能准确获取边界清晰的文本区域,改善了船名文本检测的效果。结论本文提出的融合场景先验的船名检测模型,可以解决船名文本尺度不一、背景文本干扰带来的问题,在检测精度上超过了现有的场景文本检测算法,具有有效性与先进性。CBWLZ2023可由https://aistudio.baidu.com/aistudio/datasetdetail/224137获取。
-
关键词
船名文本检测
场景先验损失
区域监督
特征增强
非对称卷积
-
Keywords
ship name text detection
scene priori loss
regional supervision
feature enhancement
asymmetric convolution
-
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
-
-
题名顾及目标关联的自然场景文本检测
被引量:14
- 8
-
-
作者
易尧华
何婧婧
卢利琼
汤梓伟
-
机构
武汉大学印刷与包装系
-
出处
《中国图象图形学报》
CSCD
北大核心
2020年第1期126-135,共10页
-
基金
国家科技重大专项基金项目(2017ZX01030102).
-
文摘
目的目前基于卷积神经网络(CNN)的文本检测方法对自然场景中小尺度文本的定位非常困难。但自然场景图像中文本目标与其他目标存在很强的关联性,即自然场景中的文本通常伴随特定物体如广告牌、路牌等同时出现,基于此本文提出了一种顾及目标关联的级联CNN自然场景文本检测方法。方法首先利用CNN检测文本目标及包含文本的关联物体目标,得到文本候选框及包含文本的关联物体候选框;再扩大包含文本的关联物体候选框区域,并从原始图像中裁剪,然后以该裁剪图像作为CNN的输入再精确检测文本候选框;最后采用非极大值抑制方法融合上述两步生成的文本候选框,得到文本检测结果。结果本文方法能够有效地检测小尺度文本,在ICDAR-2013数据集上召回率、准确率和F值分别为0.817、0.880和0.847。结论本文方法顾及自然场景中文本目标与包含文本的物体目标的强关联性,提高了自然场景图像中小尺度文本检测的召回率。
-
关键词
自然场景
文本检测
小尺度文本
目标关联
级联卷积神经网络
-
Keywords
natural scene
text detection
small-scale text
target association
cascaded convolutional neural network(CNN)
-
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
TP183
[自动化与计算机技术—控制理论与控制工程]
-