期刊文献+
共找到15篇文章
< 1 >
每页显示 20 50 100
自然场景文本检测与端到端识别:深度学习方法 被引量:3
1
作者 周燕 韦勤彬 +4 位作者 廖俊玮 曾凡智 冯文婕 刘翔宇 周月霞 《计算机科学与探索》 CSCD 北大核心 2023年第3期577-594,共18页
自然场景图像中丰富的文本内容对场景理解有着重要意义,但自然场景文本往往具有极端横纵比、字体风格多变、背景及形状复杂等特点,而传统的文本检测与端到端识别方法存在着模型设计复杂、效率低、适用性不强且耗费成本高等缺点。随着深... 自然场景图像中丰富的文本内容对场景理解有着重要意义,但自然场景文本往往具有极端横纵比、字体风格多变、背景及形状复杂等特点,而传统的文本检测与端到端识别方法存在着模型设计复杂、效率低、适用性不强且耗费成本高等缺点。随着深度学习技术在图像领域的迅速发展,自然场景文本检测与端到端识别方法取得了突破性的进展,其性能和效率得到了显著提高。针对自然场景文本检测与端到端识别方法,梳理了近年来相关的研究工作。首先,根据文本框生成方式的不同,主要从回归候选框和像素分割两个角度来划分自然场景文本检测方法的基本思想,并对各类代表性的方法进行了详细叙述;其次,从端到端识别速度与解耦检测和识别任务的角度对端到端识别方法的技术发展路线进行了归纳总结;然后,介绍了常用的公开文本数据集,并在公开的文本数据集上对各类方法进行了性能对比;最后,对自然场景文本检测与端到端识别的主流研究方向进行了讨论,并阐述了其面临的挑战和未来的发展趋势。 展开更多
关键词 深度学习 自然场景 文本检测 端到端识别
下载PDF
基于改进TextBoxes++的多方向场景文字识别算法的研究 被引量:1
2
作者 李伟冲 《现代计算机》 2018年第24期67-72,共6页
多方向自然场景文字识别是计算机视觉领域中最困难和最有价值的挑战之一。现存的大多数方法只针对水平方向的文字,或将文字检测和识别视为单独的任务。基于目前先进的多方向场景文字检测算法TextBoxes++提出一个统一的端到端可训练的多... 多方向自然场景文字识别是计算机视觉领域中最困难和最有价值的挑战之一。现存的大多数方法只针对水平方向的文字,或将文字检测和识别视为单独的任务。基于目前先进的多方向场景文字检测算法TextBoxes++提出一个统一的端到端可训练的多方向文字识别方法,用于文字的同时检测和识别。为了适应多方向文字的识别,在TextBox-es++文字检测分支添加对四边形文字框角度的预测;并且通过添加文字识别分支扩展TextBoxes++的网络结构,用于文字的识别;引入RoIRotate以在检测和识别之间共享卷积特征。在公开数据集ICDAR 2015和ICDAR 2017 MLT上的实验证明所提出的方法的有效性。 展开更多
关键词 文字识别 OCR 文字检测 端到端文字识别
下载PDF
一种用于自然场景文本识别的多路并行位置关联网络 被引量:1
3
作者 陈敏 叶东毅 陈羽中 《小型微型计算机系统》 CSCD 北大核心 2023年第4期699-705,共7页
自然场景文本识别是计算机视觉领域的研究热点之一,在无人驾驶、图像检索、机器人导航等领域具有广泛的应用前景.由于自然场景中的文本图像存在背景复杂、透视失真、过度弯曲等现象,给文本识别带来了巨大的挑战.针对上述问题,本文提出... 自然场景文本识别是计算机视觉领域的研究热点之一,在无人驾驶、图像检索、机器人导航等领域具有广泛的应用前景.由于自然场景中的文本图像存在背景复杂、透视失真、过度弯曲等现象,给文本识别带来了巨大的挑战.针对上述问题,本文提出了一种基于多路并行的位置关联网络(Multi-Path Parallel Location Association Network,MPLAN)的自然场景文本识别方法.首先,针对不规则文本图像,MPLAN使用文本矫正网络自适应学习图像变换,从而获得线性排列的文本图像.其次,为了捕获字符间的位置信息,MPLAN提出了位置关联模块,利用序列特征的有序性,通过捕获字符位置信息,以提高序列特征与目标字符的对齐准确度.此外,为了增强字符间的语义相关性,MPLAN提出了基于多路传输思想的并行注意力模块,获取全局语义信息,实现序列特征的上下文通信,从而锁定有效字符的位置.在包括规则文本、不规则文本在内的六个数据集上的实验结果表明,MPLAN能够有效利用位置信息与全局语义信息解码字符序列,特别是在识别不规则文本上取得了领先的性能. 展开更多
关键词 深度学习 场景文本识别 注意力机制 端到端
下载PDF
基于Transformer解码的端到端场景文本检测与识别算法 被引量:2
4
作者 郑金志 汲如意 +1 位作者 张立波 赵琛 《通信学报》 EI CSCD 北大核心 2023年第5期64-78,共15页
针对任意形状的场景文本检测与识别,提出一种新的端到端场景文本检测与识别算法。首先,引入了文本感知模块基于分割思想的检测分支从卷积网络提取的视觉特征中完成场景文本的检测;然后,由基于Transformer视觉模块和Transformer语言模块... 针对任意形状的场景文本检测与识别,提出一种新的端到端场景文本检测与识别算法。首先,引入了文本感知模块基于分割思想的检测分支从卷积网络提取的视觉特征中完成场景文本的检测;然后,由基于Transformer视觉模块和Transformer语言模块组成的识别分支对检测结果进行文本特征的编码;最后,由识别分支中的融合门融合编码的文本特征,输出场景文本。在Total-Text、ICDAR2013和ICDAR2015基准数据集上进行的实验结果表明,所提算法在召回率、准确率和F值上均表现出了优秀的性能,且时间效率具有一定的优势。 展开更多
关键词 文本检测 文本识别 端到端 TRANSFORMER
下载PDF
乌金印刷多字体藏文的文本检测与识别 被引量:1
5
作者 侯闫 高定国 高红梅 《计算机工程与设计》 北大核心 2023年第4期1058-1065,共8页
为解决乌金印刷多字体藏文的文本识别以字丁识别为主、识别字体类别单一或较少、无法实现端到端的藏文文本行识别等问题,根据藏文文字的书写特点,在基于分割的文本检测方法DBNet上,对比在MobileNetV3和ResNet34两种骨干网络下CRNN、Rose... 为解决乌金印刷多字体藏文的文本识别以字丁识别为主、识别字体类别单一或较少、无法实现端到端的藏文文本行识别等问题,根据藏文文字的书写特点,在基于分割的文本检测方法DBNet上,对比在MobileNetV3和ResNet34两种骨干网络下CRNN、Rosetta和RARE这3种端到端的文本识别算法;提出一种将常用74个藏文字符作为端到端文字识别的转录字典策略,提出一个针对藏文文本识别的评价指标。实验结果表明,以ResNet34为骨干网络的CRNN文本识别方法在测试集上的综合表现最佳。 展开更多
关键词 藏文 乌金字体 多种字体 深度学习 文本检测 文本识别 端到端
下载PDF
基于迁移学习的敦煌藏文古籍整页识别
6
作者 杨晓龙 高红梅 +1 位作者 高定国 达措 《中文信息学报》 CSCD 北大核心 2023年第11期29-37,共9页
为了解决复杂背景下,文字风格多样导致整页文本识别模型识别精度低和网络难以收敛的问题,该文对基于迁移学习的整页识别算法(垂直注意力网络)进行改进。首先对《法国国家图书馆藏敦煌藏文文献》第一册的319张数据进行了构建和标注,通过... 为了解决复杂背景下,文字风格多样导致整页文本识别模型识别精度低和网络难以收敛的问题,该文对基于迁移学习的整页识别算法(垂直注意力网络)进行改进。首先对《法国国家图书馆藏敦煌藏文文献》第一册的319张数据进行了构建和标注,通过印刷体合成等方式对数据集进行扩充,使实验数据达到2 367张图片;其次,为了增强行特征提取能力和加快网络收敛速度,使用自适应平均值池化对行特征提取模块和使用门循环单元对解码器进行了改进;最后将行训练模型迁移到改进的整页文本识别任务中实现对敦煌藏文文字的识别。实验结果表明,在拥有行级的标注情况下,使用迁移学习相比主流的整页识别模型降低了0.73%的字符错误率,验证了该模型在数据稀缺情况下对整页文本识别的有效性。 展开更多
关键词 文本识别 迁移学习 端到端整页识别
下载PDF
基于深度学习的自然场景文本检测与识别综述 被引量:39
7
作者 王建新 王子亚 田萱 《软件学报》 EI CSCD 北大核心 2020年第5期1465-1496,共32页
自然场景文本检测与识别研究对于从场景中获取信息有重要意义,而深度学习技术有助于提高文本检测与识别的能力.主要对基于深度学习的自然场景文本检测与识别方法和其研究进展进行整理分类、分析和总结.首先论述自然场景文本检测与识别... 自然场景文本检测与识别研究对于从场景中获取信息有重要意义,而深度学习技术有助于提高文本检测与识别的能力.主要对基于深度学习的自然场景文本检测与识别方法和其研究进展进行整理分类、分析和总结.首先论述自然场景文本检测与识别的相关研究背景及主要技术研究路线;然后,根据自然场景文本信息处理的不同阶段,进一步介绍文本检测模型、文本识别模型和端到端的文本识别模型,并阐述和分析每类模型方法的基本思路和优缺点;另外,列举了常见公共标准数据集以及性能评估指标和方法,并对不同模型相关实验结果进行了对比分析;最后总结基于深度学习的自然场景文本检测与识别技术面临的挑战和发展趋势. 展开更多
关键词 深度学习 自然场景 文本检测 文本识别 端到端
下载PDF
图文识别技术综述 被引量:14
8
作者 牛小明 毕可骏 唐军 《中国体视学与图像分析》 2019年第3期241-256,共16页
本文概括性的介绍了图文识别所涉及的技术。首先介绍了图文识别的背景知识,包括应用领域、技术难点及挑战和系统实施流程等;其次介绍了图文识别技术的预处理方法及流程,包括旋转校正、线检测、特征匹配、字符轮廓提取及分割、OCR识别流... 本文概括性的介绍了图文识别所涉及的技术。首先介绍了图文识别的背景知识,包括应用领域、技术难点及挑战和系统实施流程等;其次介绍了图文识别技术的预处理方法及流程,包括旋转校正、线检测、特征匹配、字符轮廓提取及分割、OCR识别流程;接着介绍了图文识别过程中常用的特征提取基础网络和检测网络,以及它们的场景适配问题;然后介绍了近年来出现的各种图文检测深度学习网络、图文识别深度学习网络、端到端图文检测与识别深度学习网络,并分析了各类检测和识别网络的网络架构、算法思路及其特点;最后介绍了公开的图文识别训练、测试数据集以及不同算法的性能比较。 展开更多
关键词 图文检测 文本识别 端到端识别
下载PDF
应用AAM损失函数的无文本说话人识别 被引量:1
9
作者 肖金壮 李瑞鹏 纪盟盟 《激光杂志》 CAS 北大核心 2021年第11期87-91,共5页
针对无文本说话人识别存在短语音提取特征困难和模型训练效率不高的问题,提出利用附加角裕度的损失函数(Additive angular margin loss,AAM-Softmax)可以在特征表达的角度空间中最大化分类界限的优势,同时结合为提高网络训练效率和稳定... 针对无文本说话人识别存在短语音提取特征困难和模型训练效率不高的问题,提出利用附加角裕度的损失函数(Additive angular margin loss,AAM-Softmax)可以在特征表达的角度空间中最大化分类界限的优势,同时结合为提高网络训练效率和稳定性而改进的残差网络ResNet,来获得更具辨别性的嵌入特征,最终达到提升端到端短语音无文本说话人识别模型的性能。实验表明,在说话人辨认任务中Top-1和Top-5的准确度分别达到90.1%和97.8%,说话人确认任务中的等错误率(EER)降低到3.8%,与基于VoxCeleb1数据集的已有成果相比,三种指标的性能皆有明显提升,证明了所提方法的有效性。 展开更多
关键词 附加角裕度损失函数 说话人识别 无文本语音 深度学习 端到端
下载PDF
场景文字识别技术研究综述 被引量:17
10
作者 王德青 吾守尔·斯拉木 许苗苗 《计算机工程与应用》 CSCD 北大核心 2020年第18期1-15,共15页
对文字检测和识别技术进行了全面的介绍。介绍了自然场景文字识别技术的研究背景、应用领域、技术难点等;介绍了场景文字识别的预处理技术及流程,介绍了近年来出现的基于深度学习的通用检测网络、维吾尔文和中英文的深度学习文字检测网... 对文字检测和识别技术进行了全面的介绍。介绍了自然场景文字识别技术的研究背景、应用领域、技术难点等;介绍了场景文字识别的预处理技术及流程,介绍了近年来出现的基于深度学习的通用检测网络、维吾尔文和中英文的深度学习文字检测网络、场景文字识别深度学习网络、端到端场景文字检测与识别深度学习网络,并总结了各类网络的结构特点、优势、局限性、应用场景以及实现成本,接着进行了综合分析;最后介绍了公开数据集,并探讨了场景文字识别技术的发展趋势及可能的研究方向。 展开更多
关键词 场景文字检测 文本识别 深度学习 端到端检测识别
下载PDF
基于深度学习的场景文字检测与识别综述 被引量:2
11
作者 艾合麦提江·麦提托合提 艾斯卡尔·艾木都拉 阿布都萨拉木·达吾提 《电视技术》 2019年第14期65-70,共6页
近年来,基于深度学习的场景文字检测和识别研究已成为计算机视觉领域的一个研究热点。本文首先介绍了场景文字检测与识别所面临的挑战,其次从场景文字检测、场景文字识别和端到端文字识别三个任务分别综述了最新的研究工作,然后列出了... 近年来,基于深度学习的场景文字检测和识别研究已成为计算机视觉领域的一个研究热点。本文首先介绍了场景文字检测与识别所面临的挑战,其次从场景文字检测、场景文字识别和端到端文字识别三个任务分别综述了最新的研究工作,然后列出了该领域比较常用的大型公开数据集情况,最后总结和展望了最新的研究趋势。 展开更多
关键词 深度学习 场景文字 文字检测 文字识别 端到端识别
下载PDF
基于Transformer的证件图像无检测文字识别 被引量:3
12
作者 肖慧辉 张东波 +1 位作者 王旺 王家奎 《信息技术》 2021年第6期78-85,90,共9页
深度学习在图像识别的现存模型中,都有检测和识别两个过程,且需借助复杂的网络结构、大量的文本框标注来提高识别准确率。文中针对存在的问题提出了一个简单且鲁棒性强的证件图片无检测文字识别方法,通过嵌入二维特征图中不同序列位置... 深度学习在图像识别的现存模型中,都有检测和识别两个过程,且需借助复杂的网络结构、大量的文本框标注来提高识别准确率。文中针对存在的问题提出了一个简单且鲁棒性强的证件图片无检测文字识别方法,通过嵌入二维特征图中不同序列位置的水平、竖直方向位置编码,将不同子空间的特征表达连接到序列解码器,解码器部分加入了全局上下文模块,网络模型能并行训练并可以快速收敛,通过插入特殊符号直接得到结构化的字段,简化了信息后处理流程,单张图片识别时间在122ms左右。测试结果表明,模型在身份证扫描件文本图像识别上表现出优越的性能。 展开更多
关键词 TRANSFORMER 端到端模型 无检测文字识别 全局上下文 二维位置编码
下载PDF
基于MobileNet模型的钢材表面字符检测识别算法 被引量:4
13
作者 艾梦琴 陶青川 《现代计算机》 2020年第3期73-78,共6页
鉴于采集钢材板坯号图像的现场环境十分恶劣,因此通常难以采集到高清图像,并且采集图像目标区域会出现模糊、扭曲和倾斜等显现,对传统的检测、识别算法造成很大的阻碍,造成目标检测精度、速度不高。为了提高定位、识别板坯号的精度和速... 鉴于采集钢材板坯号图像的现场环境十分恶劣,因此通常难以采集到高清图像,并且采集图像目标区域会出现模糊、扭曲和倾斜等显现,对传统的检测、识别算法造成很大的阻碍,造成目标检测精度、速度不高。为了提高定位、识别板坯号的精度和速度,需要应用计算机视觉技术与深度学习技术,帮助钢厂达到智能制造的要求。研究并实现一种快速定位钢板坯料号目标区域算法并端到端的识别算法,能够达到实时快速的检测、识别。 展开更多
关键词 钢材表面 卷积神经网络 文本检测 端到端识别
下载PDF
融合软注意力掩码嵌入的场景文本识别方法
14
作者 陈威达 王林飞 陶大鹏 《中国图象图形学报》 CSCD 北大核心 2024年第5期1381-1391,共11页
目的 基于深度学习的端到端场景文本识别任务已经取得了很大的进展。然而受限于多尺度、任意形状以及背景干扰等问题,大多数端到端文本识别器依然会面临掩码提议不完整的问题,进而影响模型的文本识别结果。为了提高掩码预测的准确率,提... 目的 基于深度学习的端到端场景文本识别任务已经取得了很大的进展。然而受限于多尺度、任意形状以及背景干扰等问题,大多数端到端文本识别器依然会面临掩码提议不完整的问题,进而影响模型的文本识别结果。为了提高掩码预测的准确率,提出了一种基于软注意力的掩码嵌入模块(soft attention mask embedding,SAME),方法 利用Transformer更好的全局感受野,将高层特征进行编码并计算软注意力,然后将编码特征与预测掩码层级嵌入,生成更贴近文本边界的掩码来抑制背景噪声。基于SAME强大的文本掩码优化及细粒度文本特征提取能力,进一步提出了一个健壮的文本识别框架SAME-Net,开展无需字符级注释的端到端精准文本识别。具体来说,由于软注意力是可微的,所提出的SAME-Net可以将识别损失传播回检测分支,以通过学习注意力的权重来指导文本检测,使检测分支可以由检测和识别目标联合优化。结果 在多个文本识别公开数据集上的实验表明了所提方法的有效性。其中,SAME-Net在任意形状文本数据集Total-Text上实现了84.02%的H-mean,相比于2022年的GLASS(global to local attention for scene-text spotting),在不增加额外训练数据的情况下,全词典的识别准确率提升1.02%。所提方法在多向数据集ICDAR 2015(International Conference on Document Analysis and Recognition)也获得了与同期工作相当的性能,取得83.4%的强词典识别结果。结论 提出了一种基于SAME的端到端文本识别方法。该方法利用Transformer的全局感受野生成靠近文本边界的掩码来抑制背景噪声,提出的SAME模块可以将识别损失反向传输到检测模块,并且不需要额外的文本校正模块。通过检测和识别模块的联合优化,可以在没有字符级标注的情况下实现出色的文本定位性能。 展开更多
关键词 自然场景文本检测 自然场景文本识别 软注意力嵌入 深度学习 端到端自然场景文本检测与识别
原文传递
自然场景文本检测与识别的深度学习方法 被引量:26
15
作者 刘崇宇 陈晓雪 +3 位作者 罗灿杰 金连文 薛洋 刘禹良 《中国图象图形学报》 CSCD 北大核心 2021年第6期1330-1367,共38页
许多自然场景图像中都包含丰富的文本,它们对于场景理解有着重要的作用。随着移动互联网技术的飞速发展,许多新的应用场景都需要利用这些文本信息,例如招牌识别和自动驾驶等。因此,自然场景文本的分析与处理也越来越成为计算机视觉领域... 许多自然场景图像中都包含丰富的文本,它们对于场景理解有着重要的作用。随着移动互联网技术的飞速发展,许多新的应用场景都需要利用这些文本信息,例如招牌识别和自动驾驶等。因此,自然场景文本的分析与处理也越来越成为计算机视觉领域的研究热点之一,该任务主要包括文本检测与识别。传统的文本检测和识别方法依赖于人工设计的特征和规则,且模型设计复杂、效率低、泛化性能差。随着深度学习的发展,自然场景文本检测、自然场景文本识别以及端到端的自然场景文本检测与识别都取得了突破性的进展,其性能和效率都得到了显著提高。本文介绍了该领域相关的研究背景,对基于深度学习的自然场景文本检测、识别以及端到端自然场景文本检测与识别的方法进行整理分类、归纳和总结,阐述了各类方法的基本思想和优缺点。并针对隶属于不同类别下的方法,进一步论述和分析这些主要模型的算法流程、适用场景和技术发展路线。此外,列举说明了部分主流公开数据集,对比了各个模型方法在代表性数据集上的性能情况。最后总结了目前不同场景数据下的自然场景文本检测、识别及端到端自然场景文本检测与识别算法的局限性以及未来的挑战和发展趋势。 展开更多
关键词 自然场景文本检测 自然场景文本识别(STR) 端到端自然场景文本检测与识别 深度学习 光学字符识别(OCR) 综述
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部