期刊文献+
共找到1,147篇文章
< 1 2 58 >
每页显示 20 50 100
基于Tesseract文字识别的预处理研究 被引量:5
1
作者 章安 马明栋 《计算机技术与发展》 2021年第1期73-76,174,共5页
针对Tesseract文字识别框架对输入图像的像素要求,以及图像采集过程中可能出现的歪斜、黑边等情况,基于文字识别流程,对预处理阶段的二值化、缩放、边框处理与倾斜矫正进行研究与C++代码的实现。对文字识别OCR(optical character recogn... 针对Tesseract文字识别框架对输入图像的像素要求,以及图像采集过程中可能出现的歪斜、黑边等情况,基于文字识别流程,对预处理阶段的二值化、缩放、边框处理与倾斜矫正进行研究与C++代码的实现。对文字识别OCR(optical character recognition,光学字符识别)的流程进行了概述,重点研究图像缩放与二值化过程,利用双线性插值算法逐像素、逐行分别对横纵坐标进行线性插值,完成图像缩放;利用最大类间方差法、聚类的思想,遍历灰度值,获取最佳二值化阈值,实现图像的二值化。参考OpenCV库函数,提出图像边框与偏移的处理思路。在VS2015环境下基于Tesseract框架,对整个流程进行实现,介绍了Tesseract框架的接口与功能、输入与输出参数。图像的预处理对文字识别必不可少,有利于Tesseract之后的识别工作。 展开更多
关键词 OCR 文字识别 预处理 tesseract框架 C++
下载PDF
消除背景噪声增强字符形状特征的场景文字识别
2
作者 唐善成 梁少君 +3 位作者 鲁彪 张莹 金子成 逯建辉 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2024年第6期875-883,共9页
为了解决现有方法未有效地消除背景噪声和字符自身噪声干扰的问题,提出一种包含3个模块的消除背景噪声增强字符形状特征(EBEC)的文字识别模型.空间注意力机制增强的EBEC网络只关注字符区域特征,以消除背景噪声,迫使网络仅学习字符形状特... 为了解决现有方法未有效地消除背景噪声和字符自身噪声干扰的问题,提出一种包含3个模块的消除背景噪声增强字符形状特征(EBEC)的文字识别模型.空间注意力机制增强的EBEC网络只关注字符区域特征,以消除背景噪声,迫使网络仅学习字符形状特征,增强字符形状特征;特征提取模块采用EfficientNet-B3作为主干网络提取特征图;基元表征学习模块学习特征图得到视觉文字表征,通过对视觉文字表征解码得到识别结果.实验结果表明,与经典模型相比,所提模型在合成场景数据集上识别准确率提高9.76个百分点,在公开数据集IIIT5K,ICDAR-2003,ICDAR-2015,CUTE80上识别准确率平均提高2.91个百分点;该模型可有效地消除背景噪声和字符自身噪声,提高识别性能. 展开更多
关键词 场景文字识别 空间注意力机制 背景噪声 字符自身噪声
下载PDF
叠层模型驱动的书法文字识别方法研究 被引量:1
3
作者 麻斯亮 许勇 《自动化学报》 EI CAS CSCD 北大核心 2024年第5期947-957,共11页
基于二维图像的书法文字识别是指利用计算机视觉技术对书法文字单字图像进行识别,在古籍研究和文化传播中具有重要应用.目前书法文字识别技术已经取得了相当不错的进展,但依旧面临很多挑战,比如复杂多变的字形可能导致的识别误差,汉字... 基于二维图像的书法文字识别是指利用计算机视觉技术对书法文字单字图像进行识别,在古籍研究和文化传播中具有重要应用.目前书法文字识别技术已经取得了相当不错的进展,但依旧面临很多挑战,比如复杂多变的字形可能导致的识别误差,汉字本身又存在较多形近字,且汉字字符类别数与其他语言文字相比更多,书法文字图像普遍存在类内差距大、类间差距小的问题.为解决这些问题,提出叠层模型驱动的书法文字识别方法(Stacked-model driven character recognition,SDCR),通过使用数据预处理、节点分离策略和叠层模型对现有单一分类模型进行改进,按照字体类别对同一类别不同字体风格的文字进行二次划分;针对类间差距小的问题,根据书法文字训练集图像识别置信度对形近字进行子集划分,针对子集进行嵌套模型增强训练,在测试阶段利用叠层模型对形近字进行二次识别,提升形近字的识别准确率.为了验证该方法的鲁棒性,在自主生成的SCUT_Calligraphy数据集和CASIA-HWDB 1.1,CASIA-AHCDB公开数据集上进行训练和测试,实验结果表明该方法在上述数据集的识别准确率均有较大幅度提升,在CASIA-HWDB 1.1、CASIA-AHCDB和自建数据集SCUT_Calligraphy上测试准确率分别达到96.33%、99.51%和99.90%,证明了该方法的有效性. 展开更多
关键词 书法文字识别 模型驱动 节点分离 叠层模型 精度学习
下载PDF
基于胶囊网络和语言模型的政务文字识别
4
作者 于龙洋 王德军 +3 位作者 孟博 吴余龙 胡宗华 段伟 《中南民族大学学报(自然科学版)》 CAS 2024年第3期393-400,共8页
文字识别是计算机视觉领域中的重要研究内容之一,为建设智能政务服务奠定了基础.然而政务图像质量参差不齐、字体风格多样,造成识别准确率偏低.针对上述问题,提出了一种结合胶囊网络和语言模型的CNLM模型,并将字符切割与胶囊网络进行结... 文字识别是计算机视觉领域中的重要研究内容之一,为建设智能政务服务奠定了基础.然而政务图像质量参差不齐、字体风格多样,造成识别准确率偏低.针对上述问题,提出了一种结合胶囊网络和语言模型的CNLM模型,并将字符切割与胶囊网络进行结合.首先将政务图像数据集构造为文字识别图像和语言模型句子样本进行分阶段训练,一阶段通过公开字符切割数据集对视觉模型进行预训练,通过句子样本和已有结构化数据对语言模型进行预训练;二阶段将视觉模型与语言模型进行联合训练,并对它们的输出结果进行选择迭代,最后得到图像包含的文字序列信息.该方法在政务图像数据集和GA-HWDB数据集上测试,其准确率相比VisionLAN分别提高2.12%和2.69%. 展开更多
关键词 智能政务 文字识别 胶囊网络 语言模型
下载PDF
基于深度学习的场景文字识别技术研究
5
作者 陈志宇 司占军 朱新雨 《印刷与数字媒体技术研究》 CAS 北大核心 2024年第3期237-243,291,共8页
基于深度学习的场景文字识别技术(Scene Text Recognition,STR)应用广泛但性能尚需提升。针对现有的STR技术对小目标文字识别不准确和中文、中英文混合准确率低的问题,通过改进模型增加104×104的特征尺度,用Focal Loss和GIOU Loss... 基于深度学习的场景文字识别技术(Scene Text Recognition,STR)应用广泛但性能尚需提升。针对现有的STR技术对小目标文字识别不准确和中文、中英文混合准确率低的问题,通过改进模型增加104×104的特征尺度,用Focal Loss和GIOU Loss作为损失函数来优化目标检测框,将卷积块注意力模块(Convolutional Block Attention Module,CBAM)嵌入到卷积层中,使网络在特定位置和通道上更加关注目标,抑制其余复杂背景信息以此来提高模型的文字检测能力;分析中文的文字特征,对CRNN的特征提取网络改进优化,提高了原有模型对中文、中英文混合识别的准确性。实验结果表明,通过对文字检测与识别模型和算法的改进优化,大大提高了场景文字识别技术的准确性和鲁棒性。 展开更多
关键词 深度学习 场景文字识别技术 图像处理 目标检测 文字识别
下载PDF
基于文字局部结构相似度量的开放集文字识别方法
6
作者 刘畅 杨春 殷绪成 《自动化学报》 EI CAS CSCD 北大核心 2024年第10期1977-1987,共11页
开放集文字识别(Open-set text recognition,OSTR)是一项新任务,旨在解决开放环境下文字识别应用中的语言模型偏差及新字符识别与拒识问题.最近的OSTR方法通过将上下文信息与视觉信息分离来解决语言模型偏差问题.然而,这些方法往往忽视... 开放集文字识别(Open-set text recognition,OSTR)是一项新任务,旨在解决开放环境下文字识别应用中的语言模型偏差及新字符识别与拒识问题.最近的OSTR方法通过将上下文信息与视觉信息分离来解决语言模型偏差问题.然而,这些方法往往忽视了字符视觉细节的重要性.考虑到上下文信息的偏差,局部细节信息在区分视觉上接近的字符时变得更加重要.本文提出一种基于自适应字符部件表示的开放集文字识别框架,构建基于文字局部结构相似度量的开放集文字识别方法,通过对不同字符部件进行显式建模来改进对局部细节特征的建模能力.与基于字根(Radical)的方法不同,所提出的框架采用数据驱动的部件设计,具有语言无关的特性和跨语言泛化识别的能力.此外,还提出一种局部性约束正则项来使模型训练更加稳定.大量的对比实验表明,本文方法在开放集、传统闭集文字识别任务上均具有良好的性能. 展开更多
关键词 开放集文字识别 开放集学习 泛用零样本学习 组成学习
下载PDF
基于深度学习的甲骨文字识别系统设计
7
作者 王峻韬 李辰浩 郑红 《湖南理工学院学报(自然科学版)》 CAS 2024年第3期25-29,共5页
甲骨文作为中国最古老的成熟文字系统,对其识别和学习一直备受各方关注.由于甲骨文字内容多变、拓片噪声多等原因,很少有完整的系统可以对甲骨文字进行识别与学习.将深度学习技术应用于甲骨文字图片识别与学习,可以有效缓解该问题.针对... 甲骨文作为中国最古老的成熟文字系统,对其识别和学习一直备受各方关注.由于甲骨文字内容多变、拓片噪声多等原因,很少有完整的系统可以对甲骨文字进行识别与学习.将深度学习技术应用于甲骨文字图片识别与学习,可以有效缓解该问题.针对该问题,构建一个基于残差网络模型的系统,将甲骨文字识别、查询和学习相结合.系统不仅能够准确识别甲骨文字,还具备实时查询和学习功能,用户可以通过系统快速获取相关信息并进行知识学习,可为甲骨文字的传承与发展提供技术支持. 展开更多
关键词 甲骨文字识别 残差网络 文字识别 深度学习
下载PDF
基于中朝统一IDS编码的朝鲜语古籍文字识别方法
8
作者 赵梦玲 金小峰 《延边大学学报(自然科学版)》 CAS 2024年第2期101-106,共6页
为解决朝鲜语古籍中的中文和朝鲜文字混排的识别难题,提出一种中朝文字的表意文字描述序列(IDS)统一编码方案,旨在通过利用偏旁分解字符识别模型(CCR-CLIP)识别朝鲜语古籍文字.首先,根据中朝文字结构的相似性,对文字中出现的汉字偏旁、... 为解决朝鲜语古籍中的中文和朝鲜文字混排的识别难题,提出一种中朝文字的表意文字描述序列(IDS)统一编码方案,旨在通过利用偏旁分解字符识别模型(CCR-CLIP)识别朝鲜语古籍文字.首先,根据中朝文字结构的相似性,对文字中出现的汉字偏旁、朝鲜文字字母和12种基本结构进行了统一编码;其次,通过加入朝鲜文字的IDS序列扩充了CCR-CLIP原模型中提供的汉字的IDS序列文件;最后,通过在训练阶段使用印刷体文字训练的方式解决了朝鲜语古籍样本少的问题. 展开更多
关键词 朝鲜语古籍 零样本 文字识别 文字编码 表意文字描述序列
下载PDF
基于A-CapsNet的西夏文字识别研究
9
作者 杨丽娟 孟一飞 +2 位作者 王葭 毛威 孟斌 《计算机应用与软件》 北大核心 2024年第8期219-224,239,共7页
针对西夏文字结构复杂、笔画繁多、类别之间相似度较高以及各类别样本数量分布不均衡等问题,论证了将CapsNet网络架构应用于西夏文识别的可行性和优越性,进而提出A-CapsNet网络,运用AlexNet网络在深层次上对图像信息进行提取的优越性能... 针对西夏文字结构复杂、笔画繁多、类别之间相似度较高以及各类别样本数量分布不均衡等问题,论证了将CapsNet网络架构应用于西夏文识别的可行性和优越性,进而提出A-CapsNet网络,运用AlexNet网络在深层次上对图像信息进行提取的优越性能,来弥补CapsNet高层胶囊所接收的缺失特征信息,从AlexNet模块、Capsule模块进行实验分析,实验结果表明,A-CapsNet网络对西夏文字的识别率可以达到94%,比原始的胶囊网络提高了3百分点,并且都优于深度学习卷积神经网络,具有很好的适用性,为研究西夏文字做了一定的贡献。 展开更多
关键词 AlexNet A-CapsNet 西夏文字识别
下载PDF
基于深度学习的高精度文字识别算法研究
10
作者 刘春昊 《电脑编程技巧与维护》 2024年第8期104-106,共3页
文字识别在图像处理和文本分析领域应用广泛,然而传统的方法往往受限于复杂的背景、字体样式和光照条件等因素而表现不佳。为解决这些问题,提出了一种基于深度学习的文字识别算法,通过卷积神经网络(CNN)和循环神经网络(RNN)的结合,实现... 文字识别在图像处理和文本分析领域应用广泛,然而传统的方法往往受限于复杂的背景、字体样式和光照条件等因素而表现不佳。为解决这些问题,提出了一种基于深度学习的文字识别算法,通过卷积神经网络(CNN)和循环神经网络(RNN)的结合,实现了对文字图像的端到端识别。该算法采用了多层次的特征提取和学习,能够有效地捕获文字图像中的语义和结构信息。实验结果表明,该算法在多个标准数据集上均表现出优异的识别性能,相比传统方法具有更高的准确性和鲁棒性。 展开更多
关键词 深度学习 文字识别 卷积神经网络 循环神经网络
下载PDF
无人机输电线路巡检照片号牌文字识别方法
11
作者 李有春 汤春俊 +3 位作者 梁加凯 林龙旭 徐敏 谢敏 《无线电工程》 2024年第6期1560-1568,共9页
针对无人机巡检拍摄的高像素电力杆塔照片中杆塔号牌文字识别成功率低的问题,提出了一种改进连接文本区域网络(Connectionist Text Proposal Network,CTPN)算法。利用二维重叠滑动切割方法对输入图像进行切割,将主干网络Vgg16改为Mobile... 针对无人机巡检拍摄的高像素电力杆塔照片中杆塔号牌文字识别成功率低的问题,提出了一种改进连接文本区域网络(Connectionist Text Proposal Network,CTPN)算法。利用二维重叠滑动切割方法对输入图像进行切割,将主干网络Vgg16改为MobilenetV2对切割后图片进行卷积处理,同时在其中加入深度适配网络(Deep Adaptation Network,DAN)的注意力机制得到特征图;将卷积得到的特征图转化成序列输入至双向长短期记忆神经(Bi-directional Long Short-Term Memory,Bi-LSTM)网络学习序列特征,并通过全连接层得到建议框;加入重映射方法将建议框映射回原图,筛选整合映射到原图的建议框后,得到号牌文本框。将得到的文本框内的图像截取输入到卷积循环神经网络(Convolutional Recurrent Neural Network,CRNN)进行文字识别。实验结果表明,当切割框为456 pixel×256 pixel、横向重叠率为9%、纵向重叠率为8%时,识别精度可以达到87%。 展开更多
关键词 深度学习 高像素 场景文字识别 小目标
下载PDF
字符模糊的中文纸质发票文字识别方法
12
作者 来坤 《计算机与现代化》 2024年第8期114-119,共6页
基于纸质发票字符模糊导致OCR识别性能低下的问题,本文提出一种自适应迭代视觉语义模型来解决此问题。该模型包含2个模块:识别模块利用ResNet作为编码器,Transformer为解码器对模糊文本进行初步预测;修正模块将识别模块的预测结果传入... 基于纸质发票字符模糊导致OCR识别性能低下的问题,本文提出一种自适应迭代视觉语义模型来解决此问题。该模型包含2个模块:识别模块利用ResNet作为编码器,Transformer为解码器对模糊文本进行初步预测;修正模块将识别模块的预测结果传入双向语义模型,依据上下文语义信息修正字符,进行初步的文本修正,再将结果与标签输入判别器,若判别成功则直接输出结果,若判别失败则会将结果迭代语义模型,进一步修正,提高识别率。实验结果表明,本文所提模型相比目前的中文识别模型ch_PP-OCRv3的识别正确率高出3.39个百分点,与其他模型相比识别率平均提高6.81个百分点,并且在IC15、IIIT5K和IC03-Word等公开数据集中均表现出色,验证了模型的泛化性能。 展开更多
关键词 文字识别 模糊文本 纸质发票 神经网络 ResNet
下载PDF
基于数字签名和文字识别技术的高校成绩管理系统的设计研究
13
作者 张玉南 《信息记录材料》 2024年第5期91-93,96,共4页
随着教育技术的不断发展,网络课程已经成为高校课程的重要组成部分。然而当前的高校成绩管理系统无法获取学生在所有网络课程平台的成绩,需要管理人员人工认定课程成绩。本文通过需求分析、系统设计以及采用数字签名等关键技术,设计了... 随着教育技术的不断发展,网络课程已经成为高校课程的重要组成部分。然而当前的高校成绩管理系统无法获取学生在所有网络课程平台的成绩,需要管理人员人工认定课程成绩。本文通过需求分析、系统设计以及采用数字签名等关键技术,设计了一个高校成绩管理系统。该系统基于数字签名和文字识别技术,可以有效地解决差异化网络教学资源平台成绩认证问题。 展开更多
关键词 高校成绩管理系统 数字签名 文字识别
下载PDF
基于计算机视觉的文字识别软件设计与实现
14
作者 杨佳骏 覃天 田圻 《软件》 2024年第7期65-67,共3页
文字识别技术作为人工智能领域的重要分支,利用计算机视觉对图像中的文字进行检测、识别和转换,已广泛应用于文档数字化、自动化表单处理等多个场景,提升了信息处理的效率和准确性。计算机视觉技术通过模拟人眼的视觉感知,使计算机能够... 文字识别技术作为人工智能领域的重要分支,利用计算机视觉对图像中的文字进行检测、识别和转换,已广泛应用于文档数字化、自动化表单处理等多个场景,提升了信息处理的效率和准确性。计算机视觉技术通过模拟人眼的视觉感知,使计算机能够从图像或视频中识别出文字信息。本文详细探讨了基于计算机视觉的文字识别软件设计与实现,从文字识别技术的基本概念出发,深入分析了计算机视觉技术在文字识别中的关键应用,包括图像处理和特征提取等,并通过案例分析,为未来的研究方向和技术改进提供了参考。 展开更多
关键词 计算机视觉 文字识别 软件设计 设计实现
下载PDF
基于深度学习的古文字识别与应用
15
作者 孟睿伟 李华飙 莫小龙 《计算机产品与流通》 2024年第4期31-33,共3页
随着人工智能技术的迅猛发展,尤其是深度学习在图像识别领域的突破,古文字识别技术已经实现了从传统方法向自动化、高效率的转变。本文探讨了深度学习技术在古文字识别领域的应用及研究现状,特别是对甲骨文和金文的自动识别。通过构建... 随着人工智能技术的迅猛发展,尤其是深度学习在图像识别领域的突破,古文字识别技术已经实现了从传统方法向自动化、高效率的转变。本文探讨了深度学习技术在古文字识别领域的应用及研究现状,特别是对甲骨文和金文的自动识别。通过构建专用的古文字数据集,利用图像预处理、数据增强和特征提取技术,提高模型的性能和适应性。利用卷积神经网络等深度学习模型以及图像对抗生成网络和深度迁移学习等先进技术,提高了对古文字的识别率,并通过合成数据集和图像数据扩增解决了数据稀缺的问题。研究成果已成功应用于博物馆,提升了文物标注和文化传承的效率,为文化遗产保护和古文字研究提供了有力的技术支持。 展开更多
关键词 卷积神经网络 人工智能技术 图像数据 图像预处理 图像识别 文字 自动识别 深度学习
下载PDF
基于轻量级AlexNet网络的秦简文字识别算法 被引量:1
16
作者 陈炳权 汪政阳 +1 位作者 夏蓉 陈明 《中南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2023年第9期3506-3517,共12页
以样本少且欠均衡的高信噪比秦简文字图像为研究对象,提出一种基于改进的轻量级AlexNet网络模型的秦简文字识别算法。首先,构建秦简单文字图像数据集,对其进行增强降噪、图像归一化等预处理操作;其次,调整AlexNet网络模型结构,构建4层... 以样本少且欠均衡的高信噪比秦简文字图像为研究对象,提出一种基于改进的轻量级AlexNet网络模型的秦简文字识别算法。首先,构建秦简单文字图像数据集,对其进行增强降噪、图像归一化等预处理操作;其次,调整AlexNet网络模型结构,构建4层卷积层与池化层的顺序连接,并在前2层卷积层分别融入InceptionA与InceptionC结构,以分解卷积的形式对秦简文字进行局部特征提取,选取ReLU函数作为模型的激活函数,并在全连接层融入Dropout层进一步防止模型出现过拟合现象;最后,调用Softmax分类器完成秦简文字图像识别。研究结果表明:该网络模型在轻量化与识别准确率的表现上具有明显的优势,平均识别耗时为635 ms,识别准确率达到了99.89%,识别效果良好,可为秦简文字识别理论研究提供参考。 展开更多
关键词 秦简文字 图像识别 AlexNet Inception V3
下载PDF
基于百度AI的文字识别系统设计 被引量:1
17
作者 连丽红 《现代信息科技》 2023年第7期45-48,共4页
文章主要介绍了基于百度AI的文字识别系统设计。该系统采用Exynos4412核心板为主控制器,采用USB摄像头为图像采集设备,采用RGB LCD触摸屏为显示设备。在Linux操作系统下,使用Qt设计控制界面,调用OpenCV库函数和百度AI接口函数来实现车... 文章主要介绍了基于百度AI的文字识别系统设计。该系统采用Exynos4412核心板为主控制器,采用USB摄像头为图像采集设备,采用RGB LCD触摸屏为显示设备。在Linux操作系统下,使用Qt设计控制界面,调用OpenCV库函数和百度AI接口函数来实现车牌识别、手写文字识别和语音合成。测试结果表明,系统具有界面友好、识别准确率高等优点,具有一定的实用推广价值。 展开更多
关键词 百度AI OPENCV 文字识别 语音合成
下载PDF
汉字可变字体赋能传统文化品牌的视觉识别设计策略研究——以“宋韵文化研究传承中心”品牌视觉识别设计为例
18
作者 林曦 毛巧慧 《美与时代(创意)(上)》 2024年第9期92-96,共5页
汉字的可变设计为传统文化品牌的视觉识别带来了基于传统文化符号的创新设计机会。基于传统文化品牌的传承与创新设计需求,本文提出汉字可变字体介入其品牌视觉识别设计的解决办法。在分析了汉字可变字体介入传统文化品牌视觉识别设计... 汉字的可变设计为传统文化品牌的视觉识别带来了基于传统文化符号的创新设计机会。基于传统文化品牌的传承与创新设计需求,本文提出汉字可变字体介入其品牌视觉识别设计的解决办法。在分析了汉字可变字体介入传统文化品牌视觉识别设计的优势后,以宋韵文化研究传承中心的项目实践为例,总结出由汉字可变字体驱动的品牌视觉识别设计策略:提炼品牌动态化主题,在汉字标志的基础框架中融入动态叙事,系统化延展标志的可变逻辑,为汉字可变字体在品牌视觉中的系统化应用与创意延展提供参考思路。 展开更多
关键词 可变字体 品牌视觉识别 汉字图形化 动态文字 设计策略
下载PDF
基于可微分架构搜索的端到端场景文字检测及识别算法 被引量:1
19
作者 刘嘉艺 曹冬平 钟勇 《计算机应用》 CSCD 北大核心 2023年第S01期81-87,共7页
在自然场景文字检测和识别任务中,现有大多数方法的文字检测和文字识别过程相对独立,导致这些方法处理速度较慢;此外,这些方法的训练和推理过程较为复杂,并且手工设计合理的架构比较困难。针对以上这些问题,基于可微分架构搜索方法提出... 在自然场景文字检测和识别任务中,现有大多数方法的文字检测和文字识别过程相对独立,导致这些方法处理速度较慢;此外,这些方法的训练和推理过程较为复杂,并且手工设计合理的架构比较困难。针对以上这些问题,基于可微分架构搜索方法提出了多分支自动选择网络(MBASNet),该网络由数个多分支自动选择块(MBASB)组成。MBASB能在不显著增加计算量的情况下通过自动搜索检测和识别性能较优的子分支结构,组合多个MBASB得到整个检测和识别网络。所提出的MBASNet可以同时训练检测子网络和识别子网络,降低文字检测和识别任务中网络的训练和推理难度,提高对文字的检测和识别速度。MBASNet在ICDAR2013数据集上取得了89.4%的精确率和91.4%的召回率,在ICDAR15数据集上取得了80.5%的精确率和86.8%的召回率,并且计算速度达到了每秒68帧。 展开更多
关键词 深度学习 卷积神经网络 文本检测 文字识别 可微分架构搜索
下载PDF
基于Tesseract_OCR文字识别的研究 被引量:16
20
作者 曾悦 马明栋 《计算机技术与发展》 2021年第11期76-80,共5页
光学字符识别(optical character recognition,OCR),简单来说,主要是利用光学技术和计算机技术将目前所使用的印刷体字符通过检测每个像素的亮、暗模式转换成一个黑白图像的文件,然后再使用识别的手段将这个黑白图像的文件转换成计算机... 光学字符识别(optical character recognition,OCR),简单来说,主要是利用光学技术和计算机技术将目前所使用的印刷体字符通过检测每个像素的亮、暗模式转换成一个黑白图像的文件,然后再使用识别的手段将这个黑白图像的文件转换成计算机可以识别的文字。该文主要分为四个模块:文字信息提取、字符识别、系统实现、实验结果与分析。文字信息提取模块包括图像预处理、文字信息区域的截取和修正、字符分割,对输入的图片进行处理,以降低随机噪声,确保文字信息区域包含完整的文字信息,提高识别的准确性。使用Tesseract的OCR引擎对处理后的文字信息区域部分进行识别,提取出图片中的文字信息。微软基础类库(Microsoft foundation classes,MFC),是微软公司实现的一个C++类库,主要封装了一部分的API函数,灵活性大。最后,在VS2015环境下使用微软基础类库实现了一个文字识别系统,并对样本图片库进行系统的测试。测试结果表明,该系统具有更高的识别率。 展开更多
关键词 光学字符识别 文字识别 tesseract框架 微软基础类库 C++
下载PDF
上一页 1 2 58 下一页 到第
使用帮助 返回顶部