期刊文献+
共找到15篇文章
< 1 >
每页显示 20 50 100
文本字切分的研究与实践
1
作者 秦姣华 向旭宇 《益阳师专学报》 2000年第5期54-55,共2页
提出了文本字切分要考虑的问题和字切分的基本思想。
关键词 文本行 字切分 切分算法 印刷体汉识别
下载PDF
水书古籍的字切分方法 被引量:6
2
作者 张国锋 《黔南民族师范学院学报》 2016年第2期40-44,共5页
水书文字的切分是进行水书文字识别的重要环节。根据水书文字的书写特点和布局分析,对水书古籍文献进行了投影分析和连通域分析,并将部分先验知识应用到水书文字的切分过程中进行了文字识别。实验证明,该识别系统对水书文字切分率可以达... 水书文字的切分是进行水书文字识别的重要环节。根据水书文字的书写特点和布局分析,对水书古籍文献进行了投影分析和连通域分析,并将部分先验知识应用到水书文字的切分过程中进行了文字识别。实验证明,该识别系统对水书文字切分率可以达到95.3%的准确率。 展开更多
关键词 水书 字切分 投影分析 连通域分析
下载PDF
基于复杂背景的彩色图像中维吾尔文字切分 被引量:4
3
作者 玛日耶姆古丽.米吉提 哈力旦. A 《计算机工程与科学》 CSCD 北大核心 2012年第9期98-103,共6页
沿着基线并具有大量附加部分书写是维吾尔文一大特点,这些特点使复杂背景的彩色图像中维吾尔文字行与字的切分和识别成为一个既困难又有趣的问题。本文首先对复杂彩色图像进行灰度化,其次将彩色图像转换为灰度化的边缘图像,再对图像进... 沿着基线并具有大量附加部分书写是维吾尔文一大特点,这些特点使复杂背景的彩色图像中维吾尔文字行与字的切分和识别成为一个既困难又有趣的问题。本文首先对复杂彩色图像进行灰度化,其次将彩色图像转换为灰度化的边缘图像,再对图像进行局域二值化,然后进行区域检测和边缘调整,初步实现了图像中维吾尔文字行的定位,紧接着根据定位结果从图像中切分出文字行,统计切分后的文字行在水平和垂直方向上的像素累计情况,查找最佳切分点,分离出文字行中的字母独立形式或几个字母连成的连体字母段。实验结果表明,文字行的切分准确率达到96%,字切分准确率达到98%以上。 展开更多
关键词 复杂彩色图像 区域检测 切分 字切分
下载PDF
一种改进的手写汉字文本切分算法 被引量:12
4
作者 明德烈 柳健 +1 位作者 胡家忠 李海涛 《华中理工大学学报》 CSCD 北大核心 2000年第2期87-89,共3页
在分析传统手写汉字文本切分算法利弊的基础上 ,提出了一种改进的基于快速连通域提取的切分算法 ,算法具有很强的抗干扰能力 ,有效解决了小角度歪斜图像和笔画粘连字符的汉字切分问题 .
关键词 识别 切分 字切分 手写汉 算法
下载PDF
中文字粒度切分在蒙汉机器翻译的应用 被引量:2
5
作者 苏依拉 高芬 仁庆道尔吉 《中文信息学报》 CSCD 北大核心 2019年第12期54-60,共7页
在机器翻译任务中,主流的深度学习算法大多使用词或子词作为基础的语义单元,在词或子词层面学习嵌入表征。然而,词粒度层面存在一系列缺点。该文基于LSTM和Transformer蒙汉翻译模型,对蒙文进行子词粒度切分,对中文分别进行子词和字粒度... 在机器翻译任务中,主流的深度学习算法大多使用词或子词作为基础的语义单元,在词或子词层面学习嵌入表征。然而,词粒度层面存在一系列缺点。该文基于LSTM和Transformer蒙汉翻译模型,对蒙文进行子词粒度切分,对中文分别进行子词和字粒度切分对比实验。实验结果显示,相比于子词粒度切分,基于Transformer的蒙汉翻译模型和基于LSTM的蒙汉翻译模型的字粒度切分有极大的BLEU值提升,字级别的蒙汉翻译模型在验证集和测试集上都显著优于混合字和词的子词级别的蒙汉翻译模型。其表明,字级别的蒙汉翻译模型更能捕捉单元之间的语义联系,提高蒙汉翻译性能。 展开更多
关键词 粒度切分 TRANSFORMER LSTM
下载PDF
子字粒度切分在蒙汉神经机器翻译中的应用 被引量:9
6
作者 任众 侯宏旭 +3 位作者 吉亚图 武子玉 白天罡 雷颖 《中文信息学报》 CSCD 北大核心 2019年第1期85-92,共8页
在蒙汉神经机器翻译任务中,由于语料稀少使得数据稀疏问题严重,极大影响了模型的翻译效果。该文对子字粒度切分技术在蒙汉神经机器翻译模型中的应用进行了研究。通过BPE算法将切分粒度控制在字符和词之间的子字粒度大小,将低频词切分成... 在蒙汉神经机器翻译任务中,由于语料稀少使得数据稀疏问题严重,极大影响了模型的翻译效果。该文对子字粒度切分技术在蒙汉神经机器翻译模型中的应用进行了研究。通过BPE算法将切分粒度控制在字符和词之间的子字粒度大小,将低频词切分成相对高频的子字片段,来缓解数据稀疏问题,从而在有限的数据和硬件资源条件下,更高效地提升模型的鲁棒性。实验表明,在两种网络模型中使用子字粒度切分技术,BLEU值分别提升了4.81和2.96,且随着语料的扩大,训练周期缩短效果也更加显著,说明子字粒度切分技术有助于提高蒙汉神经机器翻译效果。 展开更多
关键词 蒙汉神经机器翻译 数据稀疏 粒度切分
下载PDF
手写汉字识别预处理算法研究 被引量:1
7
作者 王林泉 汪午龙 汤笑笑 《计算机工程》 CAS CSCD 北大核心 1995年第S1期54-56,81,共4页
论述手写汉字识别预处理的算法和技术。文字图像用扫描仪或图像系统输入,文字的行切分和字切分用常用算认和经验公式,正规化处理运用了曲面插入算法和文字重心位置规整化方法。
关键词 预处理 字切分 画面插入 正规化
下载PDF
印刷体汉字识别预处理技术的研究 被引量:1
8
作者 唐国维 关学忠 李永军 《大庆石油学院学报》 CAS 北大核心 1996年第2期59-62,共4页
印刷体汉字识别是中文信息处理技术的主要问题,由于各种干扰因素的存在,在对汉字进行识别之前,必须进行预处理,预处理方法主要包括二值化处理、平滑处理、行、字切分及规格化处理。在关键步骤二值化处理中,首先做出汉字图象的灰度... 印刷体汉字识别是中文信息处理技术的主要问题,由于各种干扰因素的存在,在对汉字进行识别之前,必须进行预处理,预处理方法主要包括二值化处理、平滑处理、行、字切分及规格化处理。在关键步骤二值化处理中,首先做出汉字图象的灰度直方图,然后采用近邻加权平均的方法对该直方图进行迭代平滑处理,直至最终获取2个全局峰值,取2个峰值间的最低点即可作为所选阈值。该方法用于作者研制的ANS印刷体汉字识别方法中,取得了满意效果。 展开更多
关键词 印刷体 识别 预处理 二值化 切分 字切分
下载PDF
基于音节切分的藏文印刷体识别 被引量:2
9
作者 才让当知 华却才让 黄鹤鸣 《计算机工程与设计》 北大核心 2022年第9期2594-2600,共7页
为解决藏文印刷体标注数据库资源稀少和藏文图像文本分割难度大等问题,提出一种基于音节切分的藏文体印刷体识别方法。以字符面积最小为依据,找到音节分隔符;合并音节分隔符之间的字丁,构成音节;按音节位置进行分割,经实验分割准确率提... 为解决藏文印刷体标注数据库资源稀少和藏文图像文本分割难度大等问题,提出一种基于音节切分的藏文体印刷体识别方法。以字符面积最小为依据,找到音节分隔符;合并音节分隔符之间的字丁,构成音节;按音节位置进行分割,经实验分割准确率提升3.92个百分点。为验证选择音节的有效性,在同一结构的LetNet-5网络模型上进行测试,实验结果表明,以音节为单元时识别性能更优,其平均识别正确率达96.11%。 展开更多
关键词 藏文印刷体识别 音节切分 切分 文本分割 卷积神经网络
下载PDF
基于Rcnn+Char_SegNet的藏文乌梅长文本识别
10
作者 才让当知 黄鹤鸣 +1 位作者 李鑫元 张会云 《中文信息学报》 CSCD 北大核心 2023年第12期62-69,75,共9页
藏文文字识别在藏文古籍文献、藏文办公自动化以及藏汉双语教育等领域具有非常重要的应用价值。作为两种常见的藏文字体之一,乌梅字体中笔画粘连和交错现象严重,导致识别难度较大。为此,该文提出了基于Rcnn+Char_SegNet的藏文乌梅长文... 藏文文字识别在藏文古籍文献、藏文办公自动化以及藏汉双语教育等领域具有非常重要的应用价值。作为两种常见的藏文字体之一,乌梅字体中笔画粘连和交错现象严重,导致识别难度较大。为此,该文提出了基于Rcnn+Char_SegNet的藏文乌梅长文本识别。首先,在CNN的每个卷积层中添加循环连接,增强CNN提取乌梅字粘连片段的特征和集成上下文信息的能力;其次,对提取的图像文本特征序列采用BiLSTM进行建模;最后,采用字丁切分模块增强CTC对图像序列和标签对齐的监督能力。在自行构建的Cursive Script-C517测试数据集上,该模型的最高准确率和平均准确率分别达到了99.80%和91.43%,分别比基线提高了1.45和48.47个百分点。此外,通过字符级词典库训练,使模型的训练时间减少了13.63%。实验表明,该方法有效解决了乌梅字体中笔画粘连和交错现象严重导致的识别错误问题,显著提升了印刷体藏文乌梅识别精度,减少了训练时间,且具有较好的鲁棒性。 展开更多
关键词 循环卷积神经网络 印刷体藏文识别 图像序列识别 印刷体藏文乌梅识别 藏文切分
下载PDF
中文电子签名认证的预处理技术研究 被引量:1
11
作者 谢晓飞 《微电子学与计算机》 CSCD 北大核心 2006年第7期163-164,167,共3页
中文电子签名认证的预处理技术包括阈值技术、字切分和规范化,文章对这几种技术进行了全面的分析,并给出了相应的实验结果。
关键词 签名认证 二值化 阈值 字切分 规范化
下载PDF
中文电子签名认证的预处理技术研究
12
作者 谢晓飞 邵斌 《贵阳金筑大学学报》 2005年第1期101-103,共3页
中文电子签名认证的预处理技术包括阈值技术、字切分和规范化 ,本文对这几种技术进行了全面的分析 ,并给出了相应的实验结果。
关键词 签名认证 二值化 阀值 字切分 规范化
下载PDF
蒙古语名词格附加成分排错系统实现研究
13
作者 萨仁高娃 《内蒙古科技与经济》 2011年第18期96-96,98,共2页
阐述了蒙古语名词格附加成分排错系统,着重介绍了系统设计与实现思路。
关键词 蒙古语名词格附加成分 语法排错 字切分
下载PDF
Research on Recognition Method of Handwritten Numerals Segmentation based on B-P Neural Network
14
作者 Ningfang Wei 《International Journal of Technology Management》 2013年第1期112-114,共3页
We propose a binarization method based pigment in the ZIP code of 24 bmp image simulation and digital identification by CCD sensors, were extracted the grid binary, image of zip code box and message of the two charact... We propose a binarization method based pigment in the ZIP code of 24 bmp image simulation and digital identification by CCD sensors, were extracted the grid binary, image of zip code box and message of the two characters binary image: analyze the image processing, which includes code frame edge detection and separation of the image binarization, denoising smoothing, tilt correction, the extraction code number, position, normalization processing, digital image thinning, character recognition feature extraction. Through testing, the recognition rate of this method can be over 90%. The recognition time of characters for character is less than 1.3 second, which means the method is of more effective recognition ability and can better satisfy the real system requirements. 展开更多
关键词 fuzzy recognition BP neural network zip code
下载PDF
Research on Recognition Method of Handwritten Numerals Segmentation based on B-P Neural Network
15
作者 Ningfang Wei 《International Journal of Technology Management》 2013年第7期64-66,共3页
We propose a binarization method based pigment in the ZIP code of 24 bmp image simulation and digital identification by CCD sensors, were extracted the grid binary image of zip code box and message of the two characte... We propose a binarization method based pigment in the ZIP code of 24 bmp image simulation and digital identification by CCD sensors, were extracted the grid binary image of zip code box and message of the two characters binary image; analyze the image processing, which includes code frame edge detection and separation of the image binarization, denoising smoothing, tilt correction, the extraction code number, position, normalization processing, digital image thinning, character recognition feature extraction. Through testing, the recognition rate of this method can be over 90%. The recognition time of characters for character is less than 1.3 second, which means the method is of more effective recognition ability and can better satisfy the real system requirements. 展开更多
关键词 fuzzy recognition: BP neural network zip code
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部