期刊文献+
共找到12篇文章
< 1 >
每页显示 20 50 100
脱机手写体汉字识别研究综述 被引量:16
1
作者 高彦宇 杨扬 《计算机工程与应用》 CSCD 北大核心 2004年第7期74-77,共4页
脱机手写体汉字识别是汉字识别领域中最难的课题。该文对目前脱机手写体汉字识别在预处理、特征提取、分类识别及后处理四个阶段主要采用的方法做了简要介绍,阐述了各种方法的优缺点,并提出了一种将支持向量机有效地用于解决多分类问题... 脱机手写体汉字识别是汉字识别领域中最难的课题。该文对目前脱机手写体汉字识别在预处理、特征提取、分类识别及后处理四个阶段主要采用的方法做了简要介绍,阐述了各种方法的优缺点,并提出了一种将支持向量机有效地用于解决多分类问题的策略。最后根据目前的研究状况,指出今后研究中需要注意的问题和研究的发展方向。 展开更多
关键词 汉字识别 预处理 特征提取 分类识别 后处理
下载PDF
利用上下文相关信息的汉字文本识别 被引量:7
2
作者 夏莹 常新功 +2 位作者 马少平 朱小燕 金奕江 《中文信息学报》 CSCD 1996年第1期23-30,共8页
为了改善汉字文本识别率,本文提出了一种基于语料库统计概率的后处理方法,该方法利用上下文相关信息,超过词汇。对于汉字文本识别,把具有确定性边界的一个汉字序列(多数情况为一个句子)作为一个处理单元,利用统计获得的字字同现... 为了改善汉字文本识别率,本文提出了一种基于语料库统计概率的后处理方法,该方法利用上下文相关信息,超过词汇。对于汉字文本识别,把具有确定性边界的一个汉字序列(多数情况为一个句子)作为一个处理单元,利用统计获得的字字同现概率,采用动态规划方法,获得了令人满意的效果。 展开更多
关键词 汉字识别 语料库语言学 汉字文本识别
下载PDF
印刷体汉字识别后处理方法的研究 被引量:4
3
作者 张宏涛 龙翀 +1 位作者 朱小燕 孙俊 《中文信息学报》 CSCD 北大核心 2009年第6期67-71,共5页
高阶N-gram语言模型在OCR后处理方面有着广泛的应用,但也面临着因模型复杂度大导致的数据稀疏,以及耗费较多的时空资源等问题。该文针对印刷体汉字识别的后处理,提出了一种基于字节的语言模型的后处理算法。通过采用字节作为语言模型的... 高阶N-gram语言模型在OCR后处理方面有着广泛的应用,但也面临着因模型复杂度大导致的数据稀疏,以及耗费较多的时空资源等问题。该文针对印刷体汉字识别的后处理,提出了一种基于字节的语言模型的后处理算法。通过采用字节作为语言模型的基本表示单位,模型的复杂度大大降低,从而数据稀疏问题得到很大程度上缓解。实验证明,采用基于字节的语言模型的后处理系统能够以极少的时空开销获取很好的识别性能。在有部分分割错误的测试集上,正确率从88.67%提高到了98.32%,错误率下降了85.18%,运行速度较基于字以及基于词的系统有了大幅的提升,提高了后处理系统的综合性能;与目前常用的基于词的语言模型后处理系统相比,新系统能够节省95%的运行时间和98%的内存资源,但系统识别率仅降低了1.11%。 展开更多
关键词 计算机应用 中文信息处理 汉字识别 OCR 语言模型 后处理
下载PDF
一种利用校对信息的汉字识别自适应后处理方法 被引量:6
4
作者 李元祥 刘长松 丁晓青 《中文信息学报》 CSCD 北大核心 2001年第1期46-52,共7页
后处理技术是汉字识别系统的重要组成部分。传统的识别后处理技术在很大程度上依赖于所训练的统计语言模型 ,没有考虑所处理文本的特殊性 ;而且没有利用识别器的动态识别特性。本文利用部分校对过的正确本文信息 ,一方面可以构建自适应... 后处理技术是汉字识别系统的重要组成部分。传统的识别后处理技术在很大程度上依赖于所训练的统计语言模型 ,没有考虑所处理文本的特殊性 ;而且没有利用识别器的动态识别特性。本文利用部分校对过的正确本文信息 ,一方面可以构建自适应语言模型 ,及时发现所处理文本的语言特点 ;另一方面可以利用识别器的动态识别特性 ,以修正候选字集 ;从而使得后续文本的识别后处理具有自适应性。 40万字的数据测试表明 :这种方法的文本平均错误率较传统的后处理方法下降 35 .2 4%了 ,可以大大减轻数据录入人员的工作量 。 展开更多
关键词 汉字识别 修正候选字集 自适应语言模型 文本平均错误率 动态识别特性 校对信息
下载PDF
高度模糊靶字下的N400语义启动效应:词汇加工理论的证据
5
作者 陈纯 王权红 陆其林 《心理科学》 CSSCI CSCD 北大核心 2013年第4期781-786,共6页
基于不可识别模糊字词仍能诱发N400的词汇加工理论假设,以某大学学生为被试,延迟同一字判断为任务,利用脑电技术记录不同模糊程度靶字的认知过程,来探讨N400出现的条件,以阐明N400反映的是词汇加工,还是词汇后加工。实验结果表明:与轻... 基于不可识别模糊字词仍能诱发N400的词汇加工理论假设,以某大学学生为被试,延迟同一字判断为任务,利用脑电技术记录不同模糊程度靶字的认知过程,来探讨N400出现的条件,以阐明N400反映的是词汇加工,还是词汇后加工。实验结果表明:与轻度、可识别模糊汉字一样,高度、不可识别模糊汉字仍然可以诱发N400,N400语义启动效应反映了词汇加工过程。 展开更多
关键词 启动效应 N400汉字 词汇加工 词汇后加工
下载PDF
一个基于综合匹配的汉字识别后处理系统
6
作者 刘瑞正 赵海兰 《小型微型计算机系统》 CSCD 北大核心 1998年第5期71-76,共6页
本文实现了一个基于综合匹配法的汉字识别后处理系统。该方法既利用了初级识别结果的信息,又利用了汉语中字的上下文制约关系,即组字成词的信息,同时也利用了词的使用频度。
关键词 汉字识别 后处理 综合匹配 汉字信息处理
下载PDF
汉字识别后处理的一种并行算法
7
作者 赵海兰 《河南大学学报(自然科学版)》 CAS 2000年第3期74-77,共4页
通过对松驰方法的分析与改进 ,提出了一种基于非线性概率松驰过程的汉字识别后处理方法 .这一高度并行的方法 。
关键词 汉字识别后处理 松驰方法 相关系数 并行算法
下载PDF
人工神经网络在汉字识别中的应用 被引量:1
8
作者 刘瑞正 《微机发展》 1998年第3期30-31,共2页
本文讨论了人工神经网络在汉字识别各个步骤中的应用,包括在特征抽取、特征选择、粗分类、细分类及后处理方面的应用。
关键词 汉字识别 模式识别 人工神经网络
下载PDF
基于N-gram语言模型的汉字识别后处理研究 被引量:5
9
作者 董广宇 吕学强 +1 位作者 王涛 施水才 《微计算机信息》 2009年第10期276-278,共3页
为提高汉字文本的识别率,本文将基于统计的N-gram元语言模型和单字识别器概率模型结合起来,以充分利用单字识别器提供的信息。该方法把具有确定性边界的一个汉字序列(多数情况为一个句子)作为一个处理单元,利用统计获得的字字同现概率... 为提高汉字文本的识别率,本文将基于统计的N-gram元语言模型和单字识别器概率模型结合起来,以充分利用单字识别器提供的信息。该方法把具有确定性边界的一个汉字序列(多数情况为一个句子)作为一个处理单元,利用统计获得的字字同现概率和距离值信息,采用Viterbi算法,对汉字识别文本进行自动后处理。经过实验证明,后处理将汉字识别准确率平均值从97.62%提高到98.71%。 展开更多
关键词 N元语言模型 维特比算法 汉字识别 后处理
下载PDF
基于统计的汉字识别文本自动后处理方法 被引量:14
10
作者 夏莹 马少平 +2 位作者 常新功 朱小燕 金奕江 《模式识别与人工智能》 EI CSCD 北大核心 1996年第2期172-178,共7页
为了改善汉字文本的识别率,本文提出了一种基于语料库统计概率的汉字识别文本自动后处理方法.对该方法利用的上下文相关的信息.数据量很大的字字同现概率统计方法和统计结果作了介绍,把具有确定性边界的一个汉字序列(多数情况为一个句子... 为了改善汉字文本的识别率,本文提出了一种基于语料库统计概率的汉字识别文本自动后处理方法.对该方法利用的上下文相关的信息.数据量很大的字字同现概率统计方法和统计结果作了介绍,把具有确定性边界的一个汉字序列(多数情况为一个句子)作为一个处理单元,利用统计获得的字字同现概率,采用动态规划方法,对汉字识别文本进行自动后处理,获得了今人满意的效果. 展开更多
关键词 汉字识别 MARKOV模型 文本处理
原文传递
汉字识别系统的误识模型 被引量:5
11
作者 马少平 夏莹 +1 位作者 朱小燕 姜哲 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 1998年第S1期111-114,共4页
为评价一个汉字识别系统的可信度,提出了汉字识别系统误识模型的概念,给出了误识模型的定义。在实验分析的基础上,确立了影响系统识别性能的两个主要参数:首选距离及其与二选的距离差。给出了运用统计分析方法建立识别系统误识模型... 为评价一个汉字识别系统的可信度,提出了汉字识别系统误识模型的概念,给出了误识模型的定义。在实验分析的基础上,确立了影响系统识别性能的两个主要参数:首选距离及其与二选的距离差。给出了运用统计分析方法建立识别系统误识模型的方法。对一个现有的手写体汉字识别系统,经过对其识别性能的统计分析,建立了一个误识模型,初步测试表明了该方法的可行性,达到了实用的要求。误识模型可用于识别率的估计、拒识处理、后处理、多识别器集成和综合评判等多个方面。 展开更多
关键词 汉字识别 误识模型 后处理
原文传递
一种基于噪声信道模型的汉字识别后处理新方法 被引量:5
12
作者 李元祥 丁晓青 刘长松 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2001年第1期24-28,共5页
利用上下文关系进行汉字识别后处理时 ,若候选字集中不含有正确字符 ,文本识别率的提高会受到很大限制。基于单字识别系统的噪声信道模型 ,文中提出一种扩充候选字集的方法 ,利用单字识别给出的候选字来推测可能正确的字 ,并将它们与识... 利用上下文关系进行汉字识别后处理时 ,若候选字集中不含有正确字符 ,文本识别率的提高会受到很大限制。基于单字识别系统的噪声信道模型 ,文中提出一种扩充候选字集的方法 ,利用单字识别给出的候选字来推测可能正确的字 ,并将它们与识别候选字进行集成 ,得到新的候选字集。30 0套脱机手写体样本的测试表明 ,新候选字集的 5 0选平均错误率较原先的识别候选字集下降了 37.88%。脱机手写体文本 (约 8万字 )识别后处理中 ,语言模型为基于字的bigram时 ,文本平均识别率从扩充候选字之前的 93.93%提高至 95 .82 % ,错误率下降了 31.14%。 展开更多
关键词 汉字识别 后处理 语言模型 扩充候选字 噪声信道 方案集成 通信系统
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部