利用上下文相关信息的汉字文本识别被引量：7

Chinese Text Recognition Using Contextual Information

下载PDF

导出

摘要为了改善汉字文本识别率，本文提出了一种基于语料库统计概率的后处理方法，该方法利用上下文相关信息，超过词汇。对于汉字文本识别，把具有确定性边界的一个汉字序列（多数情况为一个句子）作为一个处理单元，利用统计获得的字字同现概率，采用动态规划方法，获得了令人满意的效果。 In order to improve Chinese text recognition rate, in this paper we present a post processing method of corpus-based statistical probabilities. The method has used contextual information more than the lexical lever knowledge. For Chinese text recognition, a bounded seguence of Chinese characters (more often, a sentence) is processed as an unit. And the cooccurrence probability between characters and dynamic progamming strategy are employed to acquire the satisficatory recognition results.

作者夏莹常新功马少平朱小燕金奕江

机构地区清华大学计算机系

出处《中文信息学报》 CSCD 1996年第1期23-30,共8页 Journal of Chinese Information Processing

关键词汉字识别语料库语言学汉字文本识别 Chinese Characters Recognition, Corpus Linguistics, Markov Model, Post processing

分类号 TP391.41 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1Xia Ying，NLPPR’93，1993年
2常新功，全国智能接口与应用专题会议，1993年
3曲洪亚，第四届全国汉字及汉语语音识别会议论文集，1992年
4张彩录，第四届全国汉字及汉语语音识别会议论文集，1992年
5白栓虎，硕士学位论文，1992年
6Gu Huangyan，Computer Speech Language，1991年，5卷，563页
7崔国伟，模式识别与人工智能，1989年，2卷，1期，3页

同被引文献34

1黄昌宁.关于处理大规模真实文本的谈话[J].语言文字应用,1993(2):1-10. 被引量：25
2文庭孝,邱均平,侯经川.汉语自动分词研究展望[J].现代图书情报技术,2004(7):6-10. 被引量：20
3金瑜,陆启明,高峰.基于上下文相关的最大概率汉语自动分词算法[J].计算机工程,2004,30(16):146-148. 被引量：8
4冯志伟.汉字和汉语的计算机处理[J].当代语言学,2001,3(1):1-21. 被引量：23
5孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
6黄昌宁.统计语言模型能做什么?[J].语言文字应用,2002(1):77-84. 被引量：31
7郭进.统计语言模型及汉语音字转换的一些新结果[J].中文信息学报,1993,7(1):18-27. 被引量：17
8尹锋,林亚平.汉语自动分词技术的现状及发展趋势[J].软件世界,1996(12):80-84. 被引量：15
9王晓龙,王幼龙.语句级汉字输入技术[J].中文信息学报,1996,10(4):51-59. 被引量：13
10孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳.利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J].计算机研究与发展,1997,34(5):332-339. 被引量：66

引证文献7

1陈小荷.中文信息处理概述[J].南京师范大学文学院学报,2002(1):171-176. 被引量：8
2路永刚,赵伟.一种改进的MM分词方法的研究与实现[J].长春工业大学学报,2006,27(4):320-323. 被引量：3
3杨小辉.文字软件处理实论[J].电子世界,2012(7):163-165. 被引量：1
4樊汉超.文字输入处理软件综述[J].电子科技,2013,26(4):153-154.
5何轶智.综述文字输入处理软件[J].网友世界,2013(6):3-4.
6张仰森,徐波,曹元大.自然语言处理中的语言模型及其比较研究[J].广西师范大学学报（自然科学版）,2003,21(A01):16-24. 被引量：11
7陈一凡,朱亮.汉字键盘输入智能处理软件综述[J].中文信息学报,2003,17(2):60-65. 被引量：20

二级引证文献43

1李爽.汉字输入数学模型的研究[J].中国科教创新导刊,2007(13):66-67.
2努尔比亚.吐拉甫,于洪志.基于短语的数字、时间维汉翻译规则建设[J].生物技术世界,2012(2):92-93.
3孙文庆,刘秉权,肖镜辉.基于内存映射文件的数据共享技术研究与应用[J].微计算机应用,2005,26(2):192-194. 被引量：31
4韩勇,须德.基于笔式交互的中文字处理系统:SketchEditor[J].中文信息学报,2005,19(3):33-39. 被引量：3
5蔡增玉,谷文祥.汉字双向有穷自动机的研究[J].中文信息学报,2005,19(3):40-44. 被引量：4
6向晓雯,史晓东,曾华琳.一个统计与规则相结合的中文命名实体识别系统[J].计算机应用,2005,25(10):2404-2406. 被引量：37
7窦家维,李顺东.一种新的语言信息计算模型[J].小型微型计算机系统,2005,26(10):1850-1853. 被引量：1
8孙建国,刘秉权,王轩.基于Symbian操作系统的手机输入法研究[J].计算机工程与应用,2005,41(36):89-91. 被引量：3
9马晖男,吴江宁,潘东华.信息检索中修饰语作用的研究[J].情报学报,2006,25(3):306-311. 被引量：1
10顾平,朱巧明,李培峰,钱培德.智能型汉字数码输入技术的研究[J].中文信息学报,2006,20(4):100-105. 被引量：7

1夏莹,马少平,常新功,朱小燕,金奕江.基于统计的汉字识别文本自动后处理方法[J].模式识别与人工智能,1996,9(2):172-178. 被引量：14
2张佩芬,李伟,杨力,王俊.混合模式识别系统研究[J].信息与控制,1997,26(2):121-128. 被引量：3
3董广宇,吕学强,王涛,施水才.基于N-gram语言模型的汉字识别后处理研究[J].微计算机信息,2009,25(10):276-278. 被引量：5
4丁有和,孙健.VC++控件的汉字及颜色的编程控制[J].计算机应用,1999,19(2):52-54. 被引量：1
5张炘中,阎昌德,刘秀英,王玉.印刷体汉字文本的微型计算机自动识别[J].中国科学（A辑）,1990,21(1):97-104. 被引量：4
6任清珍,黄天戍.用Turbo C实现应用系统软件中的汉字文本编辑器[J].计算机应用研究,1992,9(5):7-9.
7孙巨.Windows 3.x下西文绘图软件的汉字处理[J].计算机应用研究,1998,15(1):69-71.
8林仲明.在CorelDraw中使用汉字文本[J].微电脑世界,1997(7):93-93.
9李杰.如何统计汉字文本的字数[J].电脑,1994(9):37-37.
10王雪峰.现阶段基于内容的图像检索技术分析[J].伊犁师范学院学报（自然科学版）,2010,4(2):52-56. 被引量：2

中文信息学报

1996年第1期

浏览历史

内容加载中请稍等...

利用上下文相关信息的汉字文本识别被引量：7

参考文献7

同被引文献34

引证文献7

二级引证文献43

相关作者

相关机构

相关主题

浏览历史

利用上下文相关信息的汉字文本识别 被引量：7

参考文献7

同被引文献34

引证文献7

二级引证文献43

相关作者

相关机构

相关主题

浏览历史

利用上下文相关信息的汉字文本识别被引量：7