基于统计的汉字识别文本自动后处理方法被引量：14

THE METHOD OF AUTOMATIC POST-PROCESSING BASED STATISTICAL PROBABILITIES FOR CHINESE RECOGNITION TEXT

导出

摘要为了改善汉字文本的识别率,本文提出了一种基于语料库统计概率的汉字识别文本自动后处理方法.对该方法利用的上下文相关的信息.数据量很大的字字同现概率统计方法和统计结果作了介绍,把具有确定性边界的一个汉字序列(多数情况为一个句子)作为一个处理单元,利用统计获得的字字同现概率,采用动态规划方法,对汉字识别文本进行自动后处理,获得了今人满意的效果. In order to improve Chinese text recognition rate, a method of automatic post-processing based statistical probabilities for Chinese recognition text is proposed. The method has used contextual information more than the lexical lever knowledge. The statistic approach and the results of the co-occurrence probabilities between characters have be introduced. A bounded sequence of Chinese characters (more often, a sentence) is processed as an unit. And the co-occurrence probabilities between characters and dynamic progamming strategy are employed. For Chinese text, a post-processing is automaticlly processed. The satisfacatory Chinese text recognition results are acquired.

作者夏莹马少平常新功朱小燕金奕江

机构地区清华大学计算机系

出处《模式识别与人工智能》 EI CSCD 北大核心 1996年第2期172-178,共7页 Pattern Recognition and Artificial Intelligence

关键词汉字识别 MARKOV模型文本处理 Chinese Characters Recognition, Corpus Linguistics, Markov Model, Post-Processing.

分类号 TP391.41 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1NLPPR'93，1993年
2常新功，全国智能接口与应用专题会议，1993年
3张彩录，第四届全国汉字汉语语音识别论文集，1992年
4曲洪亚，第四届全国汉字及汉语语音识别论文集，1992年
5白栓虎，硕士学位论文，1992年
6Gu Huangyan，Computer Speech Language，1991年，5期，563页
7崔国伟，模式识别与人工智能，1989年，2卷，1期

同被引文献76

1周强.基于语料库和面向统计学的自然语言处理技术[J].计算机科学,1995,22(4):36-40. 被引量：25
2张永慧,刘昌平,罗公,李国杰.技术综合集成在模式识别中的应用[J].计算机学报,1995,18(9):678-685. 被引量：2
3封筠,王彦芳,王小平,侯义斌.小波分析在基于内容的图像检索技术中的应用[J].微计算机信息,2006,22(05S):244-245. 被引量：9
4龙翀,庄丽,朱小燕,黄开竹,孙俊,堀田悦伸,直井聡.手写中文地址识别后处理方法的研究[J].中文信息学报,2006,20(6):69-74. 被引量：6
5易蓉湘,何克抗.计算机汉语文稿校对系统[J].计算机研究与发展,1997,34(5):346-350. 被引量：12
6陈友斌.非特定人脱机手写汉字识别方法的研究[博士学位论文].北京:清华大学,1997..
7叶志远高文等.第五届全国印刷体汉字识别评测.第四届中国计算机智能接口与智能应用学术会议论文集[M].北京:电子工业出版社,1999.40-44.
8郭宏.提高印刷体汉字识别鲁棒性的研究（博士学位论文）[M].北京:清华大学,1997..
9胡运发.扩展的∑2邻接矩阵模型-小膨胀比的全文数据模型 .复旦大学技术报告[R].,1999.8..
10胡运发.另一种全文数据模型-邻接矩阵模型 .复旦大学技术报告[R].,1999,4..

引证文献14

1龙翀,庄丽,朱小燕,黄开竹,孙俊,堀田悦伸,直井聡.手写中文地址识别后处理方法的研究[J].中文信息学报,2006,20(6):69-74. 被引量：6
2胡麒,何华灿.中文词表检索技术研究[J].微计算机信息,2007,23(33):212-214. 被引量：2
3HU QI HE HUANCAN.Research on Retrieval Technique of Electronic Thesaurus[J].微计算机信息,2007,23(33):215-216.
4董广宇,吕学强,王涛,施水才.基于N-gram语言模型的汉字识别后处理研究[J].微计算机信息,2009,25(10):276-278. 被引量：5
5张宏涛,龙翀,朱小燕,孙俊.印刷体汉字识别后处理方法的研究[J].中文信息学报,2009,23(6):67-71. 被引量：4
6马少平,金奕江.基于多Agent系统的脱机手写体汉字识别[J].智能系统学报,2009,4(5):398-405.
7李元祥,丁晓青,刘长松.基于HMM的汉语文本识别后处理研究[J].中文信息学报,1999,13(4):29-34. 被引量：14
8孙立民,狄红卫,余英林.基于子块特征及其相关模糊特征的手写体汉字识别方法[J].通信学报,1999,20(12):81-85. 被引量：5
9刘长松,伍振军,乔春雷,李元祥.用统计方法实现汉字输入的智能联想[J].中文信息学报,2000,14(1):32-38. 被引量：5
10李元祥,刘长松,丁晓青.一种利用校对信息的汉字识别自适应后处理方法[J].中文信息学报,2001,15(1):46-52. 被引量：6

二级引证文献52

1聂文琪.全文索引模型探析[J].武汉交通职业学院学报,2006,8(1):73-75.
2沈淑娟,姜建国,曹建春.手写体字符识别的多特征多分类器设计[J].计算机工程与应用,2004,40(16):116-118. 被引量：4
3杜鸣.中文姓名输入研究[J].南京师范大学文学院学报,2004(3):184-188.
4李朝虹,陆建湖.现代汉语自动分析研究现状综述[J].广西教育学院学报,2003(1):112-116. 被引量：1
5赵骥,王丽君,李晶皎.基于统计的满文识别后处理的研究和实现[J].鞍山科技大学学报,2005,28(6):444-446. 被引量：1
6吴刚,德熙嘉措,黄鹤鸣.印刷体藏文识别技术[J].青海师范大学学报（自然科学版）,2006,22(1):32-37. 被引量：7
7赵骥,李晶皎,王丽君,张继生.基于HMM的满文文本识别后处理的研究[J].中文信息学报,2006,20(4):63-67. 被引量：3
8祁坤钰.信息处理用藏文自动分词研究[J].西北民族大学学报（哲学社会科学版）,2006(4):92-97. 被引量：34
9龙翀,庄丽,朱小燕,黄开竹,孙俊,堀田悦伸,直井聡.手写中文地址识别后处理方法的研究[J].中文信息学报,2006,20(6):69-74. 被引量：6
10赵骥,李晶皎,张广渊,王杰.脱机手写体满文文本识别系统的设计与实现[J].模式识别与人工智能,2006,19(6):801-805. 被引量：6

1夏莹,常新功,马少平,朱小燕,金奕江.利用上下文相关信息的汉字文本识别[J].中文信息学报,1996,10(1):23-30. 被引量：7
2丁有和,孙健.VC++控件的汉字及颜色的编程控制[J].计算机应用,1999,19(2):52-54. 被引量：1
3张炘中,阎昌德,刘秀英,王玉.印刷体汉字文本的微型计算机自动识别[J].中国科学（A辑）,1990,21(1):97-104. 被引量：4
4任清珍,黄天戍.用Turbo C实现应用系统软件中的汉字文本编辑器[J].计算机应用研究,1992,9(5):7-9.
5孙巨.Windows 3.x下西文绘图软件的汉字处理[J].计算机应用研究,1998,15(1):69-71.
6林仲明.在CorelDraw中使用汉字文本[J].微电脑世界,1997(7):93-93.
7李杰.如何统计汉字文本的字数[J].电脑,1994(9):37-37.
8王雪峰.现阶段基于内容的图像检索技术分析[J].伊犁师范学院学报（自然科学版）,2010,4(2):52-56. 被引量：2
9杜磊,成曙,陈科吉.用于控制系统实时监控的专家系统设计[J].微计算机信息,2008,24(4):84-85. 被引量：5
10陈启东,程宜康,石澄贤.利用统计概率的活动轮廓模型分割图像[J].中国农机化学报,2014,35(1):112-116. 被引量：2

模式识别与人工智能

1996年第2期

浏览历史

内容加载中请稍等...

基于统计的汉字识别文本自动后处理方法被引量：14

参考文献7

同被引文献76

引证文献14

二级引证文献52

相关作者

相关机构

相关主题

浏览历史

基于统计的汉字识别文本自动后处理方法 被引量：14

参考文献7

同被引文献76

引证文献14

二级引证文献52

相关作者

相关机构

相关主题

浏览历史

基于统计的汉字识别文本自动后处理方法被引量：14