摘要
鉴定委员会受国家教委委托,对清华大学电子工程系研制成功的THOCR-97综合集成汉字识别系统(多文种OCR以及联机和脱机手写汉字、数字识别的集成系统)进行鉴定。(1)多功能高鲁棒性多文种印刷文本识别子系统,对汉、英、日、汉英混排、日英混排等多文种文本识别率高,具有很强的鲁棒性;可以识别各种图象格式的文档和FAX文档;可以对复杂报纸版面进行自动分析;可以进行表格的自动识别;可以对识别结果进行电子文档版面复原等,整个系统新颖,技术上有突破。(2)能同时兼容连笔和较少笔顺限制的联机手写汉字识别子系统,在联机手写汉字识别中首次提出利用模糊属性关系图FARG描述汉字,完成了一个高识别率、能识别连笔并且对笔顺限制少、可以识别国际一、二级汉字的联机手写汉字识别实用系统。该联机手写汉字识别系统在识别率及笔顺限制少和连笔字识别能力等方面有创新。(3)较高识别率的脱机手写汉字文本识别子系统,利用脱机手写汉字非线性归化和有效的特征抽取技术,较好的解决了脱机手写汉字字形变化多端的困难;