当前的OCR(optica l character recogn ition)系统对手写、打印文本都有很高的识别率,但是缺少对数学公式的结构进行分析及重组的功能.为此,将程序设计语言编译程序的基本设计方法用于数学公式的结构分析.重点介绍了上下标的定位、基于L...当前的OCR(optica l character recogn ition)系统对手写、打印文本都有很高的识别率,但是缺少对数学公式的结构进行分析及重组的功能.为此,将程序设计语言编译程序的基本设计方法用于数学公式的结构分析.重点介绍了上下标的定位、基于LL(1)文法的表达式构成规则和公式结构分析器的设计,并简略介绍了基于神经网络的数学符号识别方法.对于印刷体科学文献中的数学表达式,先通过预处理和分类过程识别每一个数学符号,得到按左边界排序的一串字符.然后通过结构分析器,进行上下标的定位以及前后关系的确定.最后把结构分析器生成的语法树转换成可编辑的L aT ex格式.实例证明得到了比较满意的结果.展开更多
文摘当前的OCR(optica l character recogn ition)系统对手写、打印文本都有很高的识别率,但是缺少对数学公式的结构进行分析及重组的功能.为此,将程序设计语言编译程序的基本设计方法用于数学公式的结构分析.重点介绍了上下标的定位、基于LL(1)文法的表达式构成规则和公式结构分析器的设计,并简略介绍了基于神经网络的数学符号识别方法.对于印刷体科学文献中的数学表达式,先通过预处理和分类过程识别每一个数学符号,得到按左边界排序的一串字符.然后通过结构分析器,进行上下标的定位以及前后关系的确定.最后把结构分析器生成的语法树转换成可编辑的L aT ex格式.实例证明得到了比较满意的结果.