-
题名基于编码器-解码器的离线手写数学公式识别
- 1
-
-
作者
杜永涛
余元辉
-
机构
集美大学计算机工程学院
-
出处
《集美大学学报(自然科学版)》
CAS
2022年第6期570-576,共7页
-
基金
厦门市科技补助项目(2022CXY0301)。
-
文摘
提出一种改进的编码器-解码器模型。模型采用多尺度密集卷积网络作为编码器,以提取手写数学公式图像的多分辨率特征。采用完全基于注意力机制的Transformer模型作为解码器,依据图像特征将二维手写数学公式解码为一维LaTeX序列。通过相对位置编码嵌入图像位置信息和LaTeX符号位置信息。实验结果表明,模型在官方CROHME 2014数据集上取得了优异的性能,相比于当前最先进的方法,其公式识别准确率提高了3.55%,字错误率降低了1.41%。
-
关键词
编码器-解码器
离线手写数学公式识别
多尺度密集卷积网络
Transformer模型
相对位置编码
-
Keywords
Encoder-Decoder
offline handwritten mathematical expression recognition
multi-scale Densely Connected Convolutional Networks
Transformer model
relative position encoding
-
分类号
TP
[自动化与计算机技术]
-
-
题名一种改进的线性变换与多尺度位置编码方法
- 2
-
-
作者
周伟
-
机构
厦门理工学院计算机与信息工程学院
-
出处
《厦门理工学院学报》
2023年第3期58-66,共9页
-
基金
国家自然科学基金项目(61773325)
福建省中青年教师教育研究项目(JT180437)。
-
文摘
为了提高离线手写公式的识别率,提出一种线性变换与多尺度位置编码方法,并设计一个密集网络-位置编码-BiGRU的公式识别模型验证该方法的有效性。该方法利用三角函数的线性变换性质,提取符号的绝对位置和符号之间的相对位置,分别从水平、垂直方向进行多尺度伸缩,提取更细微的符号,以及符号之间的位置关系。基于密集网络-位置编码-BiGRU的公式识别模型的实验结果显示,该模型在2个常见测试集CROHME 2014和CROHME 2016上的识别率分别是49.92%、50.08%,均超过了DenseWAP、DenseWAP-TD等同类研究模型;该位置编码方法比普通坐标系位置提升明显,结构识别率超过68.9%,表明该位置编码方法是有效、可行的。
-
关键词
位置编码
编码方法
线性变换
多尺度
离线手写公式
-
Keywords
positional encoding
encoding method
linear transformation
multiscale
offline handwritten mathematical expression
-
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
-