中文科技文档中的数学表达式定位被引量：4

Extraction of Mathematical Expressions in Printed Chinese Technical Documents

下载PDF

导出

摘要数学表达式定位是印刷体数学表达式识别的前提。针对中文科技文档,分别对独立表达式和内嵌表达式的定位问题提出了新的方法。采用自适应神经模糊推理系统(ANFIS)对行特征进行分类,提取出独立表达式;采用模糊聚类和动态规划方法,从文档中依次提取出汉字、中文标点和英文字符,利用启发式规则合并剩余的数学符号而提取出内嵌表达式。实验表明,提出的表达式定位方法有很高的正确率。 Extraction of mathematical expressions is the first step of mathematical expressions recognition. A new approach for separating both isolated and embedded expressions in printed Chinese technical documents is presented. After the features of text lines are extracted, ANFIS is used to classify the text lines into two classes： lines of text and lines of isolated expressions. For embedded expressions, Fuzzy clustering and dynamic programming algorithm are applied to extract Chinese Characters, Chinese punctuations and English letters in sequence. At last, heuristic rules are used to merge mathematics into expressions. The methods proposed are proved to have high accuracy by experiments.

作者张志伟孔凡让刘维来龙潜刘永斌

机构地区中国科学技术大学精密机械与精密仪器系

出处《中文信息学报》 CSCD 北大核心 2007年第4期86-91,共6页 Journal of Chinese Information Processing

关键词人工智能模式识别数学表达式定位自适应神经模糊推理系统模糊聚类中英文分离 artificial intelligence pattern recognition mathematical expressions extraction ANFIS fuzzy clustering Chinese/English separation

分类号 TP391.41 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献9

1H.J.Lee,J.S.Wang.Design of a mathematical expression recognition system[A].In:Proceedings of 3rd International Conference on Document analysis and Recognition[C].ICDAR'95,Montréal,Canada,1995.464-468.
2Richard J.Fateman.How to Find Mathematics on a Scanned Page[R].Technical Report,1996.
3K.Inoue,R.Miyazaki,M.Suzuki.Optical Recognition of Printed Mathematical Documents[A].In:Proceedings of the Third Asian Technology Conference in Mathematics[C].Springer-Verlag,1998.280-289.
4A.Kacem,A.Belaid,M.Ben Ahmed.EXTRAFOR:automatic EXTRAction of mathematical FORmulas[A].In:Proceedings of 5th International Conference on Document analysis and Recognition[C].ICDAR'99,Bangalore,India,1999.527-530.
5S.P.Chowdhury,S.Mandal,A.K.Das and B.Chanda.Automated Segmentation of Math-Zones from Document Images[A].In:Proceedings of 7th International Conference on Document analysis and Recognition[C].ICDAR'03,Edinburgh,Scotland,2003.755-759.
6Utpal Garain,B.B.Chaudhuri,A.Ray Chaudhuri.Identification of Embedded Mathematical Expressions in Scanned Documents[A].In:Proceedings of 17th International Conference on Pattern Recognition[C].ICPR'04,Cambridge,United Kingdom,2004.Volume 1:384-387.
7Jyh-Shins Roger Jang.ANFIS:Adaptive-Network-Based Fuzzy Inference System[J].IEEE Transaction on Systems,Man and Cybernetics.1993,23(3).
8边肇祺张学工.模式识别[M].北京：清华大学出版社,1999.282-283.
9B.B.Chaudhuri,Utpal Garain.Automatic detection of italic,bold and all-capital words in document images[A].In:Proceedings of 14th International Conference on Pattern Recognition[C].ICPR'98,Brisbane,Australia,1998.Volume 1:610-612.

共引文献142

1洪金益,姚学恒,潘冬.基于SVM遥感图像矿化信息提取试验[J].矿业研究与开发,2004,24(5):63-65. 被引量：4
2张轶,张帅,韩其睿,陈松.实时布匹瑕疵检测系统瑕疵检测算法研究[J].纺织机械,2004(6):31-33.
3邓娟,杨家明.基于灰度向量表示的纹理元集的非监控纹理图像分割[J].计算机应用,2005,25(1):117-118. 被引量：2
4郑丽萍.交遇区样本分类的应用[J].山东理工大学学报（自然科学版）,2004,18(6):57-60.
5陆振波,章新华,胡洪波.水中目标辐射噪声的听觉特征提取[J].系统工程与电子技术,2004,26(12):1801-1803. 被引量：19
6曹治国,吴一飞,张天序.基于Rough集的信息融合目标识别方法[J].红外与激光工程,2005,34(1):102-105. 被引量：3
7朱建云,赵德安,潘天红,张小超.基于人工嗅觉的粮食霉变识别方法的研究[J].农业工程学报,2005,21(1):106-109. 被引量：10
8闫巧,王世军,谢维信,伍忠东.基于遗传-神经网络的字符识别[J].兰州铁道学院学报,2001,20(4):78-81. 被引量：3
9黄晓斌,万建伟,王展.基于改进K-L变换的特征提取技术[J].国防科技大学学报,2005,27(1):84-88. 被引量：1
10王春迎,郝士琦,李洪淘,张军.信号特征选择的一种优化算法[J].航空电子技术,2005,36(1):25-28. 被引量：1

同被引文献29

1王科俊,王黎斌,林桂芳.科技文献中数学公式定位技术概述[J].自动化技术与应用,2004,23(5):1-4. 被引量：3
2宋昭,李芬.基于专家系统的公式识别器的实现[J].计算机工程,2005,31(13):38-39. 被引量：1
3杨捧,田学东.基于Parzen窗的印刷文档数学公式抽取的研究[J].计算机工程与应用,2005,41(23):200-202. 被引量：4
4靳简明,江红英,王庆人.数学公式图像处理综述[J].模式识别与人工智能,2005,18(4):429-440. 被引量：7
5田学东,杨捧,张立平,苗秀芬.印刷文档中数学公式抽取的研究[J].河北大学学报（自然科学版）,2005,25(5):545-548. 被引量：1
6田学东,张立平,杨捧.基于统计特征的数学公式抽取方法的研究[J].计算机工程,2006,32(19):211-213. 被引量：3
7InftyProjeet. Infty reader version 2.5 [ EB/OL]. http://www, inftyproject, org/.
8Yang M, Fateman R. Extracting mathematical expressions from postscript documents [ C ]. Proceedings of the International Symposium on Symbolic and Algebraic Computation. Santander, 2004 : 305 - 311.
9Adobe Systems Incorporated. Postscript Language Reference, Third Edition [ M]. Massachusetts: Addison-Wesley Publishing Company, 1999.
10Digital Equipment Corporation. Pstotext [ EB/OL]. http://www, reserach, compaq, com/SRC/virtualpaper/pstotext, html.

引证文献4

1郭育生,谭怒涛,黄磊,刘昌平.一种中文文档的数学公式定位方法[J].中文信息学报,2008,22(4):83-87.
2张志伟,孔凡让,吴欣.Postscript格式科技文献中数学表达式的提取方法[J].计算机应用与软件,2008,25(11):157-159. 被引量：4
3李冬睿,许统德.一种印刷体文档内嵌数学公式提取方法的研究[J].计算机应用与软件,2014,31(4):102-105.
4徐晓宇,宗亚辉,胡欣宇.科技文档中数学表达式的结构分析与识别[J].物联网技术,2016,6(11):98-100.

二级引证文献4

1吴一民,朱濛,罗绵川.基于.NET平台PostScript文件解析标引系统设计与实现[J].微计算机应用,2009,30(10):58-63. 被引量：3
2吴一民,朱濛,罗绵川.PostScript文件文字块段落提取重构算法[J].计算机应用与软件,2010,27(12):273-276.
3史先进.基于.NET平台的电子报刊系统设计与实现[J].中国教育信息化（高教职教）,2011(7):52-53. 被引量：1
4孙殷,王鹏.PostScript文件与PDF文件间数据转换[J].微型机与应用,2013,32(11):19-21. 被引量：1

1陈刚.无线传感器网络中网络安全协议的研究现状[J].中国电子商务,2012(11):57-58. 被引量：1
2佟树成,杜时英.基于多类支持向量机的印刷体数学表达式符号识别的研究[J].科技信息,2009(23):246-246.
3全铝金刚技嘉3DMars机箱[J].电脑爱好者,2009(4):109-109.
4GEEK产品[J].程序员,2011(8):124-125.
5如何让蓝屏定住来查看报错代码[J].现代计算机（中旬刊）,2008(10):140-140.
6李卉.一种基于提升小波变换的图像融合方法[J].山西电子技术,2007(2):48-50. 被引量：1
7高书秀,黄剑华,唐降龙,刘家锋,刘国军.基于多区域的人体运动跟踪研究与应用[J].微计算机信息,2008,24(19):267-269. 被引量：2
8陈金英,叶阿勇.无线传感器网络中定位攻击防范[J].福建电脑,2009,25(3):170-170.
9陈洪波,王强,徐晓蓉,张超英.数学表达式的自动识别[J].广西科学,2004,11(1):20-26. 被引量：4
10姚树春,张帆.Excel VBA在财务管理中的开发与应用[J].电子技术与软件工程,2013(13):46-46. 被引量：1

中文信息学报

2007年第4期

浏览历史

内容加载中请稍等...

中文科技文档中的数学表达式定位被引量：4

参考文献9

共引文献142

同被引文献29

引证文献4

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

中文科技文档中的数学表达式定位 被引量：4

参考文献9

共引文献142

同被引文献29

引证文献4

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

中文科技文档中的数学表达式定位被引量：4