基于分层密度特征的文档图像检索被引量：6

Document image retrieval based on multi-density features

导出

摘要为克服基于版面重建的文档图像检索方法对图像质量要求高,且局限于部分文种,以及基于版面分割的文档图像检索方法受限于版面分割技术等问题,提出了一种基于二值文档图像分层密度特征的检索方法。该方法通过倾斜校正、去除黑边等预处理得到有效文本区域,提取有效文本区域的长宽比和分层密度特征,通过特征比对进行检索。实验表明:该方法对不同分辨率以及不同的输入设备具有自适应能力,对复杂版面和批注等噪声鲁棒性好,漏检率为2%,是一种简单有效的文档图像检索方法。 The development of document image databases is challenging document image retrieval techniques. Traditional layout reconstructed-based methods rely on high quality document images and can only deal with several widely used languages. The complexity of document layouts greatly hinter layout analysis-based approaches. This paper describes a multi-density feature-based algorithm for binary document images, which is independent of optical character recognition （OCR） or layout analyses. The text area is extracted after preprocessing including skew correction and marginal noise removal. Then the aspect ratio and multi-density features are extracted from the text area to select the best candidates from the document image database. Experimental results show that this approach is simple With loss rates less than 2% and can efficiently analyze images with different resolutions and different input systems. The system is also robust to noise due to such as notes and complex layouts.

作者胡芝兰林行刚严洪

机构地区清华大学电子工程系香港城市大学计算机工程和信息技术系

出处《清华大学学报（自然科学版）》 EI CAS CSCD 北大核心 2006年第7期1231-1234,共4页 Journal of Tsinghua University(Science and Technology)

基金国家自然科学基金资助项目(60472028) 国家教育部博士点基金项目(20040003015)

关键词文档图像图像检索倾斜校正分层密度特征 document image image retrieval skew correction multi-density features

分类号 TP391.3 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1PENG Hanchuan,LONG Fuhui,CHI Zheru,et al.Document image template matching based on component block list[J].Pattern Recognition Letters,2001,22(9):1033-1042.
2Kise K,Yin W,Matsumoto K.Document image retrieval based on 2D density distributions of terms with pseudo relevance feedback[C]∥ Proc ICDAR.ACM,NY:[s.n.],2003:488-492.
3PENG Hanchuan,LONG Fuhui,CHI Zheru.Document image recognition based on template matching of component block projections[J].Trans on Pattern Analysis and Machine Intelligence,IEEE,2003,25(9):1188-1192.
4王姝华,李佐,蔡士杰.基于最小二乘法的文档图像倾斜检测方法[J].计算机应用与软件,2001,18(9):43-46. 被引量：15
5汪同庆,朱永权,王洪.基于游长平滑的文档图像倾斜校正[J].计算机工程,2004,30(1):141-143. 被引量：11
6FANA Kuo-Chin,WANGB Yuan-Kai,LAYA Tsann-Ran.Marginal noise removal of document images[J].Pattern Recognition,2002,35:2593-2611.
7机检理论基础[EB/OL].http://libweb.zju.edu.cn/aduser/ service/lesson/Teach/SearchYan/CH1/Ch11.htm,2005.

二级参考文献14

1[1]S. C. Hinds, J. L. Fisher and D. P. D' Amato, A Document Skew Detection Method Using Run - Length Encoding and the Hough Transform, ICPR'90:pp.464- 468.
2[2]D. S. Le, G. R. Thoma and H. Wechsler, Automated Page Orientation and Skew Angle Detection for Binary Document Images, Pattern Recognition,Vol.27,No. 10,1997:pp. 1325- 1344.
3[3]B.Yu and A.K.Jain,A Robust and Fast Skew Detection Algorithm for Generic Documents, Pattern Recognition, Vol. 29, No. 10, 1996: pp. 1599 -1629.
4[4]H. Yan. Skew, Correction of Document Images Using Inerline Cross - correlation, Computer Vision Graphics Image Process: Graphical Models and Image Process, Vol.55, No.6,1993: pp.538 - 543.
5[5]B.Gatos,N.Papamarkos and C. Chamzas, Skew Detection and Text Line Position Determination in Digitized Documents, Pattern Recognition, Vol. 30,No.9,1997:pp. 1505 - 1519.
6[6]M. Chen and X. Ding, A Robust Skew Detection Algorithm for Grayscale Document Image, In Proceedings of ICDAR' 99, Sep.20 - 22, Bangalore, India:pp.617 - 620.
7[7]G. Ciardiello, G. Scafur, M. T. Degrandi, M. R. Spada and M. P. Roccoteli,An Experimental System for Office Document Handling and Text Recognition. In Proceedings of Ninth International Conference on Pattern Recognition, 1998: pp. 739 - 743.
8[8]T.Steiherz,N. Intrator and E. Rivlin, Skew Detection Via Principal Component Analysis, In Proceedings of ICDAR'99, Sep. 20 - 22, Bangalore, India:pp. 153 - 156.
9[9]O. Okun, M. Pietikainen and J. Sauvola, Robust Skew Estimation on Low Resolutioon Document Images, In Proceedings of ICDAR' 99. Sep. 20 - 22.Bangalore, India: pp. 621 - 624.
10[10]C. Sun and D. Si, Skew and Slant Correction for Document Image Using Gradient Direction, In Proceedings of the Fourth Intemational Conference on Document Analysis and Recognition, Ulm, Germany, August 18 - 20,1997:pp. 170 - 174.

共引文献21

1靳从,魏之来,杨静宇.基于视窗的OCR页面图像倾斜检测方法[J].中国图象图形学报（A辑）,2004,9(11):1290-1293. 被引量：2
2谢凤英,姜志国,汪雷.基于空白条方向拟合的复杂文本图像倾斜检测[J].计算机应用,2006,26(7):1587-1589. 被引量：2
3姜一女,张引,张三元.简谱识别方法研究[J].计算机工程与应用,2006,42(32):204-206. 被引量：2
4魏宏喜,高光来.蒙文文档图像的倾斜检测方法[J].内蒙古大学学报（自然科学版）,2007,38(4):458-462. 被引量：3
5潘梅森,郭国强.基于图像矩的车牌号码倾斜校正[J].计算机辅助设计与图形学学报,2007,19(8):1041-1045. 被引量：17
6岳宁,段会川.新的文本图像倾斜检测及校正算法[J].计算机工程与设计,2007,28(23):5671-5673. 被引量：3
7张吉玲,王希常,刘江.数学形态学和投影方差在文档图像倾斜校正中的应用[J].福建电脑,2008,24(3):100-100.
8王蜀颖,余艳梅,陈宏,罗代升.基于改进广义Hough变换的高效测井图像校正[J].成都信息工程学院学报,2008,23(1):42-45. 被引量：6
9潘梅森,肖政宏.一种新的车牌号码倾斜校正方法[J].光电子．激光,2008,19(8):1116-1120. 被引量：8
10吴一全,谢静.基于特征点最小距离拟合的文档图像倾斜检测[J].光学技术,2009,35(1):152-155. 被引量：9

同被引文献42

1阳方林,杨风暴,韦全芳,韩焱.一种新的快速图像匹配算法[J].计算机工程与应用,2005,41(5):51-52. 被引量：13
2罗钟铉,刘成明.灰度图像匹配的快速算法[J].计算机辅助设计与图形学学报,2005,17(5):966-970. 被引量：72
3刘宝生,闫莉萍,周东华.几种经典相似性度量的比较研究[J].计算机应用研究,2006,23(11):1-3. 被引量：44
4Rodtook S, Rangsanseri Y. Adaptive Thresholding of Document Images Based on Laplacian Sign[C]//Proceedings of Information Technology Conference on Coding and Computing. [S. l.]: IEEE Press, 2001: 501-505.
5Shivakumara E Guru D S, Kumar H, et al. Skew Detection in Binary Document Image Using Linear Regression Analysis[C]//Proc. of NCACA'02. Tamil Nadu: [s. n.], 2002.
6Meng Gaofeng, Zheng Nanning, Song Yonghong, et al. Document Images Retrieval Based on Multiple Features Combination[C]//Proc. of ICDAR'07. [S. l.]: IEEE Press, 2007:143-147.
7ANAND KUMAR, C V JAWAHAR, R MARMATHA. Efficient search in document image collections [ C ]. ACCV, 2007, LNCS 4843:586 - 595.
8JIE LUO, M A NASCIMENTO: Content- based sub- image retrieval using relevance feedback . Proc. of he 1st ACM Intl. Workshop on Muhimedia Databases,2004:2 -9.
9Herrmann P,Schlageter G.Retrieval of document images using lay-out knowledge[C]//Proc 2nd ICDAR,1993:537-540.
10Peng H,Long F,Chi Z,et al.Document image template matching based on component block list[J].Pattern Recognition Letters,2001,22(9):1033-1042.

引证文献6

1张田,王希常,尘昌华.基于特征的文档图像检索[J].计算机工程,2009,35(22):176-178. 被引量：2
2范红梅,王希常,于建伟.基于特征的文档子图像检索及其相关反馈[J].信息技术与信息化,2009(5):33-35.
3张田.综合文字和非文字区域特征的文档图像检索[J].计算机工程与应用,2010,46(12):5-8. 被引量：4
4王丹,刘江.基于投影直方图的文档图像快速匹配研究[J].计算机技术与发展,2011,21(7):129-131. 被引量：3
5钱俊霖,余建桥.一种改进的房产档案特征提取与分类方法[J].计算机工程,2012,38(10):266-268. 被引量：1
6王牡丹,邬春学.基于文本布局块距离度量的文档图像检索[J].电子科技,2017,30(9):46-49.

二级引证文献10

1王丹,刘江.基于投影直方图的文档图像快速匹配研究[J].计算机技术与发展,2011,21(7):129-131. 被引量：3
2王睿,李斌.基于形状上下文识别算法的车牌识别研究[J].计算机仿真,2011,28(11):343-345. 被引量：4
3钱俊霖,余建桥.一种改进的房产档案特征提取与分类方法[J].计算机工程,2012,38(10):266-268. 被引量：1
4荆永菊.基于纹理特征的数字图书馆文档图像识别[J].图书馆学刊,2012,34(8):97-98.
5刘凌霞,牛红惠.基于两级阈值的图像分割技术在文档图像中的应用[J].计算机应用与软件,2012,29(9):246-248. 被引量：2
6任荣梓,高航.基于反馈合并的中英文混排版面OCR技术研究[J].计算机技术与发展,2017,27(3):39-43. 被引量：5
7王牡丹,邬春学.基于文本布局块距离度量的文档图像检索[J].电子科技,2017,30(9):46-49.
8石海新.如何优化房产档案的文档一体化管理系统[J].IT经理世界,2019,22(7):23-23.
9邵小青,贾钰峰,章蓬伟,邵敬普.基于联体段的印刷维吾尔文预处理[J].计算机与数字工程,2021,49(10):2118-2121.
10王龙.基于投影直方图法的偏微分方程文本图像版面检测算法研究[J].佳木斯职业学院学报,2018,34(2):271-271.

1刘劼.数字图书馆中的文档图像检索技术概述[J].科技创新导报,2009,6(15):193-193.
2程娟,平西建,周冠玮.基于多特征和SVM的文本图像版面分类方法[J].数据采集与处理,2008,23(5):569-574. 被引量：6
3宋涛,刘刚.一种基于内容的文档图像检索方法[J].郑州大学学报（工学版）,2010,31(1):120-124. 被引量：8
4刘江红,顾海明.基于二值文档图像适宜网上管理的处理方法探讨与研究[J].青岛化工学院学报（自然科学版）,2002,23(1):84-87.
5黎妹红,张其善.基于结构特征比对的指纹识别方法[J].遥测遥控,2004,25(4):50-53.
6孟君.文档图像压缩的RLC实现[J].贵州工业大学学报（自然科学版）,2002,31(4):104-106. 被引量：3
7张利,朱颖,吴国威.版面分割中文本区域最佳结构表示树的生成算法[J].中国图象图形学报（A辑）,1998,3(7):553-556. 被引量：2
8徐锐义,吴炜,何小海,杨玉科.中文商务名片版面分割研究[J].四川大学学报（自然科学版）,2008,45(2):331-335. 被引量：2
9张田,王希常,尘昌华.基于特征的文档图像检索[J].计算机工程,2009,35(22):176-178. 被引量：2
10魏传义,陈勤,张旻.基于投影的文本图像版面分割算法研究[J].现代计算机,2016,22(7):33-38. 被引量：4

清华大学学报（自然科学版）

2006年第7期

浏览历史

内容加载中请稍等...

基于分层密度特征的文档图像检索被引量：6

参考文献7

二级参考文献14

共引文献21

同被引文献42

引证文献6

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

基于分层密度特征的文档图像检索 被引量：6

参考文献7

二级参考文献14

共引文献21

同被引文献42

引证文献6

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

基于分层密度特征的文档图像检索被引量：6