图文文档摹本识别的一种统计方法

A Statistical Method on Duplication Detection of Image Documents

下载PDF

导出

摘要提出了一种使用聚类分析对批量到达的图文文档进行摹本识别的方法.首先把已读入计算机的单页图文文档转换为单色位图.给出若干互不相交的同心圆盘(圆盘的中心按页的边缘计算),计算出各轴像素密度(各圆环内"on"象素的个数)作为图形的特征向量.在页面的特征向量之间,建立一种距离,再进行聚类分析以识别文档的摹本.对从网下载的批量图形文档利用MATLAB进行多次仿真实验结果,单页文档的正确识别率达到了85%～98% A method is presented for detecting duplications of a batch of image documents based on cluster analysis. First, converts a page of document have read into computer to binary bitmap. Giving a series of interlocking concentric disk (The center of all disks is computed according to the edge of this page), computing radial pixel densities (the number of 'on' pixels in each annuli) as the feature vector. Establishing a distance among feature vectors, and detecting duplications by cluster analysis. The result of stimulating experiments by MATLAB, 85%～98% of the documents got from the internet can be identified correctly.

作者董重明

机构地区四川大学数学学院

出处《四川大学学报（自然科学版）》 CAS CSCD 北大核心 2003年第1期36-40,共5页 Journal of Sichuan University(Natural Science Edition)

关键词图文文档摹本识别统计方法轴象素密度 MATLAB 聚类分析图像识别 duplication detection radial pixel density MATLAB cluster analysis

分类号 TP391.41 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

1董重明,陈鸿建.批量图文文档的摹本识别[J].电脑与信息技术,2003,11(3):5-9.
2张秀丽.图文文档编辑技巧[J].现代技能开发,2001(8):55-55.
3陈增林.爱普生Stylus C110商务喷墨打印机——不用激打也能行[J].微型计算机,2008(3):62-63.
4费翔,杨建中,宋金洲.在无中文排版软件的SUN工作站SPARC　printer上输出高质量的中西文图文文档[J].计算机应用研究,1995,12(5):58-61.
5唐思源,苗玥,王晓琴.视频帧中改进的字幕检测定位方法[J].科技传播,2011,3(5):207-208.
6胡晓峰,王晖.基于网络的图文文档管理系统ITNFS的设计与实现[J].微型计算机,1994,14(5):63-65.
7顾明.图形文档布局加工的软件工具[J].西北大学学报（自然科学版）,1989,19(3):67-70.
8方平,施小英.软件工程中图形文档的布图算法研究[J].微型电脑应用,1992(3):85-91.
9陈传波,梁先勇,胡卫军,陈长雄.基于SVG的故障树表示方法研究[J].计算机工程与科学,2007,29(12):61-63.
10意料中的惊喜 Nokia Lumia920和Nokia Lumia820[J].数码精品世界,2012(10):13-13.

四川大学学报（自然科学版）

2003年第1期

浏览历史

内容加载中请稍等...

图文文档摹本识别的一种统计方法

相关作者

相关机构

相关主题

浏览历史