摘要
半结构化文档的逻辑结构自动发现可以改善文档的浏览方式,提高文档内容构件的复用性,有效克服了半结构化文档难于利用的弱点。该文将文档处理对象扩展到结构松散的文档实例,提出了基于优化层次聚类的文档逻辑结构抽取算法——CEDLS。算法首先对文档逻辑结构标志性信息进行识别与特征提取,并根据逻辑结构抽取的特点对传统的层次聚类分析方法进行改进,使获得的分类结果适用于CEDLS算法的逻辑层次归纳策略。最终以上海证券所的年报为测试集进行实验,通过与传统的方法进行比较,证明了这种算法在容错性能和正确率方面的优越性。
Automatic identification of logical structures in semi-structured documents enables reading by browsing and the reuse of content components. A method developed for loosely-structured documents, CEDLS, extracts the logical structures from semi-structured documents using an optimized hierarchical clustering algorithm. The method first identifies the characteristic information and selects the features in the logical structure, and then applies an improved hierarchical clustering algorithm to extract the hierarchical logical structures. Tests on annual reports from the Shanghai Stock Exchange illustrate the precision and robustness of the method.
出处
《清华大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2005年第4期471-474,共4页
Journal of Tsinghua University(Science and Technology)
基金
国家自然科学基金资助项目(60443002)
关键词
层次聚类
文档逻辑结构
特征提取
半结构化
hierarchy clustering
document logical structure
attribute extraction
semi-structured