期刊文献+

基于优化层次聚类的文档逻辑结构抽取 被引量:2

Optimized hierarchy clustering based extraction for logical document structures
原文传递
导出
摘要 半结构化文档的逻辑结构自动发现可以改善文档的浏览方式,提高文档内容构件的复用性,有效克服了半结构化文档难于利用的弱点。该文将文档处理对象扩展到结构松散的文档实例,提出了基于优化层次聚类的文档逻辑结构抽取算法——CEDLS。算法首先对文档逻辑结构标志性信息进行识别与特征提取,并根据逻辑结构抽取的特点对传统的层次聚类分析方法进行改进,使获得的分类结果适用于CEDLS算法的逻辑层次归纳策略。最终以上海证券所的年报为测试集进行实验,通过与传统的方法进行比较,证明了这种算法在容错性能和正确率方面的优越性。 Automatic identification of logical structures in semi-structured documents enables reading by browsing and the reuse of content components. A method developed for loosely-structured documents, CEDLS, extracts the logical structures from semi-structured documents using an optimized hierarchical clustering algorithm. The method first identifies the characteristic information and selects the features in the logical structure, and then applies an improved hierarchical clustering algorithm to extract the hierarchical logical structures. Tests on annual reports from the Shanghai Stock Exchange illustrate the precision and robustness of the method.
出处 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2005年第4期471-474,共4页 Journal of Tsinghua University(Science and Technology)
基金 国家自然科学基金资助项目(60443002)
关键词 层次聚类 文档逻辑结构 特征提取 半结构化 hierarchy clustering document logical structure attribute extraction semi-structured
  • 相关文献

参考文献5

  • 1黄豫清,戚广志,张福炎.从WEB文档中构造半结构化信息的抽取器[J].软件学报,2000,11(1):73-78. 被引量:47
  • 2Ashish N, Knoblock C. Wrapper generation for semi-structured internet sources [J]. ACM SIGMOD Record, 1997, 26(4): 8 - 15.
  • 3Kaufman L, Rousseeuw P J. Finding Groups in Data: An Introduction to Cluster Analysis [M]. New York: Wiley,1990.
  • 4Richard O D, Peter E H, David G S. Pattern Classification(2nd edition) [M]. New York: John Wiley & Sons, 2001.550 - 556.
  • 5Tai K C. The tree-to-tree correction problem [J]. Journalof the ACM, 1979, 26(3) : 422-433.

二级参考文献1

  • 1Ham mar J,SIGMOD Record,1997年,26卷,2期,18页

共引文献46

同被引文献24

引证文献2

二级引证文献15

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部