期刊文献+

基于树编辑距离的聚类算法数据记录抽取

下载PDF
导出
摘要 本文研究了如何从列表页面中抽取数据记录.系统分为两个阶段:第一步采用三种启发式方法相结合的方法,识别主数据区域的根节点;第二步将数据记录分离,提出了一种新的基于树编辑距离的聚类算法,来减少候选分割方案的数量,然后根据公式计算相似度,找出最佳分割方案.本文通过对大量不同领域的网页进行测试,结果表明本文方法具有较高的准确率.
出处 《赤峰学院学报(自然科学版)》 2013年第12期28-30,共3页 Journal of Chifeng University(Natural Science Edition)
  • 相关文献

参考文献8

  • 1A.H.F. Laender, B.A. Ribeiro-Neto, A. Soares da Silva, J.S. Teixeira, A brief survey of web data extraction tools, ACM SIGMOD Record 31 (2) (2002) 84-93.
  • 2V. Crescenzi, G. Mecca, P. Merialdo, ROADRUN- NER: towards automatic data extraction from large web sites, in: Proceedings of the 2001 International VLDB Conference, (2001):109- 118.
  • 3B. Liu, Grossman, R. and Y. Zhai, Mining data records in Web pages. KDD, (2003):601-606.
  • 4Y. Zhai, B. Liu, Structured data extraction from the web based on partial tree alignment, IEEE Transactions on Knowledge and Data Engineering 18 (12) (2006) 1614 -1628.
  • 5A. Arasu, H. Garcia-Molina, Extracting structured data from web pages, in: Proceedings of the ACM SIG- MOD International Conference on Management of Da- ta,(2003).
  • 6C. Chang, S. Lui, IEPAD: information extraction based on pattern discovery, in: Proceedings of 2001 Interna- tionalWorldWide Web Conference,(2001):681- 688.
  • 7B. Liu, Y. Zhai, NET: System for extracting Web data from flat and nested data records. In Proceedings of the Conference on Web Information Systems Engineering, (2005):487-495.
  • 8Manuel A'lvarez, Alberto Pan, Juan Raposo, Fernando Bellas, Fidel Cacheda, Extracting lists of data records from semi-structured web pages, Data & Knowledge Engineering (64), (2008):491-509.

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部