期刊文献+

面向BIU的网页解析

下载PDF
导出
摘要 随着大数据时代的到来,互联网已经成为人们最大的信息来源之一,对于网页处理多采用结构化方法。现有的面向结点的网页解析方法分割粒度过小,容易割裂文字的语义相关性;而基于分块的网页解析器无法过滤文字内部的噪音信息。针对以上两种传统结构化方法的不足,我们提出了一种面向基本信息单元(Basic Information unit)的网页解析方法。本文给出了BIU的定义,利用改进后的DOM解析工具生成了网页DOM树,通过剪枝和BIU识别等操作步骤,最终得到了以基本信息单元为粒度的网页结构,适合用于网页内容的提取。
机构地区 山东师范大学
出处 《科学中国人》 2017年第8Z期213-213,共1页 Scientific Chinese
  • 相关文献

参考文献1

二级参考文献11

  • 1EMBLEY DW,JIANG YS,NG YK.Record-Boundary Discovery in Web Documents[A].SIGMOD'99 Proceedings[C].1999.
  • 2EMBLEY DW,LI X.Record Location and Reconfiguration in Unstructured Multiple-Record Web Documents[A].WebDB'00 Proceedings[C].2000.
  • 3LIM SJ,NG YK.Extracting Structures of HTML Documents Using a High-Level Stack Machine[M].Information Networking in Asia,Gordon and Breach Science Publishers,Newark,New Jersey,2001.
  • 4LIM SJ,NG YK,YANG XC.Integrating HTML Tables Using Semantic Hierarchies And Meta-Data Sets[A].International Database Engineering and Applications Symposium(IDEAS'02)[C].Edmonton,Canada,2002.
  • 5LIM SJ,NG YK.A Heuristic Approach for Converting HTML Documents to XML Documents[A].Proceedings of the Sixth International Conference on Rules and Objects in Databases(DOOD 2000)[C].London,England,2000.1182-1196.
  • 6LIN SH,HO JM.Discovering Informative Content Blocks from Web Documents[A].KDD 2002[C].2002.588-593.
  • 7YU SP,CAI D,WEN JR,et al.Improving Pseudo-Relevance Feedback in Web Information Retrieval Using Web Page Segmentation[EB/OL].http://research.microsoft.com/research/pubs/view.aspx?type=Technical%20Report&id=632,2002-12.
  • 8WEN JR,SONG RH,CAI D,et al.Microsoft Research Asia at The Web Track of TREC 2003[A].The Twelfth Text Retrieval Conference(TREC'12)[C].2003.
  • 9朱明.[D].中国科学技术大学,2000.
  • 10张华平.ICTCLAS[EB/OL].http://mtgroup.ict.ac.cn/~zhp/ICTCLAS.htm,2002.

共引文献54

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部