期刊文献+

基于标记树的Web页面区域划分和搜索方法 被引量:7

How to Get the Main Part of Web Pages
下载PDF
导出
摘要 Web页面的布局可以分为:主要内容、单位标识、导航信息、交互信息和版权申明。我们在处理这些页面时往往只关心主要内容,而且可以从语义上快速定位到主要内容,但是软件系统要做到这一点就非常困难。本文提出一种基于标记树的Web页面区域划分和搜索方法,让软件系统可以忽略别的区域,快速定位到主要内容。对于大量Web页面处理而言,这种方法可以起到减少时间,缩小空间的作用,Web页面越多,效果就越显著。 A Web page can be divided into several parts, they are “the main part, the department logo, the navigation bar, the hyperlinks and the copyright”. How to get the main part of Web pages. It's easy for humankind, but hard for computer pocessing. In this paper we tackle the problem by exploring a tag tree, which can suitably express the structure and the layout of Web pages. Here we propose a method to build the tag tree, in addition to develop a single path tag tree named tag tree model, which only describe the main part of Web pages.
作者 胡飞
机构地区 重庆教育学院
出处 《计算机科学》 CSCD 北大核心 2005年第8期182-185,共4页 Computer Science
关键词 Web页面布局 页面结构 页面区域 标记树 标记树模式 WEB页面 搜索方法 区域划分 快速定位 软件系统 Web page layout, Web page structure, Web page area, Tag tree, Tag tree model
  • 相关文献

参考文献7

二级参考文献17

  • 1[1]Extensible Markup Language (XML) 1.0 (Second Edition). W3C Recommendation 6 October 2000[EB/OL]. http://www.w3.org/TR/REC-xml.
  • 2[2]Raggett D, Le Hors A and Jacobs I. Hypertext markup language 4.0 Reference Specification[EB/OL]. December 1997. http://www.w3.org/TR/REC-html40.
  • 3[3]Guan T, Wong K F. KPS: a Web information mining algorithm[J]. Computer Networks, Elsevier, 1999.31:1495~1507
  • 4[1]Marchal B.XML示例程序导学.北京:清华大学出版社,2002
  • 5Hammer J.Hector Garcia-Molina,Svetlozar Nestorov,Ramana Yerneni,Merkus M.Breuning,and Vasilis Vassalos.Templatebased wrappers in the TSIMMIS system.In:Proc.of ACM SIMOD Conf.on Management of Data,Tucson,Arizona,1998
  • 6C-ruser J-R,et al.Wrapper generation for web accessible data source.In:Proc.ol the CoopIS,1998
  • 7Kusherick N,et al.Wrapper induction for information extraction.IJCAI-97,pp.729-737
  • 8Brin S.Extracting patterns and relations from the World-Wide Web.In:Proc.of the 1998 Intl.Workshop on the Web and Databases,1998
  • 9Agichtein E,Gravano L.Snowball:Extracting Relations from Large Plain-Text Collections.In:Proc.of the 5th ACM Intl.Conf.on Digital Libraries,2000
  • 10Wu Yangyang,Yokota H.A method of recognizing tables and lists on the Web.In:Proc.of Int.Conf.on Communication,Internet,and Information Technology (CIIT 2002),USA,pp.479-485

共引文献28

同被引文献37

引证文献7

二级引证文献36

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部