期刊文献+

基于JerichoHTMLParser的html信息抽取

下载PDF
导出
摘要 对web页面上的信息抽取,一般采基于DOM或SAX的解析方式对信息进行解析.面对非结构化的html,无论使用DOM或SAX,都有其不足之处.本文对比DOM、SAX的解析方式,介绍一种开源的JerichoHTMLParser解析方式,其在对html页面信息进行直接解析时,可以获得一个比较好的解析效果.最后,用实验证明基于JerichoHTMLParser解析方式,对html页面信息解析的可靠性和有效性.
作者 王鸿伟
出处 《赤峰学院学报(自然科学版)》 2010年第10期166-168,共3页 Journal of Chifeng University(Natural Science Edition)
  • 相关文献

参考文献9

  • 1DOM[Z].百度百科.http://baike.baidu.com/view/14806.htm.
  • 2W3C DOM文档[Z].W3C DOM官网.http://www.w3.org/DOM/Activity.
  • 3Didier Martin,等.XML高级编程[M].李喆,等译.机械工业出版社,2001.
  • 4SAX[Z].百度百科.http://baike.baidu.com/view/696824.htm.
  • 5SAX文档[Z].SAX官网.http://www.saxproject.org/copying.html.
  • 6赵俊岚.XML编程中的DOM与SAX技术[J].计算机工程,2004,30(24):70-72. 被引量:25
  • 7张亚鹏.XML的四种解析器性能比较[J].赤峰学院学报(自然科学版),2007,23(2):20-21. 被引量:2
  • 8雷庆,吴扬扬.基于SAX和DOM的XML嵌套信息提取[J].计算机工程与设计,2004,25(12):2308-2311. 被引量:6
  • 9JerichoHTML.Parser[Z].JerichoHTML.Parser.官网http://jerichohtml.sourceforge.net/docs/index.html.

二级参考文献3

  • 1[7]版主Rice,http://www.wcbteam.com.cn/ndt/bbs/view.asp.2003-01-03
  • 2[8]王晓强.http:∥www2.tw.ibm.com/developer Works,2000-05-05
  • 3李诚, 司昌龙, 张志新. 完全掌握JBuilder8[M]. 北京:机械工业出版社, 2003.

共引文献29

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部