基于JerichoHTMLParser的html信息抽取

下载PDF

导出

摘要对web页面上的信息抽取,一般采基于DOM或SAX的解析方式对信息进行解析.面对非结构化的html,无论使用DOM或SAX,都有其不足之处.本文对比DOM、SAX的解析方式,介绍一种开源的JerichoHTMLParser解析方式,其在对html页面信息进行直接解析时,可以获得一个比较好的解析效果.最后,用实验证明基于JerichoHTMLParser解析方式,对html页面信息解析的可靠性和有效性.

作者王鸿伟

机构地区泉州师范学院数学与计算机科学学院

出处《赤峰学院学报（自然科学版）》 2010年第10期166-168,共3页 Journal of Chifeng University(Natural Science Edition)

关键词 DOM SAX JerichoHTMLParser 信息抽取

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献9

1DOM[Z].百度百科.http://baike.baidu.com/view/14806.htm.
2W3C DOM文档[Z].W3C DOM官网.http://www.w3.org/DOM/Activity.
3Didier Martin,等.XML高级编程[M].李喆,等译.机械工业出版社,2001.
4SAX[Z].百度百科.http://baike.baidu.com/view/696824.htm.
5SAX文档[Z].SAX官网.http://www.saxproject.org/copying.html.
6赵俊岚.XML编程中的DOM与SAX技术[J].计算机工程,2004,30(24):70-72. 被引量：25
7张亚鹏.XML的四种解析器性能比较[J].赤峰学院学报（自然科学版）,2007,23(2):20-21. 被引量：2
8雷庆,吴扬扬.基于SAX和DOM的XML嵌套信息提取[J].计算机工程与设计,2004,25(12):2308-2311. 被引量：6
9JerichoHTML.Parser[Z].JerichoHTML.Parser.官网http://jerichohtml.sourceforge.net/docs/index.html.

二级参考文献3

1[7]版主Rice,http://www.wcbteam.com.cn/ndt/bbs/view.asp.2003-01-03
2[8]王晓强.http:∥www2.tw.ibm.com/developer Works,2000-05-05
3李诚, 司昌龙, 张志新. 完全掌握JBuilder8[M]. 北京:机械工业出版社, 2003.

共引文献29

1范书义,李岩,孟晨.XML文件解析中SAX和DOM的结合应用[J].微型电脑应用,2011(12):42-44. 被引量：4
2黄华梅,杨宝祝,邢斌,赵丽,杨信廷.农产品安全生产管理的图形组态软件多源异构数据处理[J].农业工程学报,2009,25(S2):308-313. 被引量：4
3王爱国,杨波,柴乔林.基于XML Web Service的FTP搜索技术[J].济南大学学报（自然科学版）,2005,19(3):230-234.
4张文学,徐琪.基于XML/JSP的逆向物流系统的数据集成[J].物流技术,2006,25(6):75-78. 被引量：3
5黄孝.NET框架下的XML文档解析技术浅析[J].池州师专学报,2006,20(3):23-24. 被引量：1
6诸云强,朱少霞,喻孟良.基于元数据的地下水数据共享[J].计算机应用研究,2006,23(10):73-75. 被引量：2
7肖克辉,倪德明.文件系统增量备份策略的形式化描述及实现[J].计算机工程与设计,2007,28(10):2455-2457. 被引量：2
8刘三满.基于XML的分布式数据库集成系统的研究[J].电子测量技术,2007,30(11):213-217. 被引量：2
9李印清,李向.B/S架构地质公园信息平台的设计与实现[J].信息技术,2008,32(1):15-17. 被引量：2
10荣江,赵庆展,李伟.StAX技术在XML文档解析中的应用[J].农业网络信息,2008(5):165-167. 被引量：1

1周茜.网站遭到恶意镜像的处理办法[J].计算机与网络,2014,40(19):45-45.
2王鸿伟,吴扬扬.C2C电子商务网站交易信息抽取工具的研究与实现[J].泉州师范学院学报,2010,28(4):12-17.
3刘勇.在线听歌我用客户端[J].电脑迷,2005,0(16):71-71.
4还书国,邱海霞.WEB信息抽取的研究[J].消费导刊,2008,0(12):172-172. 被引量：2
5吕锋,余丽.基于XML的Web数据抽取研究[J].计算机技术与发展,2007,17(6):53-55. 被引量：5
6郭琳.浅谈Java web中基于Hashtable的[J].内江科技,2016,37(1):59-60.
7杨俊彬,曾春溪,蔡剑怀,吴顺祥.基于OLE自动化技术的PST文件解析[J].计算机工程,2009,35(20):34-36. 被引量：1
8周洪波,裴海龙,贺跃帮,赵运基.基于滤波反步法的无人直升机轨迹跟踪控制[J].控制与决策,2012,27(4):613-617. 被引量：18
9廖义奎,李智,韦卫星,陈钧.字符型嵌入式软PLC虚拟机设计[J].电子技术应用,2009,35(10):150-153.
10陈宗海,文锋,王智灵.基于自适应评价的非线性系统神经网络控制[J].控制与决策,2007,22(7):765-768. 被引量：3

赤峰学院学报（自然科学版）

2010年第10期

浏览历史

内容加载中请稍等...

基于JerichoHTMLParser的html信息抽取

参考文献9

二级参考文献3

共引文献29

相关作者

相关机构

相关主题

浏览历史