面向BIU的网页解析

下载PDF

导出

摘要随着大数据时代的到来,互联网已经成为人们最大的信息来源之一,对于网页处理多采用结构化方法。现有的面向结点的网页解析方法分割粒度过小,容易割裂文字的语义相关性;而基于分块的网页解析器无法过滤文字内部的噪音信息。针对以上两种传统结构化方法的不足,我们提出了一种面向基本信息单元(Basic Information unit)的网页解析方法。本文给出了BIU的定义,利用改进后的DOM解析工具生成了网页DOM树,通过剪枝和BIU识别等操作步骤,最终得到了以基本信息单元为粒度的网页结构,适合用于网页内容的提取。

作者程倩楠谭龙李浩飞

机构地区山东师范大学

出处《科学中国人》 2017年第8Z期213-213,共1页 Scientific Chinese

关键词结构化基本信息单元 BIU 解析粒度 DOM解析工具

分类号 TP393.092 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1于满泉,陈铁睿,许洪波.基于分块的网页信息解析器的研究与设计[J].计算机应用,2005,25(4):974-976. 被引量：55

二级参考文献11

1EMBLEY DW,JIANG YS,NG YK.Record-Boundary Discovery in Web Documents[A].SIGMOD'99 Proceedings[C].1999.
2EMBLEY DW,LI X.Record Location and Reconfiguration in Unstructured Multiple-Record Web Documents[A].WebDB'00 Proceedings[C].2000.
3LIM SJ,NG YK.Extracting Structures of HTML Documents Using a High-Level Stack Machine[M].Information Networking in Asia,Gordon and Breach Science Publishers,Newark,New Jersey,2001.
4LIM SJ,NG YK,YANG XC.Integrating HTML Tables Using Semantic Hierarchies And Meta-Data Sets[A].International Database Engineering and Applications Symposium(IDEAS'02)[C].Edmonton,Canada,2002.
5LIM SJ,NG YK.A Heuristic Approach for Converting HTML Documents to XML Documents[A].Proceedings of the Sixth International Conference on Rules and Objects in Databases(DOOD 2000)[C].London,England,2000.1182-1196.
6LIN SH,HO JM.Discovering Informative Content Blocks from Web Documents[A].KDD 2002[C].2002.588-593.
7YU SP,CAI D,WEN JR,et al.Improving Pseudo-Relevance Feedback in Web Information Retrieval Using Web Page Segmentation[EB/OL].http://research.microsoft.com/research/pubs/view.aspx?type=Technical%20Report&id=632,2002-12.
8WEN JR,SONG RH,CAI D,et al.Microsoft Research Asia at The Web Track of TREC 2003[A].The Twelfth Text Retrieval Conference(TREC'12)[C].2003.
9朱明.[D].中国科学技术大学,2000.
10张华平.ICTCLAS[EB/OL].http://mtgroup.ict.ac.cn/～zhp/ICTCLAS.htm,2002.

共引文献54

1孙皓,董守斌.基于标签密度的自适应正文提取方法[J].郑州大学学报（理学版）,2009,41(1):44-47. 被引量：3
2郑志材,张晶.基于JAVA的网络蜘蛛的设计与实现[J].硅谷,2009,2(14):46-47.
3贾志洋,高炜,王勇刚.结合信息检索技术的半监督文本分类方法[J].苏州大学学报（自然科学版）,2012,28(1):34-39. 被引量：1
4吴鹏飞,孟祥增,刘俊晓,马凤娟.网页区域分割与识别技术[J].现代计算机,2006(6):48-50. 被引量：4
5吴鹏飞,孟祥增,刘俊晓,马凤娟.基于结构与内容的网页主题信息提取研究[J].山东大学学报（理学版）,2006,41(3):41-44. 被引量：15
6郑俭,许家成,冯素梅,叶帮利.对因特网特殊教育资源的整合与多方式传播[J].中国特殊教育,2006(8):46-49. 被引量：4
7邵斐,孙济庆.一种适用于动态网页的网络蜘蛛爬行策略研究[J].情报杂志,2007,26(5):28-30. 被引量：5
8黄文蓓,杨静,顾君忠.基于分块的网页正文信息提取算法研究[J].计算机应用,2007,27(B06):24-26. 被引量：32
9张恒,屈景辉,张亮.网页文本信息提取及结果评价[J].微计算机应用,2007,28(9):921-924. 被引量：10
10李蕾,王劲林,白鹤,胡晶晶.基于FFT的网页正文提取算法研究与实现[J].计算机工程与应用,2007,43(30):148-151. 被引量：15

1苏宁铺设5万组无人货架搅动死人零售市场[J].中国高新区,2018,0(1):15-15.
2保丽霞.人工智能,如何在交通中应用?[J].交通与运输,2018,34(1):31-31. 被引量：2
3邓绯.HTML5中拖动释放特性的API应用[J].福建电脑,2017,33(9):45-45. 被引量：1
4范史文.公路桥梁设计中结构化方法设计要点分析[J].交通世界,2018(1):202-203. 被引量：3
5罗增儒.解题分析——分析解题过程的两个步骤[J].中学数学教学参考,1998,0(5):23-24. 被引量：2
6曾宓.春种一粒粟,秋收万颗籽——音乐戏剧教育中的德育渗透[J].新课程（小学）,2017,0(11):300-300.
7移动互联时代要重视非连续性文本的教育价值与应用[J].福建教育,2017,0(41):6-6.
8彭艳兵,谢馨庭.基于单DOM树特征预分类的自适应Web信息抽取方法[J].电子设计工程,2017,25(19):56-59. 被引量：4
9韦智勇.基于模拟登录数据抓取与解析技术的WEB应用系统集成方式研究[J].北京印刷学院学报,2017,25(4):35-37. 被引量：1
10吴炳方,张淼.从遥感观测数据到数据产品[J].地理学报,2017,72(11):2093-2111. 被引量：17

科学中国人

2017年第8Z期

浏览历史

内容加载中请稍等...

面向BIU的网页解析

参考文献1

二级参考文献11

共引文献54

相关作者

相关机构

相关主题

浏览历史