基于标记树的Web页面区域划分和搜索方法被引量：7

How to Get the Main Part of Web Pages

下载PDF

导出

摘要 Web页面的布局可以分为:主要内容、单位标识、导航信息、交互信息和版权申明。我们在处理这些页面时往往只关心主要内容,而且可以从语义上快速定位到主要内容,但是软件系统要做到这一点就非常困难。本文提出一种基于标记树的Web页面区域划分和搜索方法,让软件系统可以忽略别的区域,快速定位到主要内容。对于大量Web页面处理而言,这种方法可以起到减少时间,缩小空间的作用,Web页面越多,效果就越显著。 A Web page can be divided into several parts, they are “the main part, the department logo, the navigation bar, the hyperlinks and the copyright”. How to get the main part of Web pages. It＇s easy for humankind, but hard for computer pocessing. In this paper we tackle the problem by exploring a tag tree, which can suitably express the structure and the layout of Web pages. Here we propose a method to build the tag tree, in addition to develop a single path tag tree named tag tree model, which only describe the main part of Web pages.

作者胡飞

机构地区重庆教育学院

出处《计算机科学》 CSCD 北大核心 2005年第8期182-185,共4页 Computer Science

关键词 Web页面布局页面结构页面区域标记树标记树模式 WEB页面搜索方法区域划分快速定位软件系统 Web page layout, Web page structure, Web page area, Tag tree, Tag tree model

分类号 TP393.092 [自动化与计算机技术—计算机应用技术] P315.5 [天文地球—地震学]

引文网络
相关文献

参考文献7

1常育红,姜哲,朱小燕.基于标记树表示方法的页面结构分析[J].计算机工程与应用,2004,40(16):129-132. 被引量：24
2唐翔弘,汪林林,文展.基于Web的数据采集[J].计算机科学,2004,31(8):74-76. 被引量：2
3吴扬扬,陈锻生.识别和抽取Web列表中的关系信息[J].计算机科学,2004,31(6):86-88. 被引量：3
4Chen Yu, et al. Detecting web page structure for adaptive viewing on small form factor devices. In: Proc. of the 11th World Wide Web Conf. (WWW 12), 2003.
5Crescenzi V, Merialdo P, Missier P. Fine-grain web site structure discovery. In: Proc. of the fifth ACM intl. workshop on Web information and data management, New Orleans, Louisiana,USA, 2003.
6Gedov V, et al. Matching web site structure and content. WWW (Alternate Track Papers & Posters)2004. 286～287.
7张文斌,陈恩红,王进.一种基于多叉树的HTML到XML的转换方法[J].小型微型计算机系统,2003,24(4):713-715. 被引量：4

二级参考文献17

1[1]Extensible Markup Language (XML) 1.0 (Second Edition). W3C Recommendation 6 October 2000[EB/OL]. http://www.w3.org/TR/REC-xml.
2[2]Raggett D, Le Hors A and Jacobs I. Hypertext markup language 4.0 Reference Specification[EB/OL]. December 1997. http://www.w3.org/TR/REC-html40.
3[3]Guan T, Wong K F. KPS: a Web information mining algorithm[J]. Computer Networks, Elsevier, 1999.31:1495～1507
4[1]Marchal B.XML示例程序导学.北京:清华大学出版社,2002
5Hammer J.Hector Garcia-Molina,Svetlozar Nestorov,Ramana Yerneni,Merkus M.Breuning,and Vasilis Vassalos.Templatebased wrappers in the TSIMMIS system.In:Proc.of ACM SIMOD Conf.on Management of Data,Tucson,Arizona,1998
6C-ruser J-R,et al.Wrapper generation for web accessible data source.In:Proc.ol the CoopIS,1998
7Kusherick N,et al.Wrapper induction for information extraction.IJCAI-97,pp.729-737
8Brin S.Extracting patterns and relations from the World-Wide Web.In:Proc.of the 1998 Intl.Workshop on the Web and Databases,1998
9Agichtein E,Gravano L.Snowball:Extracting Relations from Large Plain-Text Collections.In:Proc.of the 5th ACM Intl.Conf.on Digital Libraries,2000
10Wu Yangyang,Yokota H.A method of recognizing tables and lists on the Web.In:Proc.of Int.Conf.on Communication,Internet,and Information Technology (CIIT 2002),USA,pp.479-485

共引文献28

1欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
2张聚弘,山岚.基于页面对比分析的数据提取[J].计算机与数字工程,2006,34(1):49-52. 被引量：1
3吴鹏飞,孟祥增,刘俊晓,马凤娟.网页区域分割与识别技术[J].现代计算机,2006(6):48-50. 被引量：4
4吴鹏飞,孟祥增,刘俊晓,马凤娟.基于结构与内容的网页主题信息提取研究[J].山东大学学报（理学版）,2006,41(3):41-44. 被引量：15
5贡正仙,朱巧明,李培峰.基于相似页面的Web信息抽取系统的实现[J].计算机应用,2006,26(8):1983-1986. 被引量：3
6谭新良,蔡代纯.基于XML文档检索的搜索引擎设计[J].计算机科学,2007,34(3):104-106. 被引量：1
7张恒,屈景辉,张亮.网页文本信息提取及结果评价[J].微计算机应用,2007,28(9):921-924. 被引量：10
8彭涛,曾蒸,代晓红,胡飞.基于语义分层迭代法的网页挖掘技术[J].重庆工商大学学报（自然科学版）,2007,24(5):477-480. 被引量：2
9李蕾,王劲林,白鹤,胡晶晶.基于FFT的网页正文提取算法研究与实现[J].计算机工程与应用,2007,43(30):148-151. 被引量：15
10赵洪,肖洪,薛德军,师庆辉.Web表格信息抽取研究综述[J].现代图书情报技术,2008(3):24-31. 被引量：11

同被引文献37

1张志刚,陈静,李晓明.一种HTML网页净化方法[J].情报学报,2004,23(4):387-393. 被引量：57
2常育红,姜哲,朱小燕.基于标记树表示方法的页面结构分析[J].计算机工程与应用,2004,40(16):129-132. 被引量：24
3朱精南,赵明生.网页版面中区域几何信息的确定[J].计算机工程,2004,30(10):45-48. 被引量：4
4王琦,唐世渭,杨冬青,王腾蛟.基于DOM的网页主题信息自动提取[J].计算机研究与发展,2004,41(10):1786-1792. 被引量：81
5于满泉,陈铁睿,许洪波.基于分块的网页信息解析器的研究与设计[J].计算机应用,2005,25(4):974-976. 被引量：55
6刘晨曦,吴扬扬.一种基于块分析的网页去噪音方法[J].广西师范大学学报（自然科学版）,2007,25(2):149-152. 被引量：8
7黄文蓓,杨静,顾君忠.基于分块的网页正文信息提取算法研究[J].计算机应用,2007,27(B06):24-26. 被引量：32
8Sebastiani F.Machine Learning in Automated Text Categorization[J].ACM Computing Surveys,2002,34(1):1-47.
9Sudarshan Chawathe HG JH.The TSIMMIS Project:Integration of Heterogeneous Information Sources[C].Proceedings of IPSJ Conference,1994:7-18.
10S Dumais H C.Hierarchical Classification of Web Content[C].Proceedings of the 23rd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.Athens,Greece,2000.256-263.

引证文献7

1吴鹏飞,孟祥增,刘俊晓,马凤娟.网页区域分割与识别技术[J].现代计算机,2006(6):48-50. 被引量：4
2吴鹏飞,孟祥增,刘俊晓,马凤娟.基于结构与内容的网页主题信息提取研究[J].山东大学学报（理学版）,2006,41(3):41-44. 被引量：15
3李蕾,王劲林,白鹤,胡晶晶.基于FFT的网页正文提取算法研究与实现[J].计算机工程与应用,2007,43(30):148-151. 被引量：15
4钱建立,刘军兰,张薇.开放存取期刊网站结构和页面分类研究[J].情报杂志,2009,28(7):137-140. 被引量：4
5张春元.基于CRFs的新闻网页主题内容自动抽取方法[J].广西师范大学学报（自然科学版）,2011,29(1):138-142. 被引量：1
6胡飞,黄军建,成平广,席海,李军.基于统计的网页净化模板生成算法[J].科学技术与工程,2013,21(4):1060-1063.
7曾蒸,马燕.基于模式匹配的网页净化方法[J].重庆师范大学学报（自然科学版）,2015,32(6):103-108.

二级引证文献36

1刘茵,苏一丹.一种基于网页结构特征的用户建模技术[J].电脑与电信,2007(5):51-52.
2施水才,程涛,王霞,吕学强.基于网页内容的广告推介研究[J].中文信息学报,2007,21(4):42-47. 被引量：1
3吴鹏飞,孟祥增,马凤娟,鹿文鹏.Web多媒体相关文本提取研究[J].现代图书情报技术,2007(9):62-65.
4彭浩,王雅琳.一个面向实时网页分类的主题特征提取算法[J].计算机与现代化,2008(7):8-11. 被引量：2
5孙晓辉,刘建,王劲林,陈晓.基于CSS的网页分割算法[J].微计算机应用,2008,29(9):46-51. 被引量：4
6孙桂煌,刘发升.基于正文特征的网页正文信息提取方法[J].现代计算机,2008,14(9):34-38. 被引量：5
7吐尔洪.吾司曼,维尼拉.木沙江.维、哈、柯多文种搜索引擎中网页爬行器(Crawler)的设计与实现[J].新疆大学学报（自然科学版）,2009,26(1):103-106. 被引量：2
8刘竟,侯汉清.学科门户智能搜索引擎的设计与构建——农业史门户搜索引擎的实验[J].情报学报,2009,28(1):114-120. 被引量：2
9熊惠荟,欧阳君.基于模板法的网页英语试卷自动抽取技术的研究[J].计算机与数字工程,2009,37(4):50-52. 被引量：1
10吐尔地.托合提,维尼拉.木沙江,艾斯卡尔.艾木都拉.维、哈、柯多文种全文搜索引擎的设计与实现[J].计算机应用与软件,2009,26(6):96-98. 被引量：5

1李明,张为群.基于标记树的WEB页面净化技术研究[J].西南师范大学学报（自然科学版）,2006,31(5):128-131. 被引量：3
2常育红,姜哲,朱小燕.基于标记树表示方法的页面结构分析[J].计算机工程与应用,2004,40(16):129-132. 被引量：24
3陈华竣,郑智,倪德明.真前缀标记树——一种面向用户的子树选取策略表示方法[J].计算机技术与发展,2006,16(12):9-12. 被引量：1
4陈华竣.真前缀标记树在子树选取策略中的应用[J].广东技术师范学院学报,2006,27(6):32-34.
5徐德智,吴敏,Nkengu Damas.XML数据库的树模型抽象及其查询[J].计算机工程,2003,29(14):12-14. 被引量：1
6大江东去.激活IE9平台预览版的全界面[J].电脑迷,2010(23):75-75.
7雷庆,熊汉琛.基于标记二叉树的XML数据模式提取算法[J].计算机工程与设计,2009,30(13):3205-3208. 被引量：1
8刘蕴,侯艳芳.Web Form中的页面处理[J].价值工程,2012,31(9):141-142.
9钱海军.基于HTML5移动Web页面开发技术研究[J].电脑与信息技术,2013,21(1):50-52. 被引量：20
10徐德智,H. Sidi.基于树模型的XML查询[J].企业技术开发（下半月）,2003,27(4):7-8. 被引量：2

计算机科学

2005年第8期

浏览历史

内容加载中请稍等...

基于标记树的Web页面区域划分和搜索方法被引量：7

参考文献7

二级参考文献17

共引文献28

同被引文献37

引证文献7

二级引证文献36

相关作者

相关机构

相关主题

浏览历史

基于标记树的Web页面区域划分和搜索方法 被引量：7

参考文献7

二级参考文献17

共引文献28

同被引文献37

引证文献7

二级引证文献36

相关作者

相关机构

相关主题

浏览历史

基于标记树的Web页面区域划分和搜索方法被引量：7