基于布局特征与语言特征的网页主要内容块发现被引量：8

A WebPage Content Block Detection Method Based on Layout Features and Language Features

下载PDF

导出

摘要本文综合分析了网页内容块各方面的特征,提出了一个联合使用布局特征和语言特征的网页主要内容块发现方法,有效地解决了以往模型中通用性与高准确率不能共存的缺点。该方法使用网页视觉块树表示网页,对网页内容块的布局特征和语言特征分别建立了独立的分类器,然后组合这两个分类器来进行网页内容块分类。实验结果表明,在保持非噪音块召回率在90%以上的同时,组合分类器的准确率达到85%,比只使用布局特征的分类器提高5个百分点,比只使用语言特征的分类器提高15个百分点;在5个站点上的分类结果表明组合分类器在不同站点上性能稳定,具有良好的通用性。 This paper analyzed the different feature types of webpage blocks, and presented a webpage content block detection rnethod based on layout features and language features, which effectively resolved the seesaw problern be-tween detection accuracy and model generality across different types of webpages. The method used the vision-block tree to represent webpage, built two individual classifiers respectively for webpage＇s layout features and language features, and used different strategies to combine these two classifiers. The experimental results show that, with holding the content block detection recall higher than 90%, the combined classifiers＇ accuracy can reach 85 per-cents, 5 percents higher than the classifier using only the layout features, and 15 percents higher than the classifier using only the language features; and the experimental results also show that the combined classifiers obtained good detection performance over five selected websites which means that it have good generality.

作者韩先培刘康赵军

机构地区中国科学院自动化研究所模式识别国家重点实验室

出处《中文信息学报》 CSCD 北大核心 2008年第1期15-21,共7页 Journal of Chinese Information Processing

基金国家自然科学基金资助项目(60673042) 北京市自然科学基金资助项目(4052027 4073043)

关键词计算机应用中文信息处理网页清理主要内容块发现网页切分布局特征语言特征 computer application Chinese information processing webpage cleaning content block detection webpage segment layout feature language feature

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献11

1Rupesh R.Mehta,Harish Karnick,and Pabitra Mitra.Semantic Structure Analysis of Web Documents.Digital Document Processing[M],Springer 2007.
2Deng Cai,Shipeng Yu,Ji-Rong Wen and WeiYing Ma.VIPS:A Vision based Page Segmentation Algorithm[R].MSR-TR-2003-79.2003.
3Lan Yi,Bing Liu,Xiaoli Li.Eliminating Noisy Information in Web Pages for Data Mining[A].The Ninth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining[C].2003.
4Ziv Bar-Yossef,Sridhar Rajagopalan.Template Detection via Data Mining and its Applications[A].The eleventh international world wide web conference[C].2002.
5Suhit Gupta,Gail Kaiser,David Neistadt,Peter Grimm.DOM-based Content Extraction of HTML Documents[A].The Twelfth International World Wide Web Conference[C].2003.
6Deepayan CHakrabarti,Ravi Kumar,Kunal Punera.Page-level Template Detection via Isotonic Smoothing[A].The 16th International World Wide Web Conference[C].2007.
7Sandip Debnath,Prasenjit Mitra,C.Lee Giles.Automatic Extraction of Informative Blocks from Webpages[A].2005 ACM Symposium on Applied Computing[C].2005.
8Ruihua Song,Haifeng Liu,Ji-Rong Wen,Wei-Ying Ma.Learning Block Importance Models for Web Pages[A].13th International WWW Conference[C].2005.
9Shian-Hua Lin,Jan-Ming Ho.Discovering Informative Content Blocks from Web Document[A].The Eighth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining[C].2002.
10Rupesh R.Mehta,Pabitra Mitra,Harish Karnick.Extracting Semantic Structure of Web Documents Using Content and Visual Information[A].13th International WWW Conference[C].2005.

同被引文献78

1周翔.网页语言的自动选择[J].中国科技信息,2005(20A):33-33. 被引量：1
2欧阳平凡.三种动态网页语言ASP、JSP、PHP之比较[J].电脑知识与技术,2006,1(1):124-125. 被引量：14
3刘华.网页信息抽取及建库系统C#实现[J].计算机工程,2006,32(16):49-51. 被引量：5
4胡国平,张巍,王仁华.基于双层决策的新闻网页正文精确抽取[J].中文信息学报,2006,20(6):1-9. 被引量：16
5刘迁,焦慧,贾惠波.信息抽取技术的发展现状及构建方法的研究[J].计算机应用研究,2007,24(7):6-9. 被引量：41
6J. Zhang, M. S. Ackerman, and L. Adamic. Expertise networks in online communities: structure and algorithms[C]//Proc. 16th WWW, Banff, Canada May 2007. 2007:221-230.
7I. Muslea, S. Minton, C. Knoblock. A Hierarchical Approach to Wrapper Induction [C]//Third International Conference on Autonomous Agents, (Agents' 99), Seattle, May 1999.
8S. Soderland. Learning Information Extraction Rules for Semistructured and Free Text[J]. Machine Learning, 1999.
9Liu B. , Grossman R. , Zhai Y. Mining Data Records in Web Pages [C]//KDD 2003 : 601-606.
10Z. Yanhong and L. Bing, Web Data Extraction Based on Partial Tree Alignment[C]//Proceedings of the ACM, 2005: 76-85.

引证文献8

1王允,李弼程,林琛.基于网页布局相似度的Web论坛数据抽取[J].中文信息学报,2010,24(2):68-75. 被引量：9
2施洋,张奇,黄萱菁.含有语义特征的网页新闻自动抽取[J].计算机工程,2010,36(7):173-175. 被引量：5
3郑敏.基于动态匹配的主题相关度判定算法[J].微电子学与计算机,2012,29(1):105-108. 被引量：1
4邵俊.基于视觉热区的网页内容抽取方法[J].计算机应用与软件,2012,29(6):199-201. 被引量：1
5伍杰华,倪振声.改进多分类器集成AdaBoost算法的Web主题分类[J].计算机应用与软件,2013,30(11):64-67. 被引量：2
6吴秦,胡丽娟,梁久祯.基于分块重要度和二维条件随机场的Web信息抽取[J].南京大学学报（自然科学版）,2014,50(1):79-86. 被引量：5
7李天阳,王新.基于专家主页的信息源获取策略研究[J].情报理论与实践,2015,38(11):115-119.
8尹楠.学术期刊投稿网站网页标记语言正确性之探讨——以图书情报类期刊为例[J].软件,2017,38(11):181-186. 被引量：1

二级引证文献24

1李国华,昝红英.基于相似度的网页标题抽取方法[J].中文信息学报,2011,25(2):32-37. 被引量：6
2陈钊,李嘉.基于语义的林产品贸易文本信息结构化研究[J].计算机工程,2011,37(20):261-263. 被引量：2
3陈焱.网络舆情话题的数据立方体模型分析[J].图书情报工作,2011,55(24):75-79.
4许珂,蒙祖强,林啓峰.基于语义关联和信息增益的TFIDF改进算法研究[J].计算机应用研究,2012,29(2):557-560. 被引量：8
5邵俊.基于视觉热区的网页内容抽取方法[J].计算机应用与软件,2012,29(6):199-201. 被引量：1
6汪洋,帅建梅.基于语义扩展模型的中文网页关键词抽取[J].计算机工程,2012,38(22):163-166. 被引量：4
7伍杰华,倪振声,陈有青.一种基于逆序匹配重复模式的主题信息提取方法[J].计算机应用与软件,2013,30(4):88-91.
8周建,汤进,罗斌.基于DOM结构树的网页正文信息分段方法[J].计算机与现代化,2013(10):229-232. 被引量：2
9李湘东,霍亚勇,黄莉.图书网页的自动识别及书目信息抽取研究[J].现代图书情报技术,2014(4):71-77. 被引量：3
10谢明山,邓艳芳.用户反馈式主题相关度算法研究[J].网络安全技术与应用,2014(8):94-94.

1黄德才,钟艳平,胡嘉.基于主色调的图像布局特征提取及相似性匹配算法[J].浙江工业大学学报,2007,35(1):46-50. 被引量：1
2陈剑雄,张蓓.图像检索中颜色特征提取算法的改进[J].情报探索,2010(9):92-94.
3丁杰,徐俊刚.IPSMS:一个网络舆情监控系统的设计与实现[J].计算机应用与软件,2010,27(4):188-190. 被引量：21
4姬鑫,钟诚.基于分块的新闻网页信息抽取算法[J].计算机应用与软件,2015,32(4):317-322. 被引量：6
5百分百.让你的U盘做到100%预防病毒[J].网络与信息,2008(1):63-63.
6余忠林,熊萍.矿山企业分布式电子商务模型研究[J].安徽理工大学学报（自然科学版）,2005,25(3):57-61.
7李嘉,徐前,王梓,陈钊.基于语义的林产品贸易Web信息抽取算法[J].计算机工程与应用,2014,50(19):199-204. 被引量：1
8天涯.安全不能共存?巧解移动证书冲突[J].电脑与电信,2005(10):78-78.
9欧亚梅.网页设计中的视觉节省研究[J].武汉工程职业技术学院学报,2012,24(4):36-39. 被引量：2
10熊忠阳,蔺显强,张玉芳,牙漫.结合网页结构与文本特征的正文提取方法[J].计算机工程,2013,39(12):200-203. 被引量：15

中文信息学报

2008年第1期

浏览历史

内容加载中请稍等...

基于布局特征与语言特征的网页主要内容块发现被引量：8

参考文献11

同被引文献78

引证文献8

二级引证文献24

相关作者

相关机构

相关主题

浏览历史

基于布局特征与语言特征的网页主要内容块发现 被引量：8

参考文献11

同被引文献78

引证文献8

二级引证文献24

相关作者

相关机构

相关主题

浏览历史

基于布局特征与语言特征的网页主要内容块发现被引量：8