期刊文献+

基于模式匹配的网页净化方法

Eliminating Noisy Information in Web Pages Based on Pattern Matching
原文传递
导出
摘要 新闻网页主要由大量文字描述构成,相比网页其他区域的噪音内容,其主题内容含有大段连贯的文字。根据这一特点提出一种基于模式匹配的网页净化方法,即在网页源代码中匹配最长文字字符串,从而准确定位主题内容源代码在网页源代码中位置,实现网页净化。本方法可去除来自不同网站网页的噪音内容,无需事先训练数据集来生成模板,不需要生成网页DOM树。对同构、异构和不符合XML规范的网页净化,试验证明效果理想且性能稳定。 A piece of news web page has a lot of words.Compared with the noisy content,the topic content contains larger sections of coherent text.According to this feature,we propose an approach to purify pages based on pattern matching.This searches a page's source code for the location of the longest text string.The longest text string belongs to the topic content.That means we get the location of the topic content.It is a simple and fast approach for isomorphic pages,non-isomorphic pages and pages not meeting XML specification.The test proves it is satisfactory and stable.
作者 曾蒸 马燕
出处 《重庆师范大学学报(自然科学版)》 CAS CSCD 北大核心 2015年第6期103-108,共6页 Journal of Chongqing Normal University:Natural Science
基金 重庆市教育委员会高等教育教学改革项目(No.143031)
关键词 网页噪音 网页净化 信息提取 web page noise web page purification information extraction
  • 相关文献

参考文献11

  • 1张志刚,陈静,李晓明.一种HTML网页净化方法[J].情报学报,2004,23(4):387-393. 被引量:57
  • 2胡飞.基于标记树的Web页面区域划分和搜索方法[J].计算机科学,2005,32(8):182-185. 被引量:7
  • 3毛先领,何靖,闫宏飞.网页去噪:研究综述[J].计算机研究与发展,2010,47(12):2025-2036. 被引量:18
  • 4Gibson D,Punera K,Tomkins A. The volume and evolution of Web page templates[C]//Proc of the 14th int conf on World Wide Web. New York : ACM, 2005 : 830-839.
  • 5Yi L, Liu B, Li X. Eliminating noisy information in Web pages for data mining[C]//Proc of the 9th ACM SIGKDD int conf on knowledge discovery and data mining. New York : ACM, 2003 : 296-305.
  • 6Yi L,Liu B. Web page cleaning for Web mining through feature weighting[C]//Proc of the 18th int joint conf on artificial intelligence (IJCAI-03). San Francisco: Morgan Kaufmann, 2003 : 43-50.
  • 7Cai D,Yu S, Wen J R, et al. Extracting content structure for Web pages based on visual representation[C]//Web technologies and applications: 5th Asia-Pacific Web con{. Berlin.. Springer, 2003 : 406-417.
  • 8Song R,Liu H, Wen J R, et al. Learning block importance models for Web pages[C]//Proc of the 13th int conf on World Wide Web. New York : ACM, 2004 : 211-220.
  • 9Cai D,Yu S,Wen J R,et al. VIPS;A vision based page seg- mentation algorithm, MSR-TR-2003-79 [R/OL]//(2003- 11 ) [ 2009-02-01 ]. http://research, microso{t, com/apps/ pubs/default, aspx? id=70027.
  • 10Yu S,Cai D, Wen J R, et al. Improving pseudo-relevance feedback in Web information retrieval using Web page segmentation[C]. Proc of the 12th World Wide Web conf. New York : ACM, 2003.

二级参考文献71

共引文献76

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部