期刊文献+

网页清洗系统基于静态正则表达式的实现 被引量:5

Implementation of Webpage Cleaning System Exploiting Static Regular Expression
下载PDF
导出
摘要 本文介绍了一种新的基于c++模板技术实现的正则表达式引擎:Xpressive.并通过应用Xpressive技术中的静态正则表达式来实现网页清洗。该实现有效的避免了传统方法分析网页DOM树算法复杂不易实现的缺点,在保证算法简单和结果正确的同时,还以测试数据证明应用静态正则表达式运行速度上的优势。 This article first introduces Xpressive: a newly designed regular expression engine which exploits c++ template technology. Then the author implements a webpage cleaning system using the static regular expression introduced by Xpressive engine. This implementation avoids the difficulty of DOM tree analysis algorithm used by traditional webpage cleaning system. This paper also provides testing data to prove that the new implementation has higher running speed as well as its algorithm's simplicity and correctness.
出处 《微计算机信息》 北大核心 2007年第36期226-227,共2页 Control & Automation
基金 863计划(2003AA116060)基于国产软硬件的多通道网络教育关键技术与应用研究
关键词 网页清洗 静态正则表达式 xpressive wcbpagc cleaning, static regular expression, Xpressivc
  • 相关文献

参考文献3

二级参考文献9

  • 1谢立,王永强,于德敏,许增朴.利用图像的灰度特征实现半透明产品的识别[J].微计算机信息,2005,21(07X):44-45. 被引量:10
  • 2The Single UNIX Specification, Version 2 [OL].http://www. opengroup.org/onlinepubs/007908799/xbd/re.html
  • 3吕晓波.正则表达式使用详解[OL].http://dev.csdn.net/article/8/8254.shtm,.
  • 4SUN公司.The Java Tutorial[OL].http:http://ava.sun.com/docs/books/tutorial/index.html,.
  • 5程冲.基于Java平台的网络信息检索定题服务系统研究报告[Z].南京农业大学,2004..
  • 6Finding near-replicas of documents on the web. Narayanan Shivakumar, et al. WebDB 1998
  • 7Finding replicated web collections. Junghoo Cho, N. Shivakumar et al. In Proceedings of 2000 ACM International Conference on Management of Data (SIGMOD), May 2000.
  • 8闫宏飞,李晓明.关于中国Web的大小、形状和结构[J].计算机研究与发展,2002,39(8):958-967. 被引量:17
  • 9周源远,王继成,郑刚,张福炎.Web页面清洗技术的研究与实现[J].计算机工程,2002,28(9):48-50. 被引量:20

共引文献16

同被引文献65

引证文献5

二级引证文献26

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部