基于模式匹配的网页净化方法

Eliminating Noisy Information in Web Pages Based on Pattern Matching

导出

摘要新闻网页主要由大量文字描述构成,相比网页其他区域的噪音内容,其主题内容含有大段连贯的文字。根据这一特点提出一种基于模式匹配的网页净化方法,即在网页源代码中匹配最长文字字符串,从而准确定位主题内容源代码在网页源代码中位置,实现网页净化。本方法可去除来自不同网站网页的噪音内容,无需事先训练数据集来生成模板,不需要生成网页DOM树。对同构、异构和不符合XML规范的网页净化,试验证明效果理想且性能稳定。 A piece of news web page has a lot of words.Compared with the noisy content,the topic content contains larger sections of coherent text.According to this feature,we propose an approach to purify pages based on pattern matching.This searches a page＇s source code for the location of the longest text string.The longest text string belongs to the topic content.That means we get the location of the topic content.It is a simple and fast approach for isomorphic pages,non-isomorphic pages and pages not meeting XML specification.The test proves it is satisfactory and stable.

作者曾蒸马燕

机构地区重庆师范大学传媒学院/新媒体学院重庆师范大学计算机与信息科学学院

出处《重庆师范大学学报（自然科学版）》 CAS CSCD 北大核心 2015年第6期103-108,共6页 Journal of Chongqing Normal University:Natural Science

基金重庆市教育委员会高等教育教学改革项目(No.143031)

关键词网页噪音网页净化信息提取 web page noise web page purification information extraction

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献11

1张志刚,陈静,李晓明.一种HTML网页净化方法[J].情报学报,2004,23(4):387-393. 被引量：57
2胡飞.基于标记树的Web页面区域划分和搜索方法[J].计算机科学,2005,32(8):182-185. 被引量：7
3毛先领,何靖,闫宏飞.网页去噪:研究综述[J].计算机研究与发展,2010,47(12):2025-2036. 被引量：18
4Gibson D,Punera K,Tomkins A. The volume and evolution of Web page templates[C]//Proc of the 14th int conf on World Wide Web. New York : ACM, 2005 : 830-839.
5Yi L, Liu B, Li X. Eliminating noisy information in Web pages for data mining[C]//Proc of the 9th ACM SIGKDD int conf on knowledge discovery and data mining. New York : ACM, 2003 : 296-305.
6Yi L,Liu B. Web page cleaning for Web mining through feature weighting[C]//Proc of the 18th int joint conf on artificial intelligence (IJCAI-03). San Francisco: Morgan Kaufmann, 2003 : 43-50.
7Cai D,Yu S, Wen J R, et al. Extracting content structure for Web pages based on visual representation[C]//Web technologies and applications: 5th Asia-Pacific Web con{. Berlin.. Springer, 2003 : 406-417.
8Song R,Liu H, Wen J R, et al. Learning block importance models for Web pages[C]//Proc of the 13th int conf on World Wide Web. New York : ACM, 2004 : 211-220.
9Cai D,Yu S,Wen J R,et al. VIPS;A vision based page seg- mentation algorithm, MSR-TR-2003-79 [R/OL]//(2003- 11 ) [ 2009-02-01 ]. http://research, microso{t, com/apps/ pubs/default, aspx? id=70027.
10Yu S,Cai D, Wen J R, et al. Improving pseudo-relevance feedback in Web information retrieval using Web page segmentation[C]. Proc of the 12th World Wide Web conf. New York : ACM, 2003.

二级参考文献71

1封化民,刘飚,刘艳敏,方勇,宋国森.含有位置坐标树的Web页面分析和内容提取框架[J].清华大学学报（自然科学版）,2005,45(S1):1767-1771. 被引量：8
2欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
3荆涛,左万利.基于可视布局信息的网页噪音去除算法[J].华南理工大学学报（自然科学版）,2004,32(z1):84-87. 被引量：21
4张志刚,陈静,李晓明.一种HTML网页净化方法[J].情报学报,2004,23(4):387-393. 被引量：57
5常育红,姜哲,朱小燕.基于标记树表示方法的页面结构分析[J].计算机工程与应用,2004,40(16):129-132. 被引量：24
6吴扬扬,陈锻生.识别和抽取Web列表中的关系信息[J].计算机科学,2004,31(6):86-88. 被引量：3
7唐翔弘,汪林林,文展.基于Web的数据采集[J].计算机科学,2004,31(8):74-76. 被引量：2
8袁明轩,张选平,蒋宇,赵仲孟.一种基于同层网页相似性去除网页噪音的方法[J].计算机工程,2006,32(23):61-63. 被引量：3
9刘晨曦,吴扬扬.一种基于块分析的网页去噪音方法[J].广西师范大学学报（自然科学版）,2007,25(2):149-152. 被引量：8
10Shian-Hua Lin, Jan-Ming Ho. Discovering informative content blocks from Web documents. In: SIGKDD, 2002

共引文献76

1欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
2孙皓,董守斌.基于标签密度的自适应正文提取方法[J].郑州大学学报（理学版）,2009,41(1):44-47. 被引量：3
3徐慧,窦子辉,杨林,陈雪.面向终端用户的网页过滤模板动态生成技术研究[J].计算机科学,2012,39(S2):90-93. 被引量：2
4陈雪,徐慧,沈家峻.基于网页结构的网页去噪算法设计[J].软件,2013,34(8):95-97. 被引量：1
5胡冬梅.泰达图书馆个性化信息服务系统的探索与实践[J].现代图书情报技术,2004(10):92-95. 被引量：8
6孟涛,闫宏飞,王继民.Web网页信息变化的时间局部性规律及其验证[J].情报学报,2005,24(4):398-406. 被引量：8
7翟东升,余旸.国际贸易技术壁垒信息采集系统设计与实现[J].情报杂志,2005,24(8):33-35. 被引量：3
8张健,欧红.应用正则式抽取Google网页内容[J].现代图书情报技术,2005(9):50-53. 被引量：6
9翟东升,余旸,李莉.网络信息抽取技术及其在TBT预警中的应用[J].现代图书情报技术,2005(9):76-79. 被引量：1
10吴鹏飞,孟祥增,刘俊晓,马凤娟.网页区域分割与识别技术[J].现代计算机,2006(6):48-50. 被引量：4

1干文敏,李俊,李剑.一种基于单模型的网页净化方法[J].计算机与现代化,2012(2):128-130.
2胡飞,杨华千,韦鹏程,彭涛,蒲昌玖.基于局部最优标签树的网页净化方法[J].科学技术与工程,2012,20(35):9556-9561.
3时达明,林鸿飞,杨志豪.基于网页框架和规则的网页噪音去除方法[J].计算机工程,2007,33(19):276-278. 被引量：17
4《软件学报》有关长文的征文通知[J].软件学报,2006,17(8).
5《软件学报》有关长文的征文通知[J].软件学报,2005,16(6):1158-1158.
6《软件学报》有关长文的征文通知[J].软件学报,2005,16(9).
7《软件学报》有关长文的征文通知[J].软件学报,2006,17(7).
8锁志海,张晓玲.网上交易平台模型的设计与实现[J].中国教育信息化（高教职教）,2007(12S):40-42. 被引量：4
9《软件学报》有关长文的征文通知[J].软件学报,2006,17(6).
10《软件学报》有关长文的征文通知[J].软件学报,2006,17(5).

重庆师范大学学报（自然科学版）

2015年第6期

浏览历史

内容加载中请稍等...

基于模式匹配的网页净化方法

参考文献11

二级参考文献71

共引文献76

相关作者

相关机构

相关主题

浏览历史