期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于模式匹配的网页净化方法
1
作者 曾蒸 马燕 《重庆师范大学学报(自然科学版)》 CAS CSCD 北大核心 2015年第6期103-108,共6页
新闻网页主要由大量文字描述构成,相比网页其他区域的噪音内容,其主题内容含有大段连贯的文字。根据这一特点提出一种基于模式匹配的网页净化方法,即在网页源代码中匹配最长文字字符串,从而准确定位主题内容源代码在网页源代码中位置,... 新闻网页主要由大量文字描述构成,相比网页其他区域的噪音内容,其主题内容含有大段连贯的文字。根据这一特点提出一种基于模式匹配的网页净化方法,即在网页源代码中匹配最长文字字符串,从而准确定位主题内容源代码在网页源代码中位置,实现网页净化。本方法可去除来自不同网站网页的噪音内容,无需事先训练数据集来生成模板,不需要生成网页DOM树。对同构、异构和不符合XML规范的网页净化,试验证明效果理想且性能稳定。 展开更多
关键词 网页噪音 网页净化 信息提取
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部