期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于DOM树及行文本统计去噪的网页文本抽取技术 被引量:4
1
作者 李霞 蒋盛益 《山东大学学报(理学版)》 CAS CSCD 北大核心 2012年第3期38-42,共5页
首先对网页源码文本统一编码转为UTF格式,然后把HTML网页文档转换为XML文档并解析为一棵DOM树。依据XML语言特点及噪声特征规则先对DOM树的噪声节点进行过滤删除,然后依据中文标点符号统计方法提取网页正文内容,并在此基础上利用行文本... 首先对网页源码文本统一编码转为UTF格式,然后把HTML网页文档转换为XML文档并解析为一棵DOM树。依据XML语言特点及噪声特征规则先对DOM树的噪声节点进行过滤删除,然后依据中文标点符号统计方法提取网页正文内容,并在此基础上利用行文本统计方法去除提取出的正文中存在的噪声信息,最后得到网页正文文本。对来自结构完全不同的主流与非主流的中英文新闻网站上的2 000篇网页进行实验,结果表明本文提出的方法具有较高的抽取准确率,并具有很好的通用性和实现简单的特点,适用于针对互联网中不同网站新闻文本信息的自动采集。 展开更多
关键词 网页文本抽取 DOM树 行文本统计 标点符号统计
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部