期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
网页信息提取技术 被引量:1
1
作者 邵振凯 《计算机技术与发展》 2013年第9期36-38,42,共4页
随着互联网的快速发展,Web页面上的信息量已变得非常巨大,面对网页上海量的信息资源,如何快速有效地检索及发现有价值的信息已成为Web研究的一个重要方面。对此提出了一种标签提取方法。利用JTidy将网页优化为格式良好的HTML文档并解析... 随着互联网的快速发展,Web页面上的信息量已变得非常巨大,面对网页上海量的信息资源,如何快速有效地检索及发现有价值的信息已成为Web研究的一个重要方面。对此提出了一种标签提取方法。利用JTidy将网页优化为格式良好的HTML文档并解析为DOM树,然后用标签提取方法对该DOM树中包含有文本信息内容的叶子节点标签进行提取,把用于控制网页交互性和显示的标签删除掉,并运用基于标点符号的信息提取方法去除版权说明等信息。对不同网站的网页进行抽取实验,结果表明标签提取方法不但通用性强,而且能够准确地提取网页的主题信息。 展开更多
关键词 DOM 标签提取 信息提取 网页净化
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部