-
题名网页信息提取技术
被引量:1
- 1
-
-
作者
邵振凯
-
机构
安徽理工大学计算机科学与工程学院
-
出处
《计算机技术与发展》
2013年第9期36-38,42,共4页
-
基金
安徽省自然科学基金(11040606M135)
-
文摘
随着互联网的快速发展,Web页面上的信息量已变得非常巨大,面对网页上海量的信息资源,如何快速有效地检索及发现有价值的信息已成为Web研究的一个重要方面。对此提出了一种标签提取方法。利用JTidy将网页优化为格式良好的HTML文档并解析为DOM树,然后用标签提取方法对该DOM树中包含有文本信息内容的叶子节点标签进行提取,把用于控制网页交互性和显示的标签删除掉,并运用基于标点符号的信息提取方法去除版权说明等信息。对不同网站的网页进行抽取实验,结果表明标签提取方法不但通用性强,而且能够准确地提取网页的主题信息。
-
关键词
DOM
标签提取
信息提取
网页净化
-
Keywords
DOM
tags extraction
information extraction
Web page purifying
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-