摘要
Web网页作为巨大的数据资源,其页面信息的提取也成为研究的热点之一。通过对XML特点的分析,利用HTML Tidy将HTML文档转换成XML文档,讨论了基于XML的Web数据的提取方法,将其中有用的信息存储到数据库中,实现Web页面信息的提取。
As an enmormous data source,retrieving knowledge from Web is one of the hot points in the information study field now.The paper analyses the trait of XML,then transforms the HTML document to XML document by HTML Tidy,and discusses the retrieving method of the web data mining based on XML.It extracts the useful information and store it into database,achieve the goal of retrieving the information from Web.
出处
《软件导刊》
2008年第9期65-67,共3页
Software Guide
基金
安徽省教育厅自然科学研究重点项目(2005KJ004ZD)
关键词
数据提取
XML
结构识别
Data Extraction
XML
Identification of Structure