期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
利用JTidy和XML实现Web数据信息的批量提取 被引量:2
1
作者 刘钊夏 何明昕 《计算机工程与设计》 CSCD 北大核心 2010年第6期1243-1246,共4页
为了有效地在Web上进行数据信息的提取,实现Web数据的清理与集成,针对发布批量格式化数据的网页类型,提出了利用XML和JTidy自动从Web页面批量提取数据信息的方法。根据该类网页的特点,基于开发一种通用程序的思想,对页面标签结构进行分... 为了有效地在Web上进行数据信息的提取,实现Web数据的清理与集成,针对发布批量格式化数据的网页类型,提出了利用XML和JTidy自动从Web页面批量提取数据信息的方法。根据该类网页的特点,基于开发一种通用程序的思想,对页面标签结构进行分析与分类,讨论了识别数据元素和对数据元素进行分组等提取过程中的难点,在此基础上建立了总体扫描与提取的算法。实验结果表明了批量提取信息方法的可行性与有效性。 展开更多
关键词 Web内容提取 XML jTidy工具包 dom4j工具包 标记路径 频繁路径
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部