期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
利用JTidy和XML实现Web数据信息的批量提取 被引量:2
1
作者 刘钊夏 何明昕 《计算机工程与设计》 CSCD 北大核心 2010年第6期1243-1246,共4页
为了有效地在Web上进行数据信息的提取,实现Web数据的清理与集成,针对发布批量格式化数据的网页类型,提出了利用XML和JTidy自动从Web页面批量提取数据信息的方法。根据该类网页的特点,基于开发一种通用程序的思想,对页面标签结构进行分... 为了有效地在Web上进行数据信息的提取,实现Web数据的清理与集成,针对发布批量格式化数据的网页类型,提出了利用XML和JTidy自动从Web页面批量提取数据信息的方法。根据该类网页的特点,基于开发一种通用程序的思想,对页面标签结构进行分析与分类,讨论了识别数据元素和对数据元素进行分组等提取过程中的难点,在此基础上建立了总体扫描与提取的算法。实验结果表明了批量提取信息方法的可行性与有效性。 展开更多
关键词 Web内容提取 XML jtidy工具包 Dom4j工具包 标记路径 频繁路径
下载PDF
信息抽取系统在高校数字图书馆的应用 被引量:3
2
作者 王凯 王辉 渠芳 《现代情报》 北大核心 2006年第4期86-88,共3页
分析高校数字图书馆信息资源分布状况,提出异构资源整合的解决方法———信息抽取技术。本文介绍了一种借助于JTIDY转换和JDOM解析工具的Web信息抽取方法,讨论信息抽取技术的功能、组成、特点、实现和原则问题。
关键词 数字资源 信息抽取 IITML XML jtidy JDOM
下载PDF
数据抽取中数据预处理 被引量:1
3
作者 郭东峰 《电子技术与软件工程》 2014年第7期224-224,共1页
在数据抽取中,网页中噪音数据的处理是关键的第一步。针对噪音数据类型以及它们在网页中的位置,对HTML语言中常见不规范问题做出分析。同时分析了在Java开发环境中借助Jtidy开源工具,对待抽取的HTML文档进行语法检测与标记修正。
关键词 噪音数据 HTML jtidy
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部