期刊文献+

数据抽取中数据预处理 被引量:1

下载PDF
导出
摘要 在数据抽取中,网页中噪音数据的处理是关键的第一步。针对噪音数据类型以及它们在网页中的位置,对HTML语言中常见不规范问题做出分析。同时分析了在Java开发环境中借助Jtidy开源工具,对待抽取的HTML文档进行语法检测与标记修正。
作者 郭东峰
出处 《电子技术与软件工程》 2014年第7期224-224,共1页 ELECTRONIC TECHNOLOGY & SOFTWARE ENGINEERING
关键词 噪音数据 HTML Jtidy
  • 相关文献

参考文献4

二级参考文献58

共引文献126

同被引文献7

引证文献1

二级引证文献1

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部