期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
Web文档清洗系统中HTML解析器的开发 被引量:7
1
作者 王强 王继成 +1 位作者 武港山 张福炎 《计算机应用研究》 CSCD 北大核心 2002年第2期54-57,共4页
对于组建一个面向Web的信息系统来说 ,去除掉脚本、广告链接以及导航链接等无用数据 ,将提高信息存储和检索的效率 ;同时 ,基于语义对Web文档进行合并和分割也会有助于信息的管理 ,这些都是Web文档清洗系统的任务。在Web文档清洗中 ,无... 对于组建一个面向Web的信息系统来说 ,去除掉脚本、广告链接以及导航链接等无用数据 ,将提高信息存储和检索的效率 ;同时 ,基于语义对Web文档进行合并和分割也会有助于信息的管理 ,这些都是Web文档清洗系统的任务。在Web文档清洗中 ,无论是脱机的规则学习还是联机的文档清洗 ,都需要建立在对Web文档的结构和内容进行分析的基础之上。从HTML解析的一般概念入手 ,结合Web文档清洗系统的需求 ,描述了一个自主开发的HTML解析器的结构 ,并对其组成部分 :词典。 展开更多
关键词 HTML解析器 词法器 递归下降 文档清洗系统 WEB INTERNET
下载PDF
Web文档清洗技术 被引量:3
2
作者 张波 王继成 +1 位作者 王强 张福炎 《计算机科学》 CSCD 北大核心 2002年第6期52-54,共3页
1引言 随着Internet在全球的迅速发展,WWW(World WideWeb)已经发展成为一个包含多种信息资源、站点遍布全球的巨大信息服务网络,为用户提供了一个极具价值的信息源,并已成为世界范围内信息共享和信息传播的最主要渠道之一.WWW系统一经出... 1引言 随着Internet在全球的迅速发展,WWW(World WideWeb)已经发展成为一个包含多种信息资源、站点遍布全球的巨大信息服务网络,为用户提供了一个极具价值的信息源,并已成为世界范围内信息共享和信息传播的最主要渠道之一.WWW系统一经出现,就得到了迅猛的发展,无论是WWW站点数还是WWW用户数,都是以每年5~10倍的速度呈指数形式增长.目前仅中国的Internet用户就已经达到了2500万. 展开更多
关键词 Web Internet WWW 信息资源 信息挖掘 文档清洗 计算机网络 信息检索
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部