-
题名Web文档清洗系统中HTML解析器的开发
被引量:7
- 1
-
-
作者
王强
王继成
武港山
张福炎
-
机构
南京大学计算机科学与技术系
南京大学计算机软件新技术国家重点实验室
-
出处
《计算机应用研究》
CSCD
北大核心
2002年第2期54-57,共4页
-
基金
国家自然科学基金资助项目 (60 0 73 0 3 0 )
国家教育部"现代远程教育关键技术研究重点项目"
日本富士通研究所"Web文档清洗技术研究"资助项目
-
文摘
对于组建一个面向Web的信息系统来说 ,去除掉脚本、广告链接以及导航链接等无用数据 ,将提高信息存储和检索的效率 ;同时 ,基于语义对Web文档进行合并和分割也会有助于信息的管理 ,这些都是Web文档清洗系统的任务。在Web文档清洗中 ,无论是脱机的规则学习还是联机的文档清洗 ,都需要建立在对Web文档的结构和内容进行分析的基础之上。从HTML解析的一般概念入手 ,结合Web文档清洗系统的需求 ,描述了一个自主开发的HTML解析器的结构 ,并对其组成部分 :词典。
-
关键词
HTML解析器
词法器
递归下降
文档清洗系统
WEB
INTERNET
-
Keywords
HTML Parser
Lexicon
Recursive Descendant
Web Cleaning
-
分类号
TP393.4
[自动化与计算机技术—计算机应用技术]
-
-
题名Web文档清洗技术
被引量:3
- 2
-
-
作者
张波
王继成
王强
张福炎
-
机构
南京大学软件新技术国家重点实验室计算机科学与技术系
-
出处
《计算机科学》
CSCD
北大核心
2002年第6期52-54,共3页
-
基金
国家自然科学基金(编号:600730307)
日本富士通研究所"Web文档清洗"项目
-
文摘
1引言
随着Internet在全球的迅速发展,WWW(World WideWeb)已经发展成为一个包含多种信息资源、站点遍布全球的巨大信息服务网络,为用户提供了一个极具价值的信息源,并已成为世界范围内信息共享和信息传播的最主要渠道之一.WWW系统一经出现,就得到了迅猛的发展,无论是WWW站点数还是WWW用户数,都是以每年5~10倍的速度呈指数形式增长.目前仅中国的Internet用户就已经达到了2500万.
-
关键词
Web
Internet
WWW
信息资源
信息挖掘
文档清洗
计算机网络
信息检索
-
Keywords
Web document cleaning. Machine learning,Information extraction
-
分类号
TP393.4
[自动化与计算机技术—计算机应用技术]
G354
[文化科学—情报学]
-