期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
“分类-产品”结构的网页数据精确抽取方法探寻
1
作者 周亮 《数字技术与应用》 2011年第12期168-168,170,共2页
对"分类-产品"结构的网页特征进行分析之后,提出一种基于XQuery的精确抽取方法。该方法先提取分类页面的分页信息、产品URL等特征点,爬虫根据特征点进行爬取,然后对产品网页进行数据抽取并保存于XML数据库,使用XPath进行数据... 对"分类-产品"结构的网页特征进行分析之后,提出一种基于XQuery的精确抽取方法。该方法先提取分类页面的分页信息、产品URL等特征点,爬虫根据特征点进行爬取,然后对产品网页进行数据抽取并保存于XML数据库,使用XPath进行数据查询。该方法适用于需要精确抽取产品数据进行数据建模分析的情景。 展开更多
关键词 网页抽取 “分类-产品”结构 网页包装 XQUERY XPATH
下载PDF
基于WEB的企业信息集成系统
2
作者 张成洪 张诚 肖军建 《中国管理科学》 CSSCI 2000年第S1期163-171,共9页
在Intranet和Internet环境中,数据结构的多样和数据分布的多样,给企业的信息综合分析和决策制定的工作带来了极大的挑战.Web的迅速普及,使这个问题日益突出。本文以基于Web的数据采集和分析为重点,提出了企... 在Intranet和Internet环境中,数据结构的多样和数据分布的多样,给企业的信息综合分析和决策制定的工作带来了极大的挑战.Web的迅速普及,使这个问题日益突出。本文以基于Web的数据采集和分析为重点,提出了企业管理集成系统的一整套解决方案,包括网页包装工具,异构数据源的数据整合工具,数据分析工具,完成了包装非结构化数据、从不同数据源提取数据、正确完整地组织异构数据源的数据、按需求组织数据的工作,并提供对查询结果作进一步分析的功能,使企业能够用统一的界面去查询、收集和处理来自Web 和远程数据库多个数据源的信息。帮助其完成决策制定。 展开更多
关键词 网页包装 异构数据源 规则表达式 半(非)结构化 上下文(Context)
下载PDF
基于XML的Web系统集成 被引量:4
3
作者 孙蛟 许爱华 胡运发 《计算机工程》 CAS CSCD 北大核心 2002年第10期251-253,共3页
随着Internet上的信息量的迅速增加,Web系统集成已经成为越来越迫切的工作。XML是Internet数据表示和数据交换新的标准,正是XML的特性使得基于其的Web系统集成成为可能,从而更好地服务用户。该文以“上海高校网络图书馆”为实例,对... 随着Internet上的信息量的迅速增加,Web系统集成已经成为越来越迫切的工作。XML是Internet数据表示和数据交换新的标准,正是XML的特性使得基于其的Web系统集成成为可能,从而更好地服务用户。该文以“上海高校网络图书馆”为实例,对Web系统集成进行了详细的阐述。 展开更多
关键词 XMI WEB 系统集成 网页包装 数据服务 INTERNET
下载PDF
Web内容抽取及其数据管理方法 被引量:16
4
作者 张成洪 肖军建 张诚 《复旦学报(自然科学版)》 CAS CSCD 北大核心 2001年第2期177-183,共7页
随着Internet及其相关技术的飞速发展 ,WWW已成为最大的信息集散地 .无论对企业还是个人 ,Web逐渐成为最主要的信息来源 .然而由于网站数量过多以及由此带来的信息泛滥 ,使得有用信息的获取越来越困难 .搜索引擎只能提供信息的查找范围 ... 随着Internet及其相关技术的飞速发展 ,WWW已成为最大的信息集散地 .无论对企业还是个人 ,Web逐渐成为最主要的信息来源 .然而由于网站数量过多以及由此带来的信息泛滥 ,使得有用信息的获取越来越困难 .搜索引擎只能提供信息的查找范围 ,而具体的内容还要靠详细搜查 .而且网页信息都是非结构化或半结构化的 ,无法直接利用分析工具进行分析 .所以有必要提供一种网页内容自动抽取及使网页数据结构化的方法 。 展开更多
关键词 数据抽取 网页包装 规则表达式 模式匹配 INTERNET WWW Web数据集成系统 数据管理 网页数据结构化
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部