期刊文献+
共找到72篇文章
< 1 2 4 >
每页显示 20 50 100
基于样本实例的Web信息抽取 被引量:19
1
作者 张绍华 徐林昊 +2 位作者 杨文柱 薛文玲 李天柱 《河北大学学报(自然科学版)》 CAS 2001年第4期431-437,共7页
主要研究了基于HTML文档的信息抽取 ,提出了一种基于样本实例的Web信息抽取的方法 .用户首先选定样本页面和预先定义模式 (基于O -R模型 ) ,然后对样本页面和其中的样本记录进行标记、学习 ,形成信息抽取规则 ,并存入知识库 ;利用知识... 主要研究了基于HTML文档的信息抽取 ,提出了一种基于样本实例的Web信息抽取的方法 .用户首先选定样本页面和预先定义模式 (基于O -R模型 ) ,然后对样本页面和其中的样本记录进行标记、学习 ,形成信息抽取规则 ,并存入知识库 ;利用知识库对其他同类页面自动抽取所需的信息 ,存入数据库中 .本方法可用于Web查询 ,也可用于信息集成的包装器 . 展开更多
关键词 HTML 模式 抽取器 信息抽取 web查询 INTERNET INTRANET
下载PDF
多信息块Web页面的信息抽取 被引量:21
2
作者 王庆一 王继成 +1 位作者 周源远 袁春风 《计算机应用研究》 CSCD 北大核心 2002年第10期23-26,共4页
提出了一个采用新的抽取规则的包装器 ,结合采用基于文档结构抽取规则和基于特征Pattern匹配抽取规则包装器的优点 ,可以适用于含有多个信息块的Web页面。
关键词 多信息块 web页面 信息抽取 包装器 抽取规则 信息集成 Internet WWW 信息资源
下载PDF
Web数据抽取技术研究进展 被引量:13
3
作者 张成洪 古晓洪 白延红 《计算机科学》 CSCD 北大核心 2004年第2期129-131,151,共4页
由于Web上存在着大量有用而复杂的信息,近年来学术界和企业界开发了许多从Web中抽取数据的方法和工具。本文总结了Web数据抽取技术的研究进展和从Web中抽取数据的主要原理、过程、方法和抽取规则,并讨论了未来的研究方向。
关键词 web 网页 数据抽取 分布式数据库系统 数据模型 数据管理
下载PDF
基于HTML模式代数的Web信息提取方法 被引量:8
4
作者 李石君 于俊清 欧伟杰 《计算机研究与发展》 EI CSCD 北大核心 2006年第9期1644-1650,共7页
高效地生成提取Web信息的包装器有着广阔的应用前景,同时也是至今没有得到有效解决的难题.为此,提出了基于HTML文档的模式代数,该代数包括一致模式集等重要概念以及模式的加法运算.在此基础上,提出了一种提取Web信息的新方法,该方法采... 高效地生成提取Web信息的包装器有着广阔的应用前景,同时也是至今没有得到有效解决的难题.为此,提出了基于HTML文档的模式代数,该代数包括一致模式集等重要概念以及模式的加法运算.在此基础上,提出了一种提取Web信息的新方法,该方法采用在整个训练例子中学习表示各属性提取规则的一致模式集,再由多个模式组成的一致模式集提取数据,适用于提取具有缺省属性、多值属性、属性具有多种不同顺序的表结构网页和层次结构网页,其有效性在原型系统中通过实验得到验证. 展开更多
关键词 web信息提取 包装器归纳学习 web挖掘
下载PDF
利用Web Service实现电子化供应链管理 被引量:6
5
作者 孙涛 范林根 刘仲英 《计算机应用与软件》 CSCD 北大核心 2005年第8期57-59,共3页
e化供应链是电子商务B2B模式的进一步延伸,如何低成本地实现企业间信息平台的无缝连接是实现e化供应链的关键。在分析了e化供应链技术要求的基础上,给出了基于WebService的e化供应链解决方案,并对实现过程进行了讨论。
关键词 电子商务 电子化供应链管理 web SERVICE 网上购物 网上交易 B2B模式
下载PDF
模式发现在Web抽取中的应用及设计 被引量:7
6
作者 蔡霞 张森 周宇 《控制工程》 CSCD 2003年第3期227-229,269,共4页
WWW的迅速发展,使其日益成为人们查找有用数据的重要来源。但因每个Web站点的主题各异、形式多样、结构不同,人们往往要花大量精力在人工定位和抽取有用数据上。提出了一个基于模式发现的数据抽取框架,分析了将PAT树用于模式发现的自动... WWW的迅速发展,使其日益成为人们查找有用数据的重要来源。但因每个Web站点的主题各异、形式多样、结构不同,人们往往要花大量精力在人工定位和抽取有用数据上。提出了一个基于模式发现的数据抽取框架,分析了将PAT树用于模式发现的自动数据抽取技术。初步实验结果表明所得的抽取规则能从多数搜索引擎上获得较高的抽取率。该方法对于从搜索引擎的搜索结果等结构化、半结构化网页中自动抽取重复模式具有较好的效果。 展开更多
关键词 web 数据抽取 模式发现 搜索引擎 WWW 计算机网络
下载PDF
基于XML/CORBA的XML Wrapper系统研究 被引量:3
7
作者 傅秀芬 王静 +2 位作者 卢炎生 申建芳 杨俊超 《计算机工程》 CAS CSCD 北大核心 2003年第12期55-57,共3页
XML技术是基于Web的电子商务应用研究的热点,CORBA技术能解决跨平台等兼容问题,实现分布式软件集成。文章探讨了XML应用于Web所面临的问题及基于CORBA 的解决方案,构建了一个基于XML/ CORBA新型Web框架的应用系统——XML Wrapper系... XML技术是基于Web的电子商务应用研究的热点,CORBA技术能解决跨平台等兼容问题,实现分布式软件集成。文章探讨了XML应用于Web所面临的问题及基于CORBA 的解决方案,构建了一个基于XML/ CORBA新型Web框架的应用系统——XML Wrapper系统。论述了系统设计目标、系统结构、关键技术及实现,最后给出了XML Wrapper系统的特色。 展开更多
关键词 XML wrapper web数据库 CORBA
下载PDF
多信息块Web页面中的抽取规则 被引量:6
8
作者 王庆一 王继成 +1 位作者 周源远 袁春风 《计算机工程》 CAS CSCD 北大核心 2003年第9期42-44,50,共4页
以往的包装器主要针对仅含有一个数据块的Web页面,而对含有多个信息块的Web页面,简称MIB(Multiple Information Block), Web页面无法处理。该文提出了一个新的抽取规则,结合了基于文档结构的抽取规则和基于特征Pattern匹配的抽取规... 以往的包装器主要针对仅含有一个数据块的Web页面,而对含有多个信息块的Web页面,简称MIB(Multiple Information Block), Web页面无法处理。该文提出了一个新的抽取规则,结合了基于文档结构的抽取规则和基于特征Pattern匹配的抽取规则的优点,能够有效地抽取MIB Web页面中的信息。 展开更多
关键词 web 信息抽取 包装器 抽取规则 信息集成
下载PDF
基于Web Services的信息集成方案 被引量:8
9
作者 李艳霞 冯百明 《计算机工程与设计》 CSCD 北大核心 2009年第7期1787-1789,1792,共4页
随着网络技术的发展,信息的共享和交换显得越来越重要。针对目前网络中信息的异构性、多样性、分布性等特点,提出了一种基于Web Services的异构信息集成方案。该方案主要采用XML技术对各种源信息进行包装,形成了一个虚拟的数据库,从而... 随着网络技术的发展,信息的共享和交换显得越来越重要。针对目前网络中信息的异构性、多样性、分布性等特点,提出了一种基于Web Services的异构信息集成方案。该方案主要采用XML技术对各种源信息进行包装,形成了一个虚拟的数据库,从而实现了异构数据源的共享。然后将信息注册在信息注册中心,信息请求方获得XML格式的信息后,使用XML解析器对其解析。该方案有效地解决了"信息孤岛"问题。 展开更多
关键词 信息集成 web SERVICES wrapper XML JDOM
下载PDF
Web汉语料的智能抽取与词汇切分 被引量:4
10
作者 陈展荣 曾毅平 《计算机工程与设计》 CSCD 北大核心 2005年第6期1422-1424,共3页
提出一种Web汉语料智能抽取和汉语词切分的包装器。用户无需打开网站,无需点击链接,只需键入URL(UnitResourceLocation,统一资源定位符),即可获取Web汉语料并切分词到汉词库中。给出了系统的总体构架,阐述了各功能模块的设计原理和技术... 提出一种Web汉语料智能抽取和汉语词切分的包装器。用户无需打开网站,无需点击链接,只需键入URL(UnitResourceLocation,统一资源定位符),即可获取Web汉语料并切分词到汉词库中。给出了系统的总体构架,阐述了各功能模块的设计原理和技术实现。测试结果表明,该包装器能快速、有效地抓取Web页面并分离其中的汉语料,对歧义句、新词汇的识别率分别达到70%和60%,可应用于Web上汉语词汇的收集与分离。 展开更多
关键词 web语料 HTML格式 包装器 web页面抓取器 词汇分离器
下载PDF
一种全自动生成网页信息抽取Wrapper的方法 被引量:21
11
作者 梅雪 程学旗 +2 位作者 郭岩 张刚 丁国栋 《中文信息学报》 CSCD 北大核心 2008年第1期22-29,共8页
Web网页信息抽取是近年来广泛关注的话题。如何最快最准地从大量Web网页中获取主要数据成为该领域的一个研究重点。文章中提出了一种全自动化生成网页信息抽取Wrapper的方法。该方法充分利用网页设计模版的结构化、层次化特点,运用网页... Web网页信息抽取是近年来广泛关注的话题。如何最快最准地从大量Web网页中获取主要数据成为该领域的一个研究重点。文章中提出了一种全自动化生成网页信息抽取Wrapper的方法。该方法充分利用网页设计模版的结构化、层次化特点,运用网页链接分类算法和网页结构分离算法,抽取出网页中各个信息单元,并输出相应Wrapper。利用Wrapper能够对同类网页自动地进行信息抽取。实验结果表明,该方法同时实现了对网页中严格的结构化信息和松散的结构化信息的自动化抽取,抽取结果达到非常高的准确率。 展开更多
关键词 计算机应用 中文信息处理 网页信息抽取 网页结构分离 包装器
下载PDF
基于Web信息挖掘的商业分析系统设计 被引量:2
12
作者 沈洁 林颖 +1 位作者 赵敏涯 陈志敏 《计算机工程与设计》 CSCD 北大核心 2006年第1期62-65,共4页
随着Web上信息的快速增长,如何将潜藏于非结构化文档中的商业信息有效提取并分析服务于商业管理已成为新的研究热点。利用现有的Web信息挖掘技术,针对原始数据的混合异构性,提出信息块多主题分割的方法,在建立的商业领域实体名字典指导... 随着Web上信息的快速增长,如何将潜藏于非结构化文档中的商业信息有效提取并分析服务于商业管理已成为新的研究热点。利用现有的Web信息挖掘技术,针对原始数据的混合异构性,提出信息块多主题分割的方法,在建立的商业领域实体名字典指导下对商业信息进行抽取和分类,并引入一种信用评级机制,构造了一个基于Web信息挖掘的商业信息分析系统(CABWIM),实验结果表明系统能有效地将散落在Web中潜在的商业信息抽取并加工整理,形成真正有实用价值的商业信息。 展开更多
关键词 web信息挖掘 包装器 DOM树
下载PDF
Web遗留系统服务化包装方法的研究 被引量:3
13
作者 李爱萍 王正华 段利国 《计算机工程与设计》 CSCD 北大核心 2014年第2期509-514,共6页
对Web遗留系统进行服务化包装,是实现遗留系统服务化迁移的关键。传统的白盒服务包装需要侵入原有遗留系统修改代码,运行风险增强,针对此问题设计了一种基于有穷状态自动机形式描述的黑盒包装方案。给出了包装方案的参考模型和模型内包... 对Web遗留系统进行服务化包装,是实现遗留系统服务化迁移的关键。传统的白盒服务包装需要侵入原有遗留系统修改代码,运行风险增强,针对此问题设计了一种基于有穷状态自动机形式描述的黑盒包装方案。给出了包装方案的参考模型和模型内包装组件的功能描述,将遗留的Web应用转化为共享的Web服务。通过对Web遗留系统移植过程的实例分析验证了方案的可行性。 展开更多
关键词 web遗留系统 有穷状态自动机 黑盒包装 web服务 移植过程
下载PDF
一种基于Web Services的信息集成方案 被引量:3
14
作者 李艳霞 巩九洲 +1 位作者 黎玉琴 冯百明 《计算机技术与发展》 2008年第9期105-107,130,共4页
随着网络技术的发展,信息的共享和交换显得越来越重要。针对目前网络中信息的异构性、多样性、分布性等特点,提出了一种基于Web Services的异构信息集成方案。该方案中,主要采用XML技术对各种源信息进行包装,形成了一个虚拟数据库,从而... 随着网络技术的发展,信息的共享和交换显得越来越重要。针对目前网络中信息的异构性、多样性、分布性等特点,提出了一种基于Web Services的异构信息集成方案。该方案中,主要采用XML技术对各种源信息进行包装,形成了一个虚拟数据库,从而实现了异构数据源的共享。然后将信息注册在信息注册中心,信息请求方获得XML格式的信息后,使用XML解析器对其解析。该方案有效解决了"信息孤岛"问题。 展开更多
关键词 信息集成 web SERVICES wrapper XML
下载PDF
基于Web服务的电力信息集成系统 被引量:5
15
作者 王丽侠 楼玉萍 吕君可 《计算机技术与发展》 2009年第5期173-175,179,共4页
电力信息是包含多种数据模型的典型异构数据库,电力信息的集成对电力系统的运行决策具有重要的意义。文中采用中介器/包装器结构,基于Web服务技术,提出了一种异构信息集成方法。该方法采用GAV方式定义全局模式到局部模式的映射关系,并... 电力信息是包含多种数据模型的典型异构数据库,电力信息的集成对电力系统的运行决策具有重要的意义。文中采用中介器/包装器结构,基于Web服务技术,提出了一种异构信息集成方法。该方法采用GAV方式定义全局模式到局部模式的映射关系,并用关系表来存储映射关系,从而简化了模式映射算法。将该方法应用到电力信息的集成上,实现了电力信息中气象数据、网供负荷数据、电厂负荷数据的集成。实际应用表明,文中所提出的方法可以有效地实现异构信息的集成。 展开更多
关键词 中介器 包装器 web服务 信息集成
下载PDF
基于包装器的Deep Web自动语义标注 被引量:4
16
作者 杨晓琴 鞠时光 +1 位作者 曹庆皇 王秀红 《计算机工程》 CAS CSCD 北大核心 2010年第12期52-54,57,共4页
为最准最全地对页面抽取的数据进行语义标注,提出一种基于包装器自动语义标注的方法。该方法利用多个标注源进行组合标注,有效解决单标注源标注率不高问题,同时针对标注不完全问题,给出利用多个数据源的互补关系来标注,生成高效率的标... 为最准最全地对页面抽取的数据进行语义标注,提出一种基于包装器自动语义标注的方法。该方法利用多个标注源进行组合标注,有效解决单标注源标注率不高问题,同时针对标注不完全问题,给出利用多个数据源的互补关系来标注,生成高效率的标注包装器对抽取结果自动标注。实验结果证明,该方法具有较高的准确性和效率。 展开更多
关键词 深层网络 语义标注 同步标注 包装器
下载PDF
开放式Web信息抽取系统研究与实现 被引量:3
17
作者 傅骞 温晓辉 《北京师范大学学报(自然科学版)》 CAS CSCD 北大核心 2005年第6期594-598,共5页
在分析Web信息资源固有特点的基础上,结合国内外已有的研究成果,提出了一个开放式的Web信息抽取系统,该系统的抽取规则不是内置于系统的“硬编码”,而是由系统通过自动学习归纳并结合用户干预生成的开放式规则,从而扩大了Web信息抽取系... 在分析Web信息资源固有特点的基础上,结合国内外已有的研究成果,提出了一个开放式的Web信息抽取系统,该系统的抽取规则不是内置于系统的“硬编码”,而是由系统通过自动学习归纳并结合用户干预生成的开放式规则,从而扩大了Web信息抽取系统的使用范围. 展开更多
关键词 web信息抽取 算法归纳 聚类
下载PDF
Web信息集成技术研究 被引量:13
18
作者 孟小峰 《计算机应用与软件》 CSCD 北大核心 2003年第11期32-36,63,共6页
信息系统集成技术已经历了二十多年的发展,研究者已提出了很多信息集成的体系结构和实现方案,然而这些方法研究的主要集成对象是传统的异构数据库系统。随着Internet的飞速发展,网络迅速成为一种重要的信息传播和交换的手段,尤其是Web上... 信息系统集成技术已经历了二十多年的发展,研究者已提出了很多信息集成的体系结构和实现方案,然而这些方法研究的主要集成对象是传统的异构数据库系统。随着Internet的飞速发展,网络迅速成为一种重要的信息传播和交换的手段,尤其是Web上,有着及其丰富的数据来源。如何获取Web上的有用数据并加以综合利用,即构建Web信息集成系统,成为一个引起广泛关注的研究领域。本文结合自己的研究工作,对这一领域的研究做了简单的综述,对有关的研究问题给出了分析。 展开更多
关键词 web Internet 信息集成 数据集成 信息资源 数据源 数据库系统 数据仓库
下载PDF
基于包装技术的Web Service与MAS集成 被引量:1
19
作者 李秀斌 郭琼 +1 位作者 张素庆 王文杰 《计算机工程》 CAS CSCD 北大核心 2007年第1期89-91,共3页
针对Web Service与Agent两种技术存在的互补性,提出利用包装技术,将Web Service组件集成到多agent系统(MAS)的方法,设计了集成系统的体系结构,用Java语言来实现包装Agent的结构体系,实现Web Service的智能化和MAS的跨平台交互。
关键词 web SERVICE 多AGENT系统 包装技术
下载PDF
Web遗留系统的服务包装器环境设计 被引量:2
20
作者 周家晶 邹翔 +1 位作者 沈备军 胡善学 《计算机工程》 CAS CSCD 北大核心 2011年第19期73-75,共3页
Web遗留系统的白盒服务迁移需要侵入原有系统修改代码,因此会产生运行风险。针对该问题,设计并实现一种黑盒包装器环境。通过为遗留系统配置包装器,忽略原系统内部的复杂性,并在不改变系统部署和运行状态的情况下,将遗留的Web应用转化为... Web遗留系统的白盒服务迁移需要侵入原有系统修改代码,因此会产生运行风险。针对该问题,设计并实现一种黑盒包装器环境。通过为遗留系统配置包装器,忽略原系统内部的复杂性,并在不改变系统部署和运行状态的情况下,将遗留的Web应用转化为Web服务。应用结果表明,基于外部包装和规则配置的黑盒方法更具可控性。 展开更多
关键词 遗留系统 服务包装器 web服务 黑盒 包装策略
下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部