期刊文献+
共找到25篇文章
< 1 2 >
每页显示 20 50 100
网页数据抽取中Wrapper的维护
1
作者 邓莎莎 李嘉 《上海电力学院学报》 CAS 2011年第4期378-382,共5页
当网页结构发生动态变化时,所构建的网页数据抽取器Wrapper往往会失灵.为了解决这一问题,提出了Wrapper维护模型结构.实验证明,当网页数据结构发生变化时,该模型结构能更有效地支持网页数据的抽取.
关键词 wrapper维护 网页数据抽取 语义块
下载PDF
Web信息的自主抽取方法 被引量:15
2
作者 许建潮 侯锟 《计算机工程与应用》 CSCD 北大核心 2005年第14期185-189,198,共6页
提出了基于表格结构及列表结构的W eb页面信息自主抽取的方法。可根据用户对信息的需求自主地从相关页面中抽取信息并将抽取信息按关系模型进行重组存放在数据库中,对表格结构信息源仅需标注一页网页,即可获取抽取知识,通过自学习能够... 提出了基于表格结构及列表结构的W eb页面信息自主抽取的方法。可根据用户对信息的需求自主地从相关页面中抽取信息并将抽取信息按关系模型进行重组存放在数据库中,对表格结构信息源仅需标注一页网页,即可获取抽取知识,通过自学习能够较好地适应网页信息的动态变化,实现信息的自动抽取。对列表结构信息源信息,通过对DOM树结构的分析,动态获得信息块在DOM层次结构中的路径,根据信息对象基本的抽取知识,获得信息对象值。采用自学习的方法以适应网页信息的动态变化。 展开更多
关键词 web 半结构化数据 信息抽取 wrapper
下载PDF
基于样本实例的Web信息抽取 被引量:19
3
作者 张绍华 徐林昊 +2 位作者 杨文柱 薛文玲 李天柱 《河北大学学报(自然科学版)》 CAS 2001年第4期431-437,共7页
主要研究了基于HTML文档的信息抽取 ,提出了一种基于样本实例的Web信息抽取的方法 .用户首先选定样本页面和预先定义模式 (基于O -R模型 ) ,然后对样本页面和其中的样本记录进行标记、学习 ,形成信息抽取规则 ,并存入知识库 ;利用知识... 主要研究了基于HTML文档的信息抽取 ,提出了一种基于样本实例的Web信息抽取的方法 .用户首先选定样本页面和预先定义模式 (基于O -R模型 ) ,然后对样本页面和其中的样本记录进行标记、学习 ,形成信息抽取规则 ,并存入知识库 ;利用知识库对其他同类页面自动抽取所需的信息 ,存入数据库中 .本方法可用于Web查询 ,也可用于信息集成的包装器 . 展开更多
关键词 HTML 模式 抽取器 信息抽取 web查询 INTERNET INTRANET
下载PDF
多信息块Web页面的信息抽取 被引量:21
4
作者 王庆一 王继成 +1 位作者 周源远 袁春风 《计算机应用研究》 CSCD 北大核心 2002年第10期23-26,共4页
提出了一个采用新的抽取规则的包装器 ,结合采用基于文档结构抽取规则和基于特征Pattern匹配抽取规则包装器的优点 ,可以适用于含有多个信息块的Web页面。
关键词 多信息块 web页面 信息抽取 包装器 抽取规则 信息集成 Internet WWW 信息资源
下载PDF
Web数据抽取技术研究进展 被引量:13
5
作者 张成洪 古晓洪 白延红 《计算机科学》 CSCD 北大核心 2004年第2期129-131,151,共4页
由于Web上存在着大量有用而复杂的信息,近年来学术界和企业界开发了许多从Web中抽取数据的方法和工具。本文总结了Web数据抽取技术的研究进展和从Web中抽取数据的主要原理、过程、方法和抽取规则,并讨论了未来的研究方向。
关键词 web 网页 数据抽取 分布式数据库系统 数据模型 数据管理
下载PDF
多信息块Web页面中的抽取规则 被引量:6
6
作者 王庆一 王继成 +1 位作者 周源远 袁春风 《计算机工程》 CAS CSCD 北大核心 2003年第9期42-44,50,共4页
以往的包装器主要针对仅含有一个数据块的Web页面,而对含有多个信息块的Web页面,简称MIB(Multiple Information Block), Web页面无法处理。该文提出了一个新的抽取规则,结合了基于文档结构的抽取规则和基于特征Pattern匹配的抽取规... 以往的包装器主要针对仅含有一个数据块的Web页面,而对含有多个信息块的Web页面,简称MIB(Multiple Information Block), Web页面无法处理。该文提出了一个新的抽取规则,结合了基于文档结构的抽取规则和基于特征Pattern匹配的抽取规则的优点,能够有效地抽取MIB Web页面中的信息。 展开更多
关键词 web 信息抽取 包装器 抽取规则 信息集成
下载PDF
模式发现在Web抽取中的应用及设计 被引量:7
7
作者 蔡霞 张森 周宇 《控制工程》 CSCD 2003年第3期227-229,269,共4页
WWW的迅速发展,使其日益成为人们查找有用数据的重要来源。但因每个Web站点的主题各异、形式多样、结构不同,人们往往要花大量精力在人工定位和抽取有用数据上。提出了一个基于模式发现的数据抽取框架,分析了将PAT树用于模式发现的自动... WWW的迅速发展,使其日益成为人们查找有用数据的重要来源。但因每个Web站点的主题各异、形式多样、结构不同,人们往往要花大量精力在人工定位和抽取有用数据上。提出了一个基于模式发现的数据抽取框架,分析了将PAT树用于模式发现的自动数据抽取技术。初步实验结果表明所得的抽取规则能从多数搜索引擎上获得较高的抽取率。该方法对于从搜索引擎的搜索结果等结构化、半结构化网页中自动抽取重复模式具有较好的效果。 展开更多
关键词 web 数据抽取 模式发现 搜索引擎 WWW 计算机网络
下载PDF
一种可行的Web数据抽取包装器的设计方法 被引量:3
8
作者 李宏伟 史培中 张素智 《计算机应用与软件》 CSCD 2009年第3期110-113,共4页
Web包装器是根据特定的抽取规则从特定的Web数据源执行数据抽取程序,设计Web包装器是Web信息抽取和集成的关键技术。针对网页结构的不确定性和易变性,详细阐述了一种基于预定义模式的Web包装器的设计与实现过程,并选取了几个出版社的新... Web包装器是根据特定的抽取规则从特定的Web数据源执行数据抽取程序,设计Web包装器是Web信息抽取和集成的关键技术。针对网页结构的不确定性和易变性,详细阐述了一种基于预定义模式的Web包装器的设计与实现过程,并选取了几个出版社的新书发布Web页面进行了数据抽取验证和抽取结果分析,取得了较好的效果。充分体现了此Web包装器的可行性,并具有一定的高效性及可维护性,能够应用在基于Wrapper/Mediator方法的Web数据集成。 展开更多
关键词 包装器 抽取规则 信息抽取 web数据集成
下载PDF
支持Deep Web数据库集成的图书搜索系统 被引量:1
9
作者 单菁 王习特 +6 位作者 刘桐 李延龙 李英军 聂铁铮 寇月 申德荣 于戈 《计算机研究与发展》 EI CSCD 北大核心 2011年第S3期446-450,共5页
图书搜索系统以DeepWeb数据库的信息集成为背景,旨在为用户提供一个统一的查询接口,用户通过向统一接口提交查询,可获得各个图书网站集成的查询结果.主要介绍了系统框架、关键技术和主要演示过程.
关键词 Deep web 系统演示 查询接口映射 数据抽取 数据集成
下载PDF
一种高效Web数据抽取包装器的设计与实现 被引量:2
10
作者 李宏伟 史培中 张素智 《计算机技术与发展》 2009年第2期123-126,共4页
Web包装器是根据特定的抽取规则从特定的Web数据源执行数据抽取程序,设计Web包装器是Web信息抽取和集成的关键技术。详细阐述了一种基于预定义模式的Web包装器的设计与实现过程,并选取了几个出版社的新书发布Web页面进行了数据抽取验证... Web包装器是根据特定的抽取规则从特定的Web数据源执行数据抽取程序,设计Web包装器是Web信息抽取和集成的关键技术。详细阐述了一种基于预定义模式的Web包装器的设计与实现过程,并选取了几个出版社的新书发布Web页面进行了数据抽取验证和抽取结果分析,取得了较好的效果。充分体现了此Web包装器的可行性、高效性及可维护性,能够应用在基于Wrapper/Mediator方法的Web数据集成。 展开更多
关键词 包装器 抽取规则 信息抽取 web数据集成
下载PDF
Web页面细粒度数据抽取方法研究
11
作者 王旭仁 杨硕 +2 位作者 何发镁 王彦丽 张为群 《计算机工程与设计》 CSCD 北大核心 2014年第2期700-704,共5页
尽管有很多方法用于Web页面信息抽取,对细粒度信息如数据项等的抽取需求仍然很迫切。提出了一个用于结构化数据抽取的解决方案,将Web页面上的信息以更细的粒度抽取出来。对包装器(wrapper)生成时所依据的信息进行了基于稳定性的分类,实... 尽管有很多方法用于Web页面信息抽取,对细粒度信息如数据项等的抽取需求仍然很迫切。提出了一个用于结构化数据抽取的解决方案,将Web页面上的信息以更细的粒度抽取出来。对包装器(wrapper)生成时所依据的信息进行了基于稳定性的分类,实现了模板和种子之间多对多的自动关联(automatically correlating),并按照信息稳定性的高低为每个字段生成多个抽取规则,在抽取信息时根据多个抽取规则进行抽取,只有在所有规则失效时才会导致抽取失败,提高了抽取系统的鲁棒性。实验结果表明,该方法具有良好的抽取功率和准确率。 展开更多
关键词 信息抽取 web挖掘 包装器 自动关联
下载PDF
基于规则集的Deep Web信息检索
12
作者 杨巨峰 史广顺 +1 位作者 赵玉娟 王庆人 《计算机工程》 CAS CSCD 北大核心 2008年第13期51-53,共3页
提出一种基于规则集的新型Deep Web信息检索模型。该模型包含4个层次,主要处理环节如任务分派、信息提取、数据清洗等引入了Deep Web特有的结构规则、逻辑规则和应用规则协助工作。把该模型应用于科技文献检索、电子机票定购和工作简历... 提出一种基于规则集的新型Deep Web信息检索模型。该模型包含4个层次,主要处理环节如任务分派、信息提取、数据清洗等引入了Deep Web特有的结构规则、逻辑规则和应用规则协助工作。把该模型应用于科技文献检索、电子机票定购和工作简历搜索3个领域,实验结果证明该模型灵活、可信,有效信息查全率达到96%以上。 展开更多
关键词 信息检索 深层网络 规则集 数据提取
下载PDF
Web信息抽取网页自动浏览导航与集成规则研究 被引量:1
13
作者 王海涛 张志亮 +2 位作者 孙煜华 袁春风 黄宜华 《计算机科学与探索》 CSCD 2014年第9期1049-1066,共18页
Web中蕴藏着大量有价值的数据,过去十几年中,针对Web信息抽取技术已有较多的研究。而现有的研究和系统多集中在数据抽取处理阶段,忽略或简化了完整的Web信息抽取过程需要的网页自动浏览导航和集成处理。为克服这些不足,提出了包含浏览... Web中蕴藏着大量有价值的数据,过去十几年中,针对Web信息抽取技术已有较多的研究。而现有的研究和系统多集中在数据抽取处理阶段,忽略或简化了完整的Web信息抽取过程需要的网页自动浏览导航和集成处理。为克服这些不足,提出了包含浏览导航、数据抽取和集成过程的三阶段Web信息抽取处理模型,基于此进一步研究提出了自动浏览导航模型,并设计实现了网页自动浏览导航规则语言。研究提出了一种Web数据抽取、转换和集成(extraction-transformation-integration,ETI)模型,设计实现了一套灵活有效的数据集成和流程控制规则语言,能有效地维护跨网页数据记录的复杂关系,并提供灵活的流程控制能力。抽取实例的结果表明,该规则语言和系统可有效完成全过程化的Web信息抽取集成处理功能。 展开更多
关键词 web信息抽取 自动浏览导航 数据集成 流程控制 规则语言
下载PDF
针对模板生成网页的一种数据自动抽取方法(英文) 被引量:45
14
作者 杨少华 林海略 韩燕波 《软件学报》 EI CSCD 北大核心 2008年第2期209-223,共15页
当前,Web上的很多网页是动态生成的,网站根据请求从后台数据库中选取数据并嵌入到通用的模板中,例如电子商务网站的商品描述网页.研究如何从这类由模板生成的网页中检测出其背后的模板,并将嵌入的数据(例如商品名称、价格等等)自动地抽... 当前,Web上的很多网页是动态生成的,网站根据请求从后台数据库中选取数据并嵌入到通用的模板中,例如电子商务网站的商品描述网页.研究如何从这类由模板生成的网页中检测出其背后的模板,并将嵌入的数据(例如商品名称、价格等等)自动地抽取出来.给出了模板检测问题的形式化描述,并深入分析模板产生网页的结构特征.提出了一种新颖的模板检测方法,并利用检测出的模板自动地从实例网页中抽取数据.与其他已有方法相比,该方法能够适用于"列表页面"和"详细页面"两种类型的网页.在两个第三方的测试集上进行了实验,结果表明,该方法具有很高的抽取准确率. 展开更多
关键词 web 自动数据抽取 信息抽取 模板发现 wrapper生成
下载PDF
Web内容抽取及其数据管理方法 被引量:16
15
作者 张成洪 肖军建 张诚 《复旦学报(自然科学版)》 CAS CSCD 北大核心 2001年第2期177-183,共7页
随着Internet及其相关技术的飞速发展 ,WWW已成为最大的信息集散地 .无论对企业还是个人 ,Web逐渐成为最主要的信息来源 .然而由于网站数量过多以及由此带来的信息泛滥 ,使得有用信息的获取越来越困难 .搜索引擎只能提供信息的查找范围 ... 随着Internet及其相关技术的飞速发展 ,WWW已成为最大的信息集散地 .无论对企业还是个人 ,Web逐渐成为最主要的信息来源 .然而由于网站数量过多以及由此带来的信息泛滥 ,使得有用信息的获取越来越困难 .搜索引擎只能提供信息的查找范围 ,而具体的内容还要靠详细搜查 .而且网页信息都是非结构化或半结构化的 ,无法直接利用分析工具进行分析 .所以有必要提供一种网页内容自动抽取及使网页数据结构化的方法 。 展开更多
关键词 数据抽取 网页包装 规则表达式 模式匹配 INTERNET WWW web数据集成系统 数据管理 网页数据结构化
原文传递
定向查询引擎在Web化学数据库集成检索中的应用 被引量:12
16
作者 储春梅 李晓霞 郭力 《计算机与应用化学》 CAS CSCD 北大核心 2005年第8期659-666,共8页
Internet上的化字数据库是重要的专业资源,基于超链按分析的搜索引擎还不能索引这类资源。本论文以充分利用In- ternet上的化学数据库数据为目标,将“一个查询发动多个同级检索引擎,并以结构化的方式组织信息”的方案应用于以化合物标... Internet上的化字数据库是重要的专业资源,基于超链按分析的搜索引擎还不能索引这类资源。本论文以充分利用In- ternet上的化学数据库数据为目标,将“一个查询发动多个同级检索引擎,并以结构化的方式组织信息”的方案应用于以化合物标识信息为检索入口的Web化学数据库,建立了一个基于多站点集成检索的Web数据库定向查询引擎。该引擎是一个包括用户交互层、中间检索层、数据提供层的三层Web模型。各层在系统内部分别对应于响应用户检索请求的客户端代理模块、集成远程Web信息的服务器端代理模块,以及提供缓存和检索的关系数据库模块。模型采用JSP+Java组件的开发方式, 在HTTP协议标准发送方法的基础上,采用XML技术对检索返回文档进行结构化数据的提取和表示,利用XML-DBMS实现XML数据的存储和检索,建立了一套针对深层Web数据交换的解决方案。依此方案所建立的ChemDB Portal Search实现了四个分布式Web化学数据库的有效加入、同时检索和统一显示。该系统是针对深层Web信息的挖掘和集成检索的一次尝试, 它可为其它领域建立类似的系统提供借鉴。 展开更多
关键词 定向查询引擎 深层网 web数据挖掘 分布式数据库 集成检索 XML
原文传递
基于数据区域发现的信息抽取规则生成方法 被引量:4
17
作者 曲著伟 李敏强 《计算机工程》 CAS CSCD 北大核心 2009年第22期59-61,共3页
提出一种自动检测网页中数据记录结构特点并生成Web信息抽取规则的方法,以网页DOM树为基础,自动发现和分离Web数据区域所对应的DOM子树,将其分解为数据记录子树集合,综合数据记录子树的结构特点生成抽取规则。实验结果显示,该方法具有... 提出一种自动检测网页中数据记录结构特点并生成Web信息抽取规则的方法,以网页DOM树为基础,自动发现和分离Web数据区域所对应的DOM子树,将其分解为数据记录子树集合,综合数据记录子树的结构特点生成抽取规则。实验结果显示,该方法具有较高的抽取准确率和查全率。 展开更多
关键词 信息抽取 抽取规则生成 web数据区域 树匹配
下载PDF
页面包装器自动生成的改进算法 被引量:3
18
作者 李文奇 张忠能 《计算机工程与应用》 CSCD 北大核心 2004年第22期113-115,122,共4页
论文提出了一种页面包装器自动生成的改进算法,在对两个HTML页面进行匹配生成页面包装器的过程中,该算法使用树型数据模型作为基础,比原算法具有更高的执行效率。
关键词 web数据抽取 包装器 匹配算法 算法优化
下载PDF
一种基于后缀树的包装器自动生成方法研究 被引量:2
19
作者 李永丽 张玉良 《计算机工程与应用》 CSCD 北大核心 2007年第34期114-118,共5页
包装器是一种能够从网页中自动抽取数据并将其转换为结构化数据的软件程序。现有的包装器生成系统多是半自动化的,需要用户具有关于目标页面的先验知识,而且大多只能处理简单结构数据,而不能很好地处理具有嵌套结构的数据。提出了一种... 包装器是一种能够从网页中自动抽取数据并将其转换为结构化数据的软件程序。现有的包装器生成系统多是半自动化的,需要用户具有关于目标页面的先验知识,而且大多只能处理简单结构数据,而不能很好地处理具有嵌套结构的数据。提出了一种基于后缀树的包装器自动生成方法,生成的包装器不仅可以处理简单结构数据,还可以处理嵌套结构数据,具有较低的时间复杂度,有一定的实用价值。 展开更多
关键词 网页 信息抽取 后缀树 半结构化数据 包装器自动生成
下载PDF
基于规则模型的网页主题文本提取方法 被引量:3
20
作者 张裕钦 李振坤 吴永杰 《计算机工程与设计》 CSCD 北大核心 2009年第20期4665-4667,共3页
通过对网页结构化和半结构化信息的分析,提出了一种基于规则模型的网页正文提取方法。该方法在总结HTML标签的不同应用特征和网页布局的结构特征的基础上,通过定义一系列过滤、提取和合并规则来建立一个通用的网页正文抽取模型,以达到... 通过对网页结构化和半结构化信息的分析,提出了一种基于规则模型的网页正文提取方法。该方法在总结HTML标签的不同应用特征和网页布局的结构特征的基础上,通过定义一系列过滤、提取和合并规则来建立一个通用的网页正文抽取模型,以达到有效提取网页主题文本的目的。实验结果表明,该方法对于各类型网页主题文本的提取均具有较高的准确率,通用性强。 展开更多
关键词 规则模型 信息抽取 主题文本提取 数据采集 web挖掘
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部