期刊文献+
共找到22篇文章
< 1 2 >
每页显示 20 50 100
多信息块Web页面的信息抽取 被引量:21
1
作者 王庆一 王继成 +1 位作者 周源远 袁春风 《计算机应用研究》 CSCD 北大核心 2002年第10期23-26,共4页
提出了一个采用新的抽取规则的包装器 ,结合采用基于文档结构抽取规则和基于特征Pattern匹配抽取规则包装器的优点 ,可以适用于含有多个信息块的Web页面。
关键词 多信息块 web页面 信息抽取 包装器 抽取规则 信息集成 Internet WWW 信息资源
下载PDF
Web数据抽取技术研究进展 被引量:13
2
作者 张成洪 古晓洪 白延红 《计算机科学》 CSCD 北大核心 2004年第2期129-131,151,共4页
由于Web上存在着大量有用而复杂的信息,近年来学术界和企业界开发了许多从Web中抽取数据的方法和工具。本文总结了Web数据抽取技术的研究进展和从Web中抽取数据的主要原理、过程、方法和抽取规则,并讨论了未来的研究方向。
关键词 web 网页 数据抽取 分布式数据库系统 数据模型 数据管理
下载PDF
多信息块Web页面中的抽取规则 被引量:6
3
作者 王庆一 王继成 +1 位作者 周源远 袁春风 《计算机工程》 CAS CSCD 北大核心 2003年第9期42-44,50,共4页
以往的包装器主要针对仅含有一个数据块的Web页面,而对含有多个信息块的Web页面,简称MIB(Multiple Information Block), Web页面无法处理。该文提出了一个新的抽取规则,结合了基于文档结构的抽取规则和基于特征Pattern匹配的抽取规... 以往的包装器主要针对仅含有一个数据块的Web页面,而对含有多个信息块的Web页面,简称MIB(Multiple Information Block), Web页面无法处理。该文提出了一个新的抽取规则,结合了基于文档结构的抽取规则和基于特征Pattern匹配的抽取规则的优点,能够有效地抽取MIB Web页面中的信息。 展开更多
关键词 web 信息抽取 包装器 抽取规则 信息集成
下载PDF
基于约束条件随机场的Web数据语义标注 被引量:9
4
作者 董永权 李庆忠 +1 位作者 丁艳辉 彭朝晖 《计算机研究与发展》 EI CSCD 北大核心 2012年第2期361-371,共11页
Web数据语义标注是Web信息抽取中的关键步骤.条件随机场是利用序列特征处理序列标注问题的经典方法.然而现有条件随机场模型无法综合利用已有的Web数据库信息和Web数据元素之间的逻辑关系,导致Web数据语义标注准确率不高.因此,提出一种... Web数据语义标注是Web信息抽取中的关键步骤.条件随机场是利用序列特征处理序列标注问题的经典方法.然而现有条件随机场模型无法综合利用已有的Web数据库信息和Web数据元素之间的逻辑关系,导致Web数据语义标注准确率不高.因此,提出一种约束条件随机场模型(CCRF).该模型通过引入可信约束和逻辑约束,有效利用了已有的Web数据库信息和Web数据元素之间的逻辑关系.为了克服现有条件随机场模型Viterbi推理方法无法综合利用这2类约束的不足,该模型采用整数线性规划推理方法,将两类约束同时引入推理过程.通过在多个领域的真实数据集上的实验结果表明,所提出的模型能够显著提高Web数据语义标注的性能,并且为Web信息抽取奠定了良好的基础. 展开更多
关键词 语义标注 web信息抽取 条件随机场 整数线性规划 web数据集成
下载PDF
Web信息的自主抽取方法 被引量:15
5
作者 许建潮 侯锟 《计算机工程与应用》 CSCD 北大核心 2005年第14期185-189,198,共6页
提出了基于表格结构及列表结构的W eb页面信息自主抽取的方法。可根据用户对信息的需求自主地从相关页面中抽取信息并将抽取信息按关系模型进行重组存放在数据库中,对表格结构信息源仅需标注一页网页,即可获取抽取知识,通过自学习能够... 提出了基于表格结构及列表结构的W eb页面信息自主抽取的方法。可根据用户对信息的需求自主地从相关页面中抽取信息并将抽取信息按关系模型进行重组存放在数据库中,对表格结构信息源仅需标注一页网页,即可获取抽取知识,通过自学习能够较好地适应网页信息的动态变化,实现信息的自动抽取。对列表结构信息源信息,通过对DOM树结构的分析,动态获得信息块在DOM层次结构中的路径,根据信息对象基本的抽取知识,获得信息对象值。采用自学习的方法以适应网页信息的动态变化。 展开更多
关键词 web 半结构化数据 信息抽取 wrapper
下载PDF
一种可行的Web数据抽取包装器的设计方法 被引量:3
6
作者 李宏伟 史培中 张素智 《计算机应用与软件》 CSCD 2009年第3期110-113,共4页
Web包装器是根据特定的抽取规则从特定的Web数据源执行数据抽取程序,设计Web包装器是Web信息抽取和集成的关键技术。针对网页结构的不确定性和易变性,详细阐述了一种基于预定义模式的Web包装器的设计与实现过程,并选取了几个出版社的新... Web包装器是根据特定的抽取规则从特定的Web数据源执行数据抽取程序,设计Web包装器是Web信息抽取和集成的关键技术。针对网页结构的不确定性和易变性,详细阐述了一种基于预定义模式的Web包装器的设计与实现过程,并选取了几个出版社的新书发布Web页面进行了数据抽取验证和抽取结果分析,取得了较好的效果。充分体现了此Web包装器的可行性,并具有一定的高效性及可维护性,能够应用在基于Wrapper/Mediator方法的Web数据集成。 展开更多
关键词 包装器 抽取规则 信息抽取 web数据集成
下载PDF
Web数据管理研究综述 被引量:83
7
作者 孟小峰 《计算机研究与发展》 EI CSCD 北大核心 2001年第4期385-395,共11页
综述了 Web数据管理技术 .对 Web数据管理的研究给出了定义 .就 Web数据管理的几个重要问题给出了阐述 .在此基础上提出了一种基于 XML 的
关键词 web数据管理 半结构化数据模式 信息集成 数据模型 数据库 计算机
下载PDF
一种高效Web数据抽取包装器的设计与实现 被引量:2
8
作者 李宏伟 史培中 张素智 《计算机技术与发展》 2009年第2期123-126,共4页
Web包装器是根据特定的抽取规则从特定的Web数据源执行数据抽取程序,设计Web包装器是Web信息抽取和集成的关键技术。详细阐述了一种基于预定义模式的Web包装器的设计与实现过程,并选取了几个出版社的新书发布Web页面进行了数据抽取验证... Web包装器是根据特定的抽取规则从特定的Web数据源执行数据抽取程序,设计Web包装器是Web信息抽取和集成的关键技术。详细阐述了一种基于预定义模式的Web包装器的设计与实现过程,并选取了几个出版社的新书发布Web页面进行了数据抽取验证和抽取结果分析,取得了较好的效果。充分体现了此Web包装器的可行性、高效性及可维护性,能够应用在基于Wrapper/Mediator方法的Web数据集成。 展开更多
关键词 包装器 抽取规则 信息抽取 web数据集成
下载PDF
基于XML的密集型Web信息抽取与集成研究 被引量:2
9
作者 卢中宁 刘放美 严宇辉 《郑州轻工业学院学报(自然科学版)》 CAS 2008年第3期31-35,共5页
针对密集型Web信息的数据抽取问题,提出了一种适合于XML结构又较为通用的树型结构抽取规则,把密集型Web上的数据抽取出来整合到指定模式的XML文档中.使用基于样例学习的半结构化Web信息抽取方法,自行开发了一个基于XML的Web新书查询原... 针对密集型Web信息的数据抽取问题,提出了一种适合于XML结构又较为通用的树型结构抽取规则,把密集型Web上的数据抽取出来整合到指定模式的XML文档中.使用基于样例学习的半结构化Web信息抽取方法,自行开发了一个基于XML的Web新书查询原型系统,抽取Web页面效果良好,可直接应用于专门的Web网站信息的抽取,也可以用于其他相关应用的数据准备阶段. 展开更多
关键词 XML 密集型web数据 数据抽取 信息集成
下载PDF
基于XML的WEB信息抽取模型设计 被引量:5
10
作者 李姗 黄水源 《微计算机信息》 2009年第9期207-208,211,共3页
对现有的信息抽取技术和XML技术加以研究,在此基础上提出了适合XML的通用的web信息抽取模型,它能够把Web上的数据抽取出来整合到指定模式的XML文档中去,最大限度地实现了Web信息的查询与共享。
关键词 XML 信息抽取 web 规则 信息集成
下载PDF
Web页面细粒度数据抽取方法研究
11
作者 王旭仁 杨硕 +2 位作者 何发镁 王彦丽 张为群 《计算机工程与设计》 CSCD 北大核心 2014年第2期700-704,共5页
尽管有很多方法用于Web页面信息抽取,对细粒度信息如数据项等的抽取需求仍然很迫切。提出了一个用于结构化数据抽取的解决方案,将Web页面上的信息以更细的粒度抽取出来。对包装器(wrapper)生成时所依据的信息进行了基于稳定性的分类,实... 尽管有很多方法用于Web页面信息抽取,对细粒度信息如数据项等的抽取需求仍然很迫切。提出了一个用于结构化数据抽取的解决方案,将Web页面上的信息以更细的粒度抽取出来。对包装器(wrapper)生成时所依据的信息进行了基于稳定性的分类,实现了模板和种子之间多对多的自动关联(automatically correlating),并按照信息稳定性的高低为每个字段生成多个抽取规则,在抽取信息时根据多个抽取规则进行抽取,只有在所有规则失效时才会导致抽取失败,提高了抽取系统的鲁棒性。实验结果表明,该方法具有良好的抽取功率和准确率。 展开更多
关键词 信息抽取 web挖掘 包装器 自动关联
下载PDF
基于规则集的Deep Web信息检索
12
作者 杨巨峰 史广顺 +1 位作者 赵玉娟 王庆人 《计算机工程》 CAS CSCD 北大核心 2008年第13期51-53,共3页
提出一种基于规则集的新型Deep Web信息检索模型。该模型包含4个层次,主要处理环节如任务分派、信息提取、数据清洗等引入了Deep Web特有的结构规则、逻辑规则和应用规则协助工作。把该模型应用于科技文献检索、电子机票定购和工作简历... 提出一种基于规则集的新型Deep Web信息检索模型。该模型包含4个层次,主要处理环节如任务分派、信息提取、数据清洗等引入了Deep Web特有的结构规则、逻辑规则和应用规则协助工作。把该模型应用于科技文献检索、电子机票定购和工作简历搜索3个领域,实验结果证明该模型灵活、可信,有效信息查全率达到96%以上。 展开更多
关键词 信息检索 深层网络 规则集 数据提取
下载PDF
基于逻辑定义的Web信息抽取与集成
13
作者 潘惠勇 高丽平 薛惠忠 《中原工学院学报》 CAS 2005年第2期53-56,共4页
 针对Web上的数据不能被计算机或应用程序所理解的问题,设计并实现了一种Web信息抽取工具,通过采用抽取过程逻辑定义与抽取过程执行模块相分离的设计方法,提高应用系统的灵活性、维护性,使得从Web上抽取的信息更加符合用户需求,达到了...  针对Web上的数据不能被计算机或应用程序所理解的问题,设计并实现了一种Web信息抽取工具,通过采用抽取过程逻辑定义与抽取过程执行模块相分离的设计方法,提高应用系统的灵活性、维护性,使得从Web上抽取的信息更加符合用户需求,达到了自动灵活地从Web上的海量数据中抽取有价值信息的效果. 展开更多
关键词 半结构化 web信息抽取 数据集成
下载PDF
Web信息抽取网页自动浏览导航与集成规则研究 被引量:1
14
作者 王海涛 张志亮 +2 位作者 孙煜华 袁春风 黄宜华 《计算机科学与探索》 CSCD 2014年第9期1049-1066,共18页
Web中蕴藏着大量有价值的数据,过去十几年中,针对Web信息抽取技术已有较多的研究。而现有的研究和系统多集中在数据抽取处理阶段,忽略或简化了完整的Web信息抽取过程需要的网页自动浏览导航和集成处理。为克服这些不足,提出了包含浏览... Web中蕴藏着大量有价值的数据,过去十几年中,针对Web信息抽取技术已有较多的研究。而现有的研究和系统多集中在数据抽取处理阶段,忽略或简化了完整的Web信息抽取过程需要的网页自动浏览导航和集成处理。为克服这些不足,提出了包含浏览导航、数据抽取和集成过程的三阶段Web信息抽取处理模型,基于此进一步研究提出了自动浏览导航模型,并设计实现了网页自动浏览导航规则语言。研究提出了一种Web数据抽取、转换和集成(extraction-transformation-integration,ETI)模型,设计实现了一套灵活有效的数据集成和流程控制规则语言,能有效地维护跨网页数据记录的复杂关系,并提供灵活的流程控制能力。抽取实例的结果表明,该规则语言和系统可有效完成全过程化的Web信息抽取集成处理功能。 展开更多
关键词 web信息抽取 自动浏览导航 数据集成 流程控制 规则语言
下载PDF
基于xml的Deep Web信息自动抽取技术的研究
15
作者 彭媛媛 许建潮 《科技信息》 2009年第33期85-85,104,共2页
随着近年来Internet的飞速发展,Deep Web已成为网络信息资源的重要组成部分,用户通过查询接口在线访问其后端的Web数据库来动态的获取其中蕴含的海量信息。由于Deep Web资源分布在各个Deep Web站点,具有异构、动态、数据量大等特点,使... 随着近年来Internet的飞速发展,Deep Web已成为网络信息资源的重要组成部分,用户通过查询接口在线访问其后端的Web数据库来动态的获取其中蕴含的海量信息。由于Deep Web资源分布在各个Deep Web站点,具有异构、动态、数据量大等特点,使用起来较为不便,因此,面向DeepWeb的数据集成系统便应运而生。本文对Deep Web数据集成系统中的数据抽取技术进行了研究,提出了基于xml的Deep Web数据自动抽取方法,并作了详细的技术分析与研究,它能够快速有效地抽取出Deep Web资源,具有抽取准确度高,抽取粒度细等特点。 展开更多
关键词 信息提取 DEEPweb Deepweb数据集成 XML
下载PDF
针对模板生成网页的一种数据自动抽取方法(英文) 被引量:45
16
作者 杨少华 林海略 韩燕波 《软件学报》 EI CSCD 北大核心 2008年第2期209-223,共15页
当前,Web上的很多网页是动态生成的,网站根据请求从后台数据库中选取数据并嵌入到通用的模板中,例如电子商务网站的商品描述网页.研究如何从这类由模板生成的网页中检测出其背后的模板,并将嵌入的数据(例如商品名称、价格等等)自动地抽... 当前,Web上的很多网页是动态生成的,网站根据请求从后台数据库中选取数据并嵌入到通用的模板中,例如电子商务网站的商品描述网页.研究如何从这类由模板生成的网页中检测出其背后的模板,并将嵌入的数据(例如商品名称、价格等等)自动地抽取出来.给出了模板检测问题的形式化描述,并深入分析模板产生网页的结构特征.提出了一种新颖的模板检测方法,并利用检测出的模板自动地从实例网页中抽取数据.与其他已有方法相比,该方法能够适用于"列表页面"和"详细页面"两种类型的网页.在两个第三方的测试集上进行了实验,结果表明,该方法具有很高的抽取准确率. 展开更多
关键词 web 自动数据抽取 信息抽取 模板发现 wrapper生成
下载PDF
基于Internet的信息集成技术 被引量:9
17
作者 李斌 谭立湘 +1 位作者 李海鹰 庄镇泉 《计算机工程》 CAS CSCD 北大核心 2000年第11期35-37,86,共4页
综述了基于Internet上分布异构信息源的网上信息集成技术的研究进展,通过典型实例对其中信息提取与转换、数据模型和查询处理等关键技术的最新进展进行了归纳与探讨,最后对该领域今后的研究方向进行了展望.
关键词 信息集成 Internet wrapper 信息提取:数据模型 查询处理
下载PDF
一种针对商品数据记录的自动抽取方法 被引量:8
18
作者 杨舟 卓林 +1 位作者 赵朋朋 崔志明 《计算机工程》 CAS CSCD 北大核心 2010年第23期262-265,共4页
提出一种针对电子商务网站商品列表页数据记录的自动抽取方法。该方法根据商品记录的特点,通过商品记录中商品的文本、图片以及布局等节点类型信息计算节点对应的值,依据节点值的相似度对节点进行分组,再从不同分组中过滤出包含数据记... 提出一种针对电子商务网站商品列表页数据记录的自动抽取方法。该方法根据商品记录的特点,通过商品记录中商品的文本、图片以及布局等节点类型信息计算节点对应的值,依据节点值的相似度对节点进行分组,再从不同分组中过滤出包含数据记录节点的集合,从而抽取整个页面的数据记录。实验结果证明该方法有效且抽取效率较高。 展开更多
关键词 web信息抽取 数据抽取 信息集成 商品数据记录
下载PDF
基于数据区域发现的信息抽取规则生成方法 被引量:4
19
作者 曲著伟 李敏强 《计算机工程》 CAS CSCD 北大核心 2009年第22期59-61,共3页
提出一种自动检测网页中数据记录结构特点并生成Web信息抽取规则的方法,以网页DOM树为基础,自动发现和分离Web数据区域所对应的DOM子树,将其分解为数据记录子树集合,综合数据记录子树的结构特点生成抽取规则。实验结果显示,该方法具有... 提出一种自动检测网页中数据记录结构特点并生成Web信息抽取规则的方法,以网页DOM树为基础,自动发现和分离Web数据区域所对应的DOM子树,将其分解为数据记录子树集合,综合数据记录子树的结构特点生成抽取规则。实验结果显示,该方法具有较高的抽取准确率和查全率。 展开更多
关键词 信息抽取 抽取规则生成 web数据区域 树匹配
下载PDF
一种基于后缀树的包装器自动生成方法研究 被引量:2
20
作者 李永丽 张玉良 《计算机工程与应用》 CSCD 北大核心 2007年第34期114-118,共5页
包装器是一种能够从网页中自动抽取数据并将其转换为结构化数据的软件程序。现有的包装器生成系统多是半自动化的,需要用户具有关于目标页面的先验知识,而且大多只能处理简单结构数据,而不能很好地处理具有嵌套结构的数据。提出了一种... 包装器是一种能够从网页中自动抽取数据并将其转换为结构化数据的软件程序。现有的包装器生成系统多是半自动化的,需要用户具有关于目标页面的先验知识,而且大多只能处理简单结构数据,而不能很好地处理具有嵌套结构的数据。提出了一种基于后缀树的包装器自动生成方法,生成的包装器不仅可以处理简单结构数据,还可以处理嵌套结构数据,具有较低的时间复杂度,有一定的实用价值。 展开更多
关键词 网页 信息抽取 后缀树 半结构化数据 包装器自动生成
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部