期刊文献+
共找到409篇文章
< 1 2 21 >
每页显示 20 50 100
Duplicate identification model for deep web 被引量:4
1
作者 刘丽楠 寇月 +2 位作者 孙高尚 申德荣 于戈 《Journal of Southeast University(English Edition)》 EI CAS 2008年第3期315-317,共3页
A duplicate identification model is presented to deal with semi-structured or unstructured data extracted from multiple data sources in the deep web.First,the extracted data is generated to the entity records in the d... A duplicate identification model is presented to deal with semi-structured or unstructured data extracted from multiple data sources in the deep web.First,the extracted data is generated to the entity records in the data preprocessing module,and then,in the heterogeneous records processing module it calculates the similarity degree of the entity records to obtain the duplicate records based on the weights calculated in the homogeneous records processing module.Unlike traditional methods,the proposed approach is implemented without schema matching in advance.And multiple estimators with selective algorithms are adopted to reach a better matching efficiency.The experimental results show that the duplicate identification model is feasible and efficient. 展开更多
关键词 duplicate records deep web data cleaning semi-structured data
下载PDF
Latent semantic analysis for query interfaces of deep web sites 被引量:2
2
作者 茅琴娇 冯博琴 潘善亮 《Journal of Southeast University(English Edition)》 EI CAS 2008年第3期312-314,共3页
To further enhance the efficiencies of search engines,achieving capabilities of searching,indexing and locating the information in the deep web,latent semantic analysis is a simple and effective way.Through the latent... To further enhance the efficiencies of search engines,achieving capabilities of searching,indexing and locating the information in the deep web,latent semantic analysis is a simple and effective way.Through the latent semantic analysis of the attributes in the query interfaces and the unique entrances of the deep web sites,the hidden semantic structure information can be retrieved and dimension reduction can be achieved to a certain extent.Using this semantic structure information,the contents in the site can be inferred and the similarity measures among sites in deep web can be revised.Experimental results show that latent semantic analysis revises and improves the semantic understanding of the query form in the deep web,which overcomes the shortcomings of the keyword-based methods.This approach can be used to effectively search the most similar site for any given site and to obtain a site list which conforms to the restrictions one specifies. 展开更多
关键词 deep web information retrieval latent semantic analysis singular value decomposition
下载PDF
Deep Web数据集成研究综述 被引量:136
3
作者 刘伟 孟小峰 孟卫一 《计算机学报》 EI CSCD 北大核心 2007年第9期1475-1489,共15页
随着World Wide Web(WWW)的飞速发展,Deep Web中蕴含了海量的可供访问的信息,并且还在迅速地增长.这些信息要通过查询接口在线访问其后端的Web数据库.尽管丰富的信息蕴藏在Deep Web中,由于Deep Web数据的异构性和动态性,有效地把这些信... 随着World Wide Web(WWW)的飞速发展,Deep Web中蕴含了海量的可供访问的信息,并且还在迅速地增长.这些信息要通过查询接口在线访问其后端的Web数据库.尽管丰富的信息蕴藏在Deep Web中,由于Deep Web数据的异构性和动态性,有效地把这些信息加以利用是一件十分挑战性的工作.Deep Web数据集成至今仍然是一个新兴的研究领域,其中包含有若干需要解决的问题.总体来看,在该领域已经开展了大量的研究工作,但各个方面发展并不均衡.文中提出了一个Deep Web数据集成的系统架构,依据这个系统架构对Deep Web数据集成领域中若干关键研究问题的现状进行了回顾总结,并对未来的研究发展方向作了较为深入的探讨分析. 展开更多
关键词 World Wide web deep web web数据库 查询接口 deep web数据集成
下载PDF
基于结果模式的Deep Web数据抽取 被引量:15
4
作者 马安香 张斌 +2 位作者 高克宁 齐鹏 张引 《计算机研究与发展》 EI CSCD 北大核心 2009年第2期280-288,共9页
高效、准确地获取Deep Web数据是实现Deep Web数据集成系统的关键问题,然而重复语义标注、嵌套属性的存在是Deep Web数据抽取效率和准确率难以提升的瓶颈问题.因此提出基于结果模式的Deep Web数据抽取机制,将数据抽取工作分为结果模式... 高效、准确地获取Deep Web数据是实现Deep Web数据集成系统的关键问题,然而重复语义标注、嵌套属性的存在是Deep Web数据抽取效率和准确率难以提升的瓶颈问题.因此提出基于结果模式的Deep Web数据抽取机制,将数据抽取工作分为结果模式生成和数据抽取两个阶段,属性语义标注放在结果模式生成阶段来完成,有效解决了重复语义标注问题;同时针对嵌套属性问题,提出一种有效的解决方法.与同类成果相比,基于结果模式的数据抽取方法提高了数据抽取的准确率及效率,并且为Deep Web数据集成奠定了良好的基础. 展开更多
关键词 deep web 数据集成 数据抽取 结果模式 语义标注 网页数据特征矩阵
下载PDF
基于网页上下文的Deep Web数据库分类 被引量:31
5
作者 马军 宋玲 +1 位作者 韩晓晖 闫泼 《软件学报》 EI CSCD 北大核心 2008年第2期267-274,共8页
讨论了提高Deep Web数据库分类准确性的若干新技术,其中包括利用HTML网页的内容文本作为理解数据库内容的上下文和把数据库表的属性标记词归一的过程.其中对网页中的内容文本的发现算法是基于对网页文本块的多种统计特征.而对数据库属... 讨论了提高Deep Web数据库分类准确性的若干新技术,其中包括利用HTML网页的内容文本作为理解数据库内容的上下文和把数据库表的属性标记词归一的过程.其中对网页中的内容文本的发现算法是基于对网页文本块的多种统计特征.而对数据库属性标记词的归一过程是把同义标记词用代表词进行替代的过程.给出了采用分层模糊集合对给定学习实例所发现的领域和语言知识进行表示和基于这些知识对标记词归一化算法.基于上述预处理,给出了计算Deep Web数据库的K-NN(k nearest neighbors)分类算法,其中对数据库之间语义距离计算综合了数据库表之间和含有数据库表的网页的内容文本之间的语义距离.分类实验给出算法对未预处理的网页和经过预处理后的网页在数据库分类精度、查全率和综合F1等测度上的分类结果比较. 展开更多
关键词 deep web 隐式web 数据库分类 内容文本抽取 语义分类
下载PDF
基于本体的Deep Web数据标注 被引量:28
6
作者 袁柳 李战怀 陈世亮 《软件学报》 EI CSCD 北大核心 2008年第2期237-245,共9页
借鉴语义Web领域中深度标注的思想,提出了一种对Web数据库查询结果进行语义标注的方法.为了获得完整且一致的标注结果,将领域本体作为Web数据库遵循的全局模式引入到查询结果语义标注过程中.对查询接口及查询结果特征进行详细分析,并采... 借鉴语义Web领域中深度标注的思想,提出了一种对Web数据库查询结果进行语义标注的方法.为了获得完整且一致的标注结果,将领域本体作为Web数据库遵循的全局模式引入到查询结果语义标注过程中.对查询接口及查询结果特征进行详细分析,并采用查询条件重置的策略,从而确定查询结果数据的语义标记.通过对多个不同领域Web数据库的测试,在具有领域本体支持的条件下,该方法能够对Web数据库查询结果添加正确的语义标记,从而验证了该方法的有效性. 展开更多
关键词 deep web 本体 语义标注 深度标注 模式匹配
下载PDF
基于模板和领域本体的Deep Web信息抽取研究 被引量:16
7
作者 顾韵华 高原 +1 位作者 高宝 杜杰 《计算机工程与设计》 CSCD 北大核心 2014年第1期327-332,共6页
为简化模板的抽取规则、提高抽取的准确率,提出了一种基于双模板和领域本体的Deep Web信息抽取方法。该方法采用DIV块模板和表格模板结合的方法,建立双模板。利用基于中文分词的网页预处理结果,在领域本体知识的指导下,通过C4.5决策树... 为简化模板的抽取规则、提高抽取的准确率,提出了一种基于双模板和领域本体的Deep Web信息抽取方法。该方法采用DIV块模板和表格模板结合的方法,建立双模板。利用基于中文分词的网页预处理结果,在领域本体知识的指导下,通过C4.5决策树算法来训练分类模型,筛选出待抽取的DIV块序号,构建DIV块模板,从而可以精确定位到数据块。利用XML技术构建XSLT文档,得到表格模板的抽取规则,从而抽取出数据片段。选取天气领域进行Deep Web信息抽取实验,实验结果表明,抽取准确率和召回率都可以达到95%以上,取得了较好的抽取效果。 展开更多
关键词 deep web 信息抽取 模板 领域本体 决策树
下载PDF
D-EEM:一种基于DOM树的Deep Web实体抽取机制 被引量:17
8
作者 寇月 李冬 +2 位作者 申德荣 于戈 聂铁铮 《计算机研究与发展》 EI CSCD 北大核心 2010年第5期858-865,共8页
随着Web数据库的不断增长,通过对Deep Web的访问逐渐成为获取信息的主要手段.如何有效地抽取Deep Web中结果页面所包含的实体信息成为一个值得研究的问题.通过分析Deep Web结果页面的特点,提出了一种基于DOM树的Deep Web实体抽取机制(DO... 随着Web数据库的不断增长,通过对Deep Web的访问逐渐成为获取信息的主要手段.如何有效地抽取Deep Web中结果页面所包含的实体信息成为一个值得研究的问题.通过分析Deep Web结果页面的特点,提出了一种基于DOM树的Deep Web实体抽取机制(DOM-tree based entity extraction mechanism for Deepweb,D-EEM),能够有效解决Deep Web环境中的实体抽取问题.D-EEM采用基于DOM树的自动实体抽取策略,利用DOM树中的文本内容和层次结构来确定数据区域和实体区域,提高了实体抽取的准确性;另外,提出了一种基于上下文距离和共现次数的语义标注方法,有效地将来自不同数据源的抽取结果进行合成.通过实验验证了D-EEM中所采用的关键技术的可行性和有效性,同其他实体抽取策略相比,D-EEM在抽取效率及抽取准确性等方面具有一定的优势. 展开更多
关键词 实体抽取 DOM树 deepweb 数据区域定位 实体区域定位
下载PDF
关于中国Deep Web的规模、分布和结构 被引量:13
9
作者 赵朋朋 崔志明 +1 位作者 高岭 仲华 《小型微型计算机系统》 CSCD 北大核心 2007年第10期1799-1802,共4页
随着Web数据库的广泛应用,Web正在加速的"深化",大量的高质量的信息隐藏在Deep Web中.基于IP采样的方法,对1,000,000个IP样本进行了分析统计,揭示了2006年初中国Deep Web的规模、分布和结构.主要结论包括有:1中国Deep Web查... 随着Web数据库的广泛应用,Web正在加速的"深化",大量的高质量的信息隐藏在Deep Web中.基于IP采样的方法,对1,000,000个IP样本进行了分析统计,揭示了2006年初中国Deep Web的规模、分布和结构.主要结论包括有:1中国Deep Web查询接口往往位于站点浅层,94.6%的Deep Web查询接口出现在站点的前3层;2中国Deep Web大约有24,000个站点,28,000个Web数据库和74,000个查询接口;3中国Deep Web大部分是非结构化的,其中64%是非结构化的Web数据库;4中国Deep Web分布于多种不同的主题领域;5目前主要的中文搜索引擎已覆盖国内Deep Web大约二分之一的页面. 展开更多
关键词 deepweb web数据库 查询接口
下载PDF
Deep Web集成服务的不确定模式匹配 被引量:14
10
作者 姜芳艽 孟小峰 贾琳琳 《计算机学报》 EI CSCD 北大核心 2008年第8期1412-1421,共10页
随着Deep Web的迅猛发展,从高度自治、异构及动态变化的Web数据库中,为用户提供高质量的数据逐渐成为当前Deep Web集成服务的一个研究热点.在大部分Web数据库只能通过查询接口为用户提供服务的前提下,如何建立用户请求与集成查询接口模... 随着Deep Web的迅猛发展,从高度自治、异构及动态变化的Web数据库中,为用户提供高质量的数据逐渐成为当前Deep Web集成服务的一个研究热点.在大部分Web数据库只能通过查询接口为用户提供服务的前提下,如何建立用户请求与集成查询接口模式之间以及集成查询接口模式与Web数据库查询接口模式之间的匹配关系,是Deep Web集成服务中进行合理的用户请求转换的关键.之前的相关工作都是寻找最佳的匹配结果,回避匹配的不确定性,丢弃了可能有价值的其他匹配结果.文中首先剖析了请求转换中模式匹配的不确定性,提出了数字类型的相似度计算方法,给出了进行数字类型的模式匹配的有效的剪枝方法以及数据类型驱动的模式匹配优化方法,并在此基础上提出了一种基于相似度计算的不确定性模式匹配方法,最后通过大量的实验证明了该方法的有效性. 展开更多
关键词 deep web 集成服务 相似度 模式匹配 不确定性
下载PDF
面向Deep Web的动态竞争情报智能采集策略 被引量:13
11
作者 张玉峰 吴金红 王翠波 《情报学报》 CSSCI 北大核心 2008年第4期624-630,共7页
企业间竞争互动的高强度与高速度,突显出竞争情报的时效性,动态竞争情报是企业在复杂多变的环境下取得成功的关键。Web资源可分为surface Web和Deep Web。Surface Web由静态网页构成,Deep Web信息资源由动态页面、商业数据库、实时... 企业间竞争互动的高强度与高速度,突显出竞争情报的时效性,动态竞争情报是企业在复杂多变的环境下取得成功的关键。Web资源可分为surface Web和Deep Web。Surface Web由静态网页构成,Deep Web信息资源由动态页面、商业数据库、实时数据和企业内部数据库组成,具有质量高、实时性强、易于深度分析的特点,是企业动态竞争情报的重要来源,但常规网络信息采集工具不能直接获得这些信息。针对动态竞争情报采集中存在的信息源选择、信息抽取、信息分析中存在的障碍,提出面向Deep Web的动态竞争情报智能采集策略,详细探讨了动态数据源的智能选择、查询结果的智能抽取、智能化的数据集成和智能分析策略。 展开更多
关键词 deep web 动态竞争情报 数据集成
下载PDF
一种应用于Deep Web数据集成系统中的查询松弛策略 被引量:5
12
作者 申德荣 马也 +2 位作者 聂铁铮 寇月 于戈 《计算机研究与发展》 EI CSCD 北大核心 2010年第1期88-95,共8页
针对Deep Web环境中存在的失败查询,提出了一种有效的查询松弛策略.所有Deep Web资源按查询接口属性分组,组成全局数据源关系图(DRG);针对特定查询将DRG转换为对应该查询请求的数据源关系图;利用该DRG,按照特定的规则进行查询松弛和执... 针对Deep Web环境中存在的失败查询,提出了一种有效的查询松弛策略.所有Deep Web资源按查询接口属性分组,组成全局数据源关系图(DRG);针对特定查询将DRG转换为对应该查询请求的数据源关系图;利用该DRG,按照特定的规则进行查询松弛和执行处理.针对查询松弛导致的部分结果可能与用户查询请求的相似度较低的问题,提出先通过Skyline方法对结果进行筛选,然后再根据各个结果实例与用户查询的相似度进行Top-k排序,最后将最接近用户要求的结果集返回给用户.通过实验验证了提出的查询松弛策略的有效性. 展开更多
关键词 deep web 查询松弛 数据源关系图 TOP-K SKYLINE
下载PDF
一种Deep Web数据源质量评估模型 被引量:6
13
作者 鲜学丰 方巍 +2 位作者 赵朋朋 崔志明 胡鹏昱 《微电子学与计算机》 CSCD 北大核心 2008年第10期47-50,共4页
分析了影响Deep Web数据源质量评估的若干因素,提出了一种Deep Web数据源质量评估模型.该模型从浏览器、Web数据库、Web服务器和用户四个方面对数据源进行质量评估.通过在真实的Deep Web数据源上进行实验验证,说明该方法是有效和可行的.
关键词 deep web web数据库 web服务器 质量
下载PDF
基于伪属性语义匹配的Deep web信息抽取 被引量:4
14
作者 郑皎凌 唐常杰 +2 位作者 姜玥 杨宁 李红军 《四川大学学报(工程科学版)》 EI CAS CSCD 北大核心 2009年第2期173-178,共6页
已有的Deep Web信息抽取算法主要对结构规范的网页进行模版的提取,目前多数Deep Web网页在结构上是非规范的,网页中记录属性字段可能缺失或重复、原子属性字段可能被html标签分隔。为了正确抽取这些非规范网页,提出了一种新方法:引入了... 已有的Deep Web信息抽取算法主要对结构规范的网页进行模版的提取,目前多数Deep Web网页在结构上是非规范的,网页中记录属性字段可能缺失或重复、原子属性字段可能被html标签分隔。为了正确抽取这些非规范网页,提出了一种新方法:引入了记录的伪属性及其语义匹配概念,通过实现记录间伪属性序列的语义匹配实现信息抽取;提出了伪属性序列的模型及其语义匹配算法和记录Wrapper模型及其生成算法。实验表明,在结构不规范deep web网页的抽取上,能达到91%的查全率和93%的查准率,相对其它算法有一定优势。 展开更多
关键词 deep web 信息抽取 伪属性 语义匹配
下载PDF
Deep Web爬虫爬行策略研究 被引量:13
15
作者 郑冬冬 崔志明 《计算机工程与设计》 CSCD 北大核心 2006年第17期3154-3158,共5页
如今Web上越来越多的信息可以通过查询接口来获得,为了获取某DeepWeb站点的页面用户不得不键入一系列的关键词集。由于没有直接指向DeepWeb页面的静态链接,当前大多搜索引擎不能发现和索引这些页面。然而,近来研究表明DeepWeb站点提供... 如今Web上越来越多的信息可以通过查询接口来获得,为了获取某DeepWeb站点的页面用户不得不键入一系列的关键词集。由于没有直接指向DeepWeb页面的静态链接,当前大多搜索引擎不能发现和索引这些页面。然而,近来研究表明DeepWeb站点提供的高质量的信息对许多用户来说是非常有价值。这里研究了怎样建立起一个有效的DeepWeb爬虫,它可以自动发现和下载DeepWeb页面。由于DeepWeb惟一“入口点”是查询接口,DeepWeb爬虫设计面对的主要挑战是怎样对查询接口自动产生有意义的查询。这里提出一种针对查询接口查询自动产生问题的理论框架。通过在实际DeepWeb站点上的实验证明了此方法是非常有效的。 展开更多
关键词 deep web deep web爬虫 查询选择 查询效能 适应性爬行算法
下载PDF
Deep Web数据源聚焦爬虫 被引量:11
16
作者 林超 赵朋朋 崔志明 《计算机工程》 CAS CSCD 北大核心 2008年第7期56-58,共3页
Internet上有大量页面是由后台数据库动态产生的,这部分页面不能通过传统的搜索引擎访问,被称为Deep Web。数据源发现是大规模Deep Web数据源集成的关键步骤。该文提出一种针对DeepWeb数据源的聚焦爬行算法。在评价链接重要性时,综合考... Internet上有大量页面是由后台数据库动态产生的,这部分页面不能通过传统的搜索引擎访问,被称为Deep Web。数据源发现是大规模Deep Web数据源集成的关键步骤。该文提出一种针对DeepWeb数据源的聚焦爬行算法。在评价链接重要性时,综合考虑了页面与主题的相关性和链接相关信息。实验证明该方法是有效的。 展开更多
关键词 deep web数据源 聚焦爬虫 贝叶斯分类器
下载PDF
基于数据质量的Deep Web数据源排序 被引量:6
17
作者 余伟 李石君 +1 位作者 文利娟 田建伟 《小型微型计算机系统》 CSCD 北大核心 2010年第4期641-646,共6页
Deep Web技术使得大量隐藏在接口背后的有用信息更容易被用户查找到.然而,随着数据源的增多,如何从众多的数据源中快速地找到合适的结果这一问题变得越来越重要.通过传统的链接分析方法和相关性评估方法来对数据源进行排序,已经不能满... Deep Web技术使得大量隐藏在接口背后的有用信息更容易被用户查找到.然而,随着数据源的增多,如何从众多的数据源中快速地找到合适的结果这一问题变得越来越重要.通过传统的链接分析方法和相关性评估方法来对数据源进行排序,已经不能满足高精度的要求.提出一种通过抽样方法和数据质量评估来判断数据源的优劣性的算法.本文提出的抽样方法,改进了分层抽样和雪球抽样,使得在较少的样本点时,能够准确的反映整体特征.定义了能基本反映数据源的优劣程度的6个主要质量标准,并给出计算方法;通过质量标准,结合权重向量来量化数据源的质量.实验通过对数据源进行抽样分析,求解数据源得分的期望值,并根据该期望值对数据源进行了整体排序.结果表明,利用抽样对数据源的数据质量进行估计和评分,具有很好的准确性和可操作性. 展开更多
关键词 抽样估计 数据质量 质量向量 数据源排序
下载PDF
基于查询接口特征的Deep Web数据源自动分类 被引量:11
18
作者 赵朋朋 高岭 崔志明 《微电子学与计算机》 CSCD 北大核心 2006年第10期47-50,共4页
搜索引擎可以很好地搜索出大部分可索引页面,然而,Internet上有大量的页面是由后台数据库动态产生的,传统的搜索引擎搜索不出这部分页面,我们称之为DeepWeb。其中大部分DeepWeb是结构化的,它提供结构化的查询接口和结构化的结果。把这... 搜索引擎可以很好地搜索出大部分可索引页面,然而,Internet上有大量的页面是由后台数据库动态产生的,传统的搜索引擎搜索不出这部分页面,我们称之为DeepWeb。其中大部分DeepWeb是结构化的,它提供结构化的查询接口和结构化的结果。把这些结构化的DeepWeb数据源按所属领域进行组织可以方便用户浏览这些有价值的资源,并且这也是大规模DeepWeb集成搜索的一个关键步骤。提出了一种基于查询接口特征的DeepWeb数据源自动分类方法,并通过实验验证该方法是非常有效的。 展开更多
关键词 deep web 自动分类 机器学习 数据集成
下载PDF
基于语义的中文Deep Web查询接口集成 被引量:7
19
作者 洪辉 李石君 +1 位作者 余伟 田建伟 《计算机科学》 CSCD 北大核心 2008年第3期61-64,共4页
现在网上信息正越来越被在线数据库深化,而传统的搜索引擎对此类信息源却没有很好的获取办法,加剧了人们想得到有用知识而搜索结果并不理想的形势。本文针对这种情况,简要论述了中文Deep Web研究工作的必要性及其发展前景,探讨了中文Dee... 现在网上信息正越来越被在线数据库深化,而传统的搜索引擎对此类信息源却没有很好的获取办法,加剧了人们想得到有用知识而搜索结果并不理想的形势。本文针对这种情况,简要论述了中文Deep Web研究工作的必要性及其发展前景,探讨了中文Deep Web技术的关键问题,并基于中文语义,提出了中文Deep Web中的查询接口集成方案。实验表明该方法能使得接口之间属性匹配的正确率达到98%以上。 展开更多
关键词 深网 接口集成 模式匹配
下载PDF
基于知识的Deep Web集成环境变化处理的研究 被引量:6
20
作者 徐和祥 王鑫印 +1 位作者 王述云 胡运发 《软件学报》 EI CSCD 北大核心 2008年第2期257-266,共10页
研究了Deep Web集成环境中构件的依赖关系(执行偏序依赖和知识依赖),并在此基础上提出了一种基于知识的环境变化的处理方法,包括Deep Web集成环境变化处理模型以及适应Deep Web环境变化的动态体系结构和处理算法,可以对大规模Deep Web... 研究了Deep Web集成环境中构件的依赖关系(执行偏序依赖和知识依赖),并在此基础上提出了一种基于知识的环境变化的处理方法,包括Deep Web集成环境变化处理模型以及适应Deep Web环境变化的动态体系结构和处理算法,可以对大规模Deep Web集成的进一步探索和走向应用提供参考.实验结果表明,该方法不仅可以处理Deep Web环境的变化,还可以大幅度提高集成系统的性能. 展开更多
关键词 知识 deep web集成 环境变化 软件体系结构
下载PDF
上一页 1 2 21 下一页 到第
使用帮助 返回顶部