-
题名基于层次树模型的Deep Web数据提取方法
被引量:14
- 1
-
-
作者
田建伟
李石君
-
机构
软件工程国家重点实验室(武汉大学)
武汉大学计算机学院
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2011年第1期94-102,共9页
-
基金
国家自然科学基金项目(60970018)
-
文摘
网络在成为信息查询和发布平台的同时,海量的信息隐藏在查询受限的Web数据库中,使得人们无法有效地获取这些高质量的数据记录.传统的Deep Web搜索研究主要集中在通过关键字接口获取Web数据库内容.但是,由于Deep Web具有多属性和top-k的特点,基于关键字的方法具有固有的缺点,这就为Deep Web查询和检索带来了挑战.为了解决这个问题,提出了一种基于层次树的DeepWeb数据获取方法,该方法可以无重复和完整地提取Web数据库中的数据记录.该方法首先把Web数据库模型化为一棵层次树,Deep Web数据获取问题就转化为树的遍历问题.其次,对树中的属性排序,缩小遍历空间;同时,利用基于属性值相关度的启发规则指导遍历过程提高遍历效率.最后,在本地模拟数据库和真实Web数据库上的大量实验证明,这种方法可以达到很好的覆盖度和较高的提取效率.
-
关键词
隐藏数据库
数据提取
多属性值接口
top-k元组
互信息
-
Keywords
hidden database
data retrieval
multi-attribute interfaces
top-k tuple
mutual information
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-
-
题名一种基于范围型属性的Deep Web数据提取方法
被引量:2
- 2
-
-
作者
郭建兵
崔志明
陈明
赵朋朋
-
机构
苏州普达新信息技术有限公司
苏州大学智能信息处理及应用研究所
-
出处
《计算机应用与软件》
CSCD
北大核心
2013年第2期54-57,共4页
-
基金
国家自然科学基金项目(60970015
61003054)
+1 种基金
江苏省高校自然科学研究项目(10KJB520018)
苏州市科技型企业技术创新资金专项(SG201043)
-
文摘
针对在Deep Web数据库查询结果存在上限k的情况下,对于如何提取数据记录的问题,提出一种基于范围型属性的数据提取方法。利用范围型属性的值域特征,将其值域按照目标数据库的分布样本划分为多个子区间。实验结果表明,按照该方法划分的子区间,使得查询收益,查询饱和度和已提取数据的覆盖程度等指标均达到98.50%以上。
-
关键词
数据提取
DEEP
WEB
区间划
top-k元组
范围型属性
-
Keywords
Data extraction Deep Web Interval division top-k tuple Range property
-
分类号
TP3
[自动化与计算机技术—计算机科学与技术]
-