-
题名基于关键词的深度万维网数据库选择
被引量:11
- 1
-
-
作者
范举
周立柱
-
机构
清华大学计算机科学与技术系
-
出处
《计算机学报》
EI
CSCD
北大核心
2011年第10期1797-1804,共8页
-
基金
国家自然科学基金重点项目"支持中文Web研究的基础设施建设和应用中的基本方法与关键技术"(60833003)资助
-
文摘
该文提出一种基于关键词的深度万维网查询方法:用户用关键词的方式提交查询,该方法在线地选择能够反映查询意图并且提供高质量结果的万维网数据库.这种方法既避免了深度万维网数据抓取这一代价高、难度大的操作,又可支持多领域的数据库上的关键词查询,从而能够与现有的搜索引擎实现无缝集成.文中侧重于讨论基于关键词的数据库选择,从以下两个方面解决这一问题所涉及的挑战:(1)提出了一种度量关键词-领域属性关联的相关性模型,并设计了基于随机游动的算法从查询日志中发现潜在的关键词-属性关联;(2)给出了一种新的数据采样方法,并用于基于采样的数据库-查询的相关性模型中,最终解决深度万维网的数据库选择问题.在中文深度万维网真实数据集上的实验表明:提出的方法能够有效地选择与关键词查询相关的数据库,提供高质量的结果.
-
关键词
深度万维网
万维网数据库
关键词查询
领域选择
数据库选择
-
Keywords
deep Web
Web databases
keyword search
domain selection
database selection
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名中文深度万维网数据库的现状研究
被引量:7
- 2
-
-
作者
刘玉奎
周立柱
范举
-
机构
清华大学计算机科学与技术系
-
出处
《计算机学报》
EI
CSCD
北大核心
2011年第2期360-370,共11页
-
基金
国家自然科学基金重点项目"支持中文Web研究的基础设施建设和应用中的基本方法与关键技术"(60833003)资助
-
文摘
深度万维网(Deep Web)已成为万维网上十分重要的资源,是数据库领域的研究热点.目前已有的多数研究主要集中在深度万维网发现、查询接口集成以及查询结果处理等技术层面.然而对于这个超出表面万维网所涵盖信息数百倍的宝贵资源,人们目前还缺乏足够的了解和认识.对于一些基本问题,例如:(1)中文深度万维网的具体规模有多大;(2)中文深度万维网在各个领域上的分布如何等,目前还没有人能给出一个明确的回答.针对这一状况,文中采用数据挖掘中的分类技术,对中文万维网上的深度万维网进行识别,并将其按所在领域的不同进行划分,对以上提到的两个基本问题给出了客观的度量,并对中文深度万维网的现状作了一些相关的统计.文中将主要介绍以100万中文万维网网站首页数据为基础,如何采用分类的技术来解答以上提到的两个问题.实验结果表明,当前中文万维网上,拥有60多万个深度万维网查询接口,其中一半以上属于商业领域,这比较客观地反应了当前我国万维网的使用现状.同时,中文深度万维网中复杂查询接口和简单查询接口约各占一半,而当前的研究主要集中在对复杂查询接口上,对简单查询接口的研究却相对较少,这一结论提醒我们在今后要加强对简单查询接口的相关研究.
-
关键词
中文深度万维网
数据库
分类
统计
查询接口
-
Keywords
Chinese Deep Web
database
classification
statistics
query interface
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名基于关键词的深度万维网数据库查询
被引量:1
- 3
-
-
作者
丁传羽
陈军华
夏海峰
-
机构
上海师范大学信息与机电学院
-
出处
《计算机与数字工程》
2013年第4期616-618,630,共4页
-
基金
上海师范大学科研基金(编号:SK201041)资助
-
文摘
深度万维网蕴藏着海量的信息,现有的搜索引擎很难搜索到其中的内容。如何充分地获取深度万维网中的有价值的信息成为一个难题。论文提出了基于关键词的深度万维网的数据库的查询方法,该方法采用朴素贝叶斯算法对关键词进行分类,并采用日志挖掘对采样的数据库进行统计,最终生成查询的SQL语句。该方法不仅解决了深度万维网多领域的数据库查询,而且能够与现有的搜索引擎进行整合,帮助用户快速有效的查询。
-
关键词
深度万维网
关键词查询
领域
-
Keywords
deep Web, keyword query, domain
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-