基于搜索引擎的Deep Web数据源发现技术被引量：2

Deep Web Source Discovery Based on Search Engine

下载PDF

导出

摘要随着Web数据库的广泛应用,Web正在不断"深化"。传统搜索引擎只能检索浅层网络,却不能直接索引到深层网络(Deep Web)的资源。为了有效地利用Deep Web资源,必须要对Deep Web数据进行大规模集成。其中,数据源发现是整合Deep Web资源的首要工作,能否高效地发现Deep Web站点是Deep Web数据获取的关键。提出了一种基于传统搜索引擎的Deep Web数据源发现方法,该方法通过分析返回结果来扩展查询,从而进一步提高了数据源发现的效率。实验证明该方法能得到较好的结果。 With the prevalence of Web database,Web is continuously deepened. Traditional search engines are only able to reach surface Web except for deep Web source. To make use of deep Web source efficiently,must perform scalable integration on deep Web data. In this case, data source discovery is a chief task. It＇s crucial to obtain deep Web data that whether or not locates the deep Web efficiently. Describes a deep Web source discovery method based on traditional .search engine. It further improves the efficiency of data source discovery by query expansion via result analysis. The test gets good result.

作者李文骏崔志明

机构地区苏州大学智能信息处理及应用研究所

出处《计算机技术与发展》 2008年第8期58-60,64,共4页 Computer Technology and Development

基金国家自然科学基金项目(60673092) 2005年度教育部科研重点项目(205059) 教育部"高校博士学科点科研基金项目"(20040285016) 江苏省高技术研究计划项目(BG2005019)

关键词搜索引擎 DEEP WEB 网页表单查询扩展 search engine Deep Web HTML form query expansion

分类号 TP11 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献10

1Ghanem T M, Aref W G. Databases Deepen the Web [ J ]. IEEE Computer,2004,73(1) :116 - 117.
2Bergman M K. Deep Web White Paper [ EB/OL ]. 2004. http://brighplanet. com/technology/deepweb.asp.
3Chang K C C, He B, Li C, et al. Structured Databases on the Web: Observations and Implications [ J ]. SIGMOD Record, 2004,33(3) :61 - 70.
4Chang K C C,He B,Zhang Z. Toward Large - Scale Integration: Building a MetaQuerier over Databases on the Web [C]// Proceedings of the Second Conference on Innovative Data Systems Research ( CIDR 2005 ). Asilomar, California: [s. n.],2005:44-55.
5Barbosa L, Freire J. Searching for Hidden- Web Databases [C]//The Eighth International Workshop on the Web and Database (WebDB 2005). Baltimore, MD: [s. n. ] ,2005:1 - 6.
6Barbosa L, Freire J. An Adaptive Crawler for locating Hidden - Web Entry Points[ C]//In Proceedings of the 16th International World Wide Web Conference(WWW 2007). Banff: [s. n. ] ,2007:441 - 450.
7Lage J P,da Silva A S,Golgher P B,et al. Automatic generation of agents for collecting hidden Web pages for data extraction[J ]. Data & Knowledge Engineering, 2004, 49:177 - 196.
8刘伟,孟小峰,孟卫一.DeepWeb数据集成问题研究[R].[出版地不详]:WAMDM实验室,2006:18-34.
9高岭,赵朋朋,崔志明.Deep Web查询接口的自动判定[J].计算机技术与发展,2007,17(5):148-151. 被引量：13
10Bacza - Yates R, Hurtado C, Mendoza M. Query recommendation using query logs in ,search engines[ C] //Current Trends in Database Technology. Berlin, Germany: Springer - Verlag, 2004 : 588 - 596.

二级参考文献5

1Ghanem T M,Aref W G.Databases Deepen the Web[J].IEEE Computer,2004,73(1):116-117.
2Bergman M K.The Deep Web:Surfacing Hidden Value[J/OL].The Journal of Electronic Publishing,2001,7(1)[2001].http://www.press.umich.edu/jep/07-01/bergman.html.
3Sherman C,Price G.The Invisible Web:Uncovering Information Sources Search Engines Can't See[M].New York:Cyber Age Books,2001.
4Bergman M K.Deep Web White Paper[EB/OL].2004.http://brightplanet.com/technology/deepweb.asp.
5Lage J P,da Silva A S,Golgher P B,et al..Automatic generation of agents for collecting hidden Web pages for data extraction[J].Data & Knowledge Engineering,2004,49:177-196.

共引文献12

1赵志宏,黄蕾,刘峰,陈振宇.Deep Web搜索技术进展综述[J].山东大学学报（工学版）,2009,39(2):15-20. 被引量：5
2李志涛,刘全,周文云.一种多分类器Deep Web数据源的自动分类与判别方法[J].计算机应用与软件,2010,27(2):11-13.
3杨丽华,袁方,姚增利,王煜.基于启发式规则的Deep Web接口发现[J].河北大学学报（自然科学版）,2010,30(1):107-112. 被引量：1
4沈炜,蒙祖强.基于Web日志粒度化的深网数据库分类[J].微计算机信息,2010,26(15):161-162.
5张云坤.基于数据集成的高校图书馆个性化信息服务研究[J].图书馆工作与研究,2010(7):25-27. 被引量：4
6张志平,张云坤,李文骏.Deep web在个性化信息服务中的应用[J].电子商务,2010,11(8):62-63.
7张云坤.基于Deep Web数据集成的个性化信息服务研究[J].现代情报,2010,30(10):74-76.
8王鸿,余建桥.基于N-Gram的Deep Web接口属性抽取[J].计算机与现代化,2010(12):135-138. 被引量：1
9张亮,陆余良,房珊瑶.基于量子自组织神经网络的Deep Web分类方法研究[J].计算机科学,2011,38(6):205-210. 被引量：3
10陈明,郭建兵,赵朋朋,崔志明.Deep Web中基于表单特征的松弛方法[J].计算机工程与设计,2012,33(1):168-172.

同被引文献28

1郑冬冬,赵朋朋,崔志明.Deep Web爬虫研究与设计[J].清华大学学报（自然科学版）,2005,45(S1):1896-1902. 被引量：28
2黄晓冬.Invisible Web研究综述[J].情报科学,2004,22(9):1144-1148. 被引量：19
3朱靖波,陈文亮.基于领域知识的文本分类[J].东北大学学报（自然科学版）,2005,26(8):733-735. 被引量：12
4杨道玲.深网信息资源采集初探[J].图书馆杂志,2006,25(12):19-22. 被引量：12
5高岭,赵朋朋,崔志明.Deep Web查询接口的自动判定[J].计算机技术与发展,2007,17(5):148-151. 被引量：13
6GHANEM T M, AREF W G. Databases deepen the web[J]. IEEE Computer, 2004, 37(1): 116--117.
7CHANG K C C, HE B, LI C, et al. Strucured databases on the web: observations and implications[J]. SIGMOD Record, 2004, 33(3): 61-70.
8JARED C, NICK C, DAVID H. Automated discovery of search interfaces on the web[Z]. Proceedings of the 14th Australasian Database Conference, Adelaide, Australia, 2003.
9LIN Peiguang, XU Ruzhi, HONG Zhimin, et al. Finding the WDB's query interface in deep web automatically[J]. IEEE Computer Society, 2008, 195--200.
10姚增利袁方常勇.基于搜索引擎和领域知识的DeepWeb接口发现.计算机科学,2008,35(9):100-102.

引证文献2

1杨丽华,袁方,姚增利,王煜.基于启发式规则的Deep Web接口发现[J].河北大学学报（自然科学版）,2010,30(1):107-112. 被引量：1
2赵兵,郭才正.深网和搜索引擎[J].情报探索,2016(1):90-92. 被引量：2

二级引证文献3

1张付志,杜宝瑞.面向OA期刊站点的论文资源发现方法[J].情报学报,2013,32(5):497-502.
2肖洋.“伊斯兰国”的暗网攻势及其应对路径[J].江南社会学院学报,2017,19(1):19-23. 被引量：10
3吴跃文.大数据背景下跨境电信网络诈骗犯罪的预警与反制——以冒充公检法诈骗为例[J].湖北警官学院学报,2019,32(3):89-96. 被引量：24

1网页表单标准有新进展[J].大众软件,2003(17):61-61.
2高岭,赵朋朋,崔志明.Deep Web查询接口的自动判定[J].计算机技术与发展,2007,17(5):148-151. 被引量：13
3钱丽.基于HTML5的网页表单设计与实现[J].科技视界,2012(28):178-178.
4冯小民.网页表单轻松填[J].电脑,2004(5):130-131.
5卓林.基于本体和语义相似度的Deep Web数据源发现技术[J].计算机光盘软件与应用,2012,15(20):237-237.
6李志涛,刘全,周文云.一种多分类器Deep Web数据源的自动分类与判别方法[J].计算机应用与软件,2010,27(2):11-13.
7郑淑丽,韩江洪,程文娟,吴永忠.Deep Web查询接口自动识别方法[J].郑州大学学报（理学版）,2009,41(1):56-58. 被引量：1
8王建民.网页表单无障碍设计[J].电子商务,2012,13(11):61-62. 被引量：1
9王海龙,胡景芝,赵朋朋,崔志明.基于搜索引擎的Deep Web数据源发现[J].计算机工程,2011,37(5):77-79. 被引量：1
10林超,赵朋朋,崔志明.Deep Web数据源聚焦爬虫[J].计算机工程,2008,34(7):56-58. 被引量：11

计算机技术与发展

2008年第8期

浏览历史

内容加载中请稍等...

基于搜索引擎的Deep Web数据源发现技术被引量：2

参考文献10

二级参考文献5

共引文献12

同被引文献28

引证文献2

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于搜索引擎的Deep Web数据源发现技术 被引量：2

参考文献10

二级参考文献5

共引文献12

同被引文献28

引证文献2

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于搜索引擎的Deep Web数据源发现技术被引量：2