基于语义的Deep Web数据源自动发现技术被引量：4

An Automatic Discovery Technology of Deep Web Data Sources Based on Semantic

下载PDF

导出

摘要为了方便用户快捷高效的使用DeepWeb中内容丰富、主题专一的高质量信息,对DeepWeb数据源发现研究已成为一个非常迫切的问题。目前通用的方法是基于关键词的主题过滤策略,这样容易发现一些不相关的数据源,为此提出一种新的基于语义的DeepWeb数据源聚焦爬行方法,利用朴素贝叶斯分类算法自动发现DeepWeb数据源,实验验证了该方法的有效性。 To expediently utilize the rich ,oriented topic and high quality information of Deep Web, this problem on Deep Web data sources discovery has been focused by more and more people. Nowadays, topic filtering strategy based on key words is widely used, then it will obtain some irrelevant data sources. This paper proposes a new focused crawling method based on semantic for Deep Web data sources, and describes a technique for detecting query interface using naive Bayes classification. Finally, the method is validated by test.

作者方巍胡鹏昱赵朋朋崔志明

机构地区苏州大学智能信息处理及应用研究所

出处《微电子学与计算机》 CSCD 北大核心 2007年第9期60-63,共4页 Microelectronics & Computer

基金国家自然科学基金项目(60673092) 2005年度教育部科研重点项目(205059) 教育部高校博士学科点科研基金(20040285016) 江苏省高技术研究计划项目(BG2005019)

关键词 Deed WEB 语义本体表单 Deep Web Semantic Ontology Form Bayes Classification

分类号 TP338.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献5

1Bergman M K.The deep web:surfacing hidden value[J].BrightPlanet In Journal of Electronic Publishing,2001,7(1)
2Chang K C C,He B,Li C,et al.Structured databases on the web:observations and Implications[J].SIGMOD Record,2004:61-70
3Alexandros Ntoulas,Petros Zerfos,Junghoo Cho.Downloading textual hidden web content through keyword queries[J].JCDL'05,Denver,Colorado,USA,2005
4McCallum A,Nigam K,Rennie J,et al.Building domainspecific search engines with machine learning technique[C].In Procs.of AAAI Spring Symposium on Intelligents Engine in Cyberspace,1999
5Maedche A.Ontology learning for the semantic web[M].Boston:Kluwer Academi Publishers,2002

同被引文献26

1黄晓冬.Invisible Web研究综述[J].情报科学,2004,22(9):1144-1148. 被引量：19
2朱靖波,陈文亮.基于领域知识的文本分类[J].东北大学学报（自然科学版）,2005,26(8):733-735. 被引量：12
3蔡明,张体首.基于本体的搜索引擎研究[J].微计算机信息,2006(12X):242-244. 被引量：14
4高岭,赵朋朋,崔志明.Deep Web查询接口的自动判定[J].计算机技术与发展,2007,17(5):148-151. 被引量：13
5MICHAEL K BERGMAN.The deep web:surfacing hidden value [J].In journal of electronic publishing,2002,7(1):8912--8914.
6ALEXANDROS NTOULAS, PETROS ZERFOS, JUNGHOO CHO. Downloading textual hidden web content through keyword queries[J]. JCDL' 05, Denver, Colorado, USA, 2005.
7PINKERTON B.Finding what people want Experience with the web crawler [A]. Proceedings of the Second World-Wide Web conference [C]. Chicago, Illinois October 1994.
8GRUBER TR.A translation approach to portable ontology specifications.Technical Report,KSL 92*7 1,Knowledge System Laboratory, 1993.
9DENG ZH, TANG SW, ZHANG Metal. Overview of ontology. Acta Scientiarum Naturalium Universitatis Pekinensis, 2002,38(5): 730-738(in Chinese with English abstract).
10KEVIN CHANG CHEN CHUAN. Structured Databases on the Web: Observations and Implications [J]. SIGMOD Record, 2004,33 (3): 61-65.

引证文献4

1张素智,李丽娜.基于本体的Deep Web数据源聚焦搜索系统研究[J].微计算机信息,2010,26(6):27-29. 被引量：1
2杨丽华,袁方,姚增利,王煜.基于启发式规则的Deep Web接口发现[J].河北大学学报（自然科学版）,2010,30(1):107-112. 被引量：1
3卓林.基于本体和语义相似度的Deep Web数据源发现技术[J].计算机光盘软件与应用,2012,15(20):237-237.
4王芳芳.探究ID3分类算法的深度网络爬虫设计方法[J].数字技术与应用,2015,33(3):114-114.

二级引证文献2

1吕岳东,陈立潮,郭勇义,张英俊.基于本体的煤炭科学数据集成模型研究[J].微计算机信息,2010,26(31):133-135. 被引量：2
2张付志,杜宝瑞.面向OA期刊站点的论文资源发现方法[J].情报学报,2013,32(5):497-502.

1陈婕.基于节能的无线传感器数据收集协议研究[J].电脑知识与技术（过刊）,2010,16(33):9227-9228.
2龚海刚,刘明,陈力军,谢立.DEED:一种无线传感器网络中高效节能的数据通信协议[J].电子学报,2005,33(8):1391-1396. 被引量：23
3孟小峰,于戈.DeepWeb数据集成专刊前言[J].软件学报,2008,19(2):177-178. 被引量：1
4林绍武.配电终端自动发现技术的实现[J].华东科技（学术版）,2014,0(12):222-222.
5王海龙,胡景芝,赵朋朋,崔志明.基于搜索引擎的Deep Web数据源发现[J].计算机工程,2011,37(5):77-79. 被引量：1
6林超,赵朋朋,崔志明.Deep Web数据源聚焦爬虫[J].计算机工程,2008,34(7):56-58. 被引量：11
7李娜,郭涛.专业术语新词自动发现技术[J].哈尔滨师范大学自然科学学报,2013,29(5):49-52. 被引量：1
8高辉,陈钧,牛海波,罗威.面向科技情报的互联网信息源自动发现技术[J].大数据,2015,1(4):48-56. 被引量：2
9曾辉,费云,唐亮.通用即插即用服务自动发现技术[J].中兴通讯技术,2006,12(4):10-14. 被引量：2
10陈旺,李波,史彦军,滕弘飞.求解RCPSP问题的带分布估计的差异演化算法[J].计算机工程与应用,2011,47(4):1-4. 被引量：5

微电子学与计算机

2007年第9期

浏览历史

内容加载中请稍等...

基于语义的Deep Web数据源自动发现技术被引量：4

参考文献5

同被引文献26

引证文献4

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于语义的Deep Web数据源自动发现技术 被引量：4

参考文献5

同被引文献26

引证文献4

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于语义的Deep Web数据源自动发现技术被引量：4