基于查询接口特征的Deep Web数据源自动分类被引量：11

Automatic Classification of Deep Web Sources Based on Search Interface Schemas

下载PDF

导出

摘要搜索引擎可以很好地搜索出大部分可索引页面,然而,Internet上有大量的页面是由后台数据库动态产生的,传统的搜索引擎搜索不出这部分页面,我们称之为DeepWeb。其中大部分DeepWeb是结构化的,它提供结构化的查询接口和结构化的结果。把这些结构化的DeepWeb数据源按所属领域进行组织可以方便用户浏览这些有价值的资源,并且这也是大规模DeepWeb集成搜索的一个关键步骤。提出了一种基于查询接口特征的DeepWeb数据源自动分类方法,并通过实验验证该方法是非常有效的。 Web search engines work well for finding crawlable pages, but not for finding datasets hidden behind Web search forms. On this deep Web, many sources are structured by providing structured query interfaces and results. Organizing such structured sources into a domain hierarchy that users can browse to find these valuable resources and is one of the critical steps toward the large-scale integration of heterogeneous Deep Web sources. We propose a Automatic Classification of Structured Deep Web Sources based on the features available on the search interfaces. Our experimental results indicate that this approach can achieve good results.

作者赵朋朋高岭崔志明

机构地区苏州大学智能信息处理及应用研究所

出处《微电子学与计算机》 CSCD 北大核心 2006年第10期47-50,共4页 Microelectronics & Computer

基金 2005年度教育部科研重点项目(205059) 教育部"高校博士学科点科研基金项目"(20040285016) 江苏省高技术研究计划项目(BG2005019)

关键词 DEEP WEB 自动分类机器学习数据集成 Deep Web, Automatic classification, Machine learning, Data integration

分类号 TP31 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献6

1Michael K Bergman.The deep web:surfacing hidden value[J].In journal of electronic publishing,2002,7 (1):8912～8914
2K C C Chang,B He,C Li,et al.Structured databases on the web:observations and implications[J].SIGMOD Record,2004,33(3):61～70
3Panagiotis G Ipeirotis,Luis Gravano,Mehran Sahami.Probe,count,and classify:categorizing hidden web databases[C].In Proceedings of the 2001 ACM SIGMOD International Conference on Management of Data,2001:67～78
4Yih-Ling Hedley,Muhammad Younas,Anne E James.The categorisation of hidden web databases through concept specificity and coverage[C].In proceedings of the 2005 international workshop on web and mobile information Systems,2005:371～376
5B He,T Tao,K C C Chang.Organizing structured web sources by query schemas:a clustering approach[C].In Proceedings of the 13th Conference on Information and Knowledge Management,2004:22～31
6Qian Peng,Weiyi Meng,Hai He,et al.WISE-Cluster:Clustering e-commerce search engines automatically[C].In 6th ACM International Workshop on Web Information and Data Management,2004:104～111

同被引文献106

1王辉,左万利,袁华.一种基于质心与本体的文本分类方法[J].计算机研究与发展,2007,44(z2):6-11. 被引量：3
2黄晓冬.Invisible Web研究综述[J].情报科学,2004,22(9):1144-1148. 被引量：19
3唐焕玲,孙建涛,陆玉昌.文本分类中结合评估函数的TEF-WA权值调整技术[J].计算机研究与发展,2005,42(1):47-53. 被引量：26
4李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：95
5宋峻峰,张维明,肖卫东,唐九阳.基于本体的信息检索模型研究[J].南京大学学报（自然科学版）,2005,41(2):189-197. 被引量：44
6江祥奎,原思聪.中文网页分类中的网页特征提取方法[J].电脑开发与应用,2005,18(10):27-28. 被引量：1
7杨立,左春,王裕国.基于语义距离的K-最近邻分类方法[J].软件学报,2005,16(12):2054-2062. 被引量：31
8郑冬冬,崔志明.Deep Web查询接口选择[J].计算机应用,2006,26(9):2024-2027. 被引量：6
9周凯.基于统计聚类RBF神经网络的孤立点检测研究[J].计算机科学,2006,33(10):196-197. 被引量：5
10杨道玲.深网信息资源采集初探[J].图书馆杂志,2006,25(12):19-22. 被引量：12

引证文献11

1乔爱丽.深网信息资源及其在图书馆信息服务中的应用[J].图书馆学研究（应用版）,2010(1):70-72. 被引量：1
2YUAN Fang ZHAO Yao ZHOU Xu.A Deep Web Query Interfaces Classification Method Based on RBF Neural Network[J].Wuhan University Journal of Natural Sciences,2007,12(5):825-829. 被引量：1
3李齐会.Deep Web查询接口的判定技术研究[J].计算机与数字工程,2009,37(3):131-134. 被引量：1
4赵志宏,黄蕾,刘峰,陈振宇.Deep Web搜索技术进展综述[J].山东大学学报（工学版）,2009,39(2):15-20. 被引量：5
5张亮,陆余良,刘金红.Deep Web入口探测与分类方法研究[J].计算机应用研究,2009,26(12):4697-4700. 被引量：2
6鲜学丰,赵朋朋,辛洁,方巍,崔志明.基于领域样本查询的Deep Web数据库分类[J].微电子学与计算机,2010,27(3):20-23. 被引量：1
7郭东伟,李三义,张仲明,刘淼.基于模型匹配的Deep Web数据库分类[J].吉林大学学报（理学版）,2011,49(3):487-492. 被引量：1
8张智,顾韵华.基于K-近邻算法的Deep Web数据源的自动分类[J].信息技术,2011,35(5):108-111.
9周晓庆,肖顺文,肖建琼,罗兴贤.一种基于改进的权值调整技术数据源分类算法研究[J].计算机应用研究,2012,29(3):916-918. 被引量：2
10姚双良,鞠时光.Deep Web数据源分类模型研究[J].江苏科技大学学报（自然科学版）,2012,26(1):45-49.

二级引证文献14

1刘丹,魏国,孙金玮,刘昕.非线性MIMO传感器信号重构中粗差的探测与修复[J].电子测量技术,2008,31(7):141-146. 被引量：1
2马丹,王翰虎,陈梅,张小平.Deep Web数据源发现与分类模型[J].计算机技术与发展,2010,20(7):65-67. 被引量：2
3方巍,文学志,毕硕本.Deep Web语义搜索系统设计[J].武汉理工大学学报,2010,32(16):106-109.
4侯毅.基于Deep Web的主题搜索引擎的系统设计[J].数字技术与应用,2011,29(2):81-81.
5李强.Deep-Web搜索引擎实现技术研究[J].甘肃科技,2012,28(3):27-29.
6刘晖.面向Web体系结构系统安全管理方法分析[J].计算机光盘软件与应用,2012,15(6):79-80.
7李巧蓉.浅论图书馆信息检索可视化技术[J].兰台世界（中旬）,2013(1):81-82. 被引量：14
8丁传羽,陈军华,夏海峰.基于关键词的深度万维网数据库查询[J].计算机与数字工程,2013,41(4):616-618. 被引量：1
9石龙,强保华,谌超,吴春明.基于查询接口文本VSM的Deep Web数据源分类[J].计算机应用与软件,2013,30(8):54-58. 被引量：2
10常润梅,孟利青.基于业务探测技术的电信服务体系研究[J].数字通信,2013,40(5):24-27. 被引量：1

1黄国华,齐春生,吴智,程占民.基于嵌入式处理器的维护管理器设计与实现[J].高性能计算技术,2013,0(5):39-42.
2张素智,李丽娜,刘中锋.基于本体的Deep Web查询结果自动标注[J].郑州轻工业学院学报（自然科学版）,2009,24(6):1-4. 被引量：1
3叶中行,葛勇,叶蕾.因特网上中文搜索引擎的评述[J].科学,2001,53(3):60-63. 被引量：2
4原福永,梁顺攀.元搜索引擎的现状与发展[J].计算机工程与设计,2005,26(12):3278-3280. 被引量：18
5谢雯娟.OPC的楼宇自控系统集成技术初探[J].信息通信,2013,26(5):73-73.
6寻找水晶.IE7搜软件也能一步到位[J].网友世界,2006(22):30-30.
7张琼妮,肖刚,张元鸣.基于XML的自适应软构件模型研究[J].计算机工程,2006,32(17):141-143. 被引量：3
8苟和平,景永霞,刘强,吴多智.基于潜在语义分析的Deep Web查询接口匹配研究[J].佳木斯大学学报（自然科学版）,2016,34(4):556-559. 被引量：1
9骆正山,毋建宏,王小完.基于CHAMELEON算法构建自适应网站研究[J].微电子学与计算机,2005,22(3):259-261. 被引量：1
10苟和平,景永霞,刘强.一种基于XML分析的Deep Web查询接口分类研究[J].南华大学学报（自然科学版）,2016,30(2):78-82.

微电子学与计算机

2006年第10期

浏览历史

内容加载中请稍等...

基于查询接口特征的Deep Web数据源自动分类被引量：11

参考文献6

同被引文献106

引证文献11

二级引证文献14

相关作者

相关机构

相关主题

浏览历史

基于查询接口特征的Deep Web数据源自动分类 被引量：11

参考文献6

同被引文献106

引证文献11

二级引证文献14

相关作者

相关机构

相关主题

浏览历史

基于查询接口特征的Deep Web数据源自动分类被引量：11