Deep Web数据源发现与分类模型被引量：2

Discovery and Classification Model for Deep Web Sources

下载PDF

导出

摘要随着Internet的发展,Web正在不断深入人们的生活。传统搜索引擎只能检索浅层网络(Surface Web),不能直接索引到深层网络(Deep Web)的资源。为了有效利用Deep Web资源,对Deep Web数据源发现并进行领域类别的划分,已成为一个非常迫切的问题。该模型首先抽取Deep Web页面查询接口的特征,构造了一个Deep Web页面过滤器,从而能够发现Deep Web的数据源,其次在对查询接口特征进行分析后,构建了一个基于KNN的分类器,并通过该分类器对新产生的Deep Web数据源进行领域分类。试验结果表明,这种模型的平均分类准确率达到86.9%,具有良好的分类效果。 With the development of Internet,Web is continuously used in our lives.Traditional search engines are only able to reach surface Web except for Deep Web sources.To make use of Deep Web source efficiently,it＇s urgent that Deep Web sources are found out and classified.This work was focus on Deep Web classification,and a novel classification model was proposed.Its processing including two steps： at first,the model employed features of query interfaces of Deep Web,to recognize whether the Web page was Deep Web,and then,the specific subject of the Deep Web were be identified in the second step by utilize KNN algorithm.The experiments show that the average correct classification rate is 86.9%,and the detailed results are listed in the end of this paper.

作者马丹王翰虎陈梅张小平

机构地区贵州大学计算机科学与信息学院

出处《计算机技术与发展》 2010年第7期65-67,71,共4页 Computer Technology and Development

基金贵州省自然科学基金项目(黔科合GY字[2008]3035)

关键词深层网络查询接口 K近邻算法分类 Deep Web query interfaces KNN classification

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献9

1柴春梅,李翔,林祥.基于改进KNN算法实现网络媒体信息智能分类[J].计算机技术与发展,2009,19(1):1-4. 被引量：7
2张明宝,马静.一种基于知网的中文词义消歧算法[J].计算机技术与发展,2009,19(2):9-11. 被引量：9
3蒋云,赵佳宝.自动化测试脚本自动生成技术的研究[J].计算机技术与发展,2007,17(7):4-7. 被引量：30
4牛冀平,胡志华,余志超.可扩展XML文本数据自动分析研究与实现[J].计算机技术与发展,2006,16(3):8-10. 被引量：1
5姜芳艽,孟小峰,贾琳琳.Deep Web集成服务的不确定模式匹配[J].计算机学报,2008,31(8):1412-1421. 被引量：14
6梁卓明,陈炬桦.基于专有名词优先的快速中文分词[J].计算机技术与发展,2008,18(3):24-27. 被引量：5
7胡哲,郑诚,王艳玲.语义检索关键技术研究[J].计算机技术与发展,2008,18(10):75-78. 被引量：2
8洪辉,李石君,余伟,田建伟.基于语义的中文Deep Web查询接口集成[J].计算机科学,2008,35(3):61-64. 被引量：7
9李齐会.Deep Web查询接口的判定技术研究[J].计算机与数字工程,2009,37(3):131-134. 被引量：1

二级参考文献71

1孙茂松,邹嘉彦.汉语自动分词研究中的苦干理论问题[J].语言文字应用,1995(4):40-46. 被引量：45
2刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
3尤永康,刘乃琦.自动化回归测试在Java项目中的实现[J].计算机应用,2005,25(1):88-90. 被引量：12
4陈计喜,姜丽红.自动化功能测试的方法与实现[J].计算机工程,2004,30(B12):168-169. 被引量：9
5马雪英,姚砺,叶澄清.回归测试自动化工具研究[J].计算机科学,2005,32(3):162-165. 被引量：7
6张宁,贾自艳,史忠植.使用KNN算法的文本分类[J].计算机工程,2005,31(8):171-172. 被引量：98
7宋波,张忠能.基于系统功能测试的软件自动化测试可行性分析[J].计算机应用与软件,2005,22(12):31-33. 被引量：22
8赵朋朋,高岭,崔志明.基于查询接口特征的Deep Web数据源自动分类[J].微电子学与计算机,2006,23(10):47-50. 被引量：11
9中国互联网络信息中心.第21次中国互联网络发展状况统计报告[DB/OL].北京:[出版者不详],2008-10-17.
10Lewis D D. Ewduating and optimizing autonomous text classi- fication systems[ C]/7 In Proceedings of S1GIR - 95, 18th ACM International Conference on Research and Development in Infommtion Retrieval. Seattle, US: [s. n. ], 1995.

共引文献66

1陈立娜.面向制造业的主动搜索平台的研究与实现[J].现代计算机,2009,15(2):189-191. 被引量：1
2姜芳艽,孟小峰.Deep Web数据集成中查询处理的研究与进展[J].计算机科学与探索,2009,3(2):113-129. 被引量：4
3张鹏,王健.Web应用中后台服务测试自动化的研究与实现[J].计算机技术与发展,2009,19(4):188-191.
4吴立松,杨根兴,蔡立志.基于构件的测试脚本复用技术研究[J].计算机应用研究,2009,26(4):1323-1326. 被引量：5
5付文静,彭志平,杨社堂.语义web服务发现技术研究进展[J].茂名学院学报,2009,19(3):56-58.
6刘芳.查询自动生成器在Web数据库发现中的应用[J].信息技术,2009,33(6):85-87. 被引量：2
7钱月琴.基于数据驱动的J2EE单元测试脚本自动生成技术[J].河北软件职业技术学院学报,2009,11(3):55-57.
8金玉,范学峰.基于《知网》的中文Deep Web模式匹配算法研究[J].计算机应用研究,2009,26(10):3750-3753. 被引量：6
9王洪伟,霍佳震,王伟,廖雅国.面向语义检索应用的本体模型结构设计[J].系统工程与电子技术,2010,32(1):166-174. 被引量：8
10胡哲,朱强.基于本体的查询扩展研究[J].电脑知识与技术,2010(02Z):1025-1026. 被引量：2

同被引文献11

1郑冬冬,崔志明.Deep Web查询接口选择[J].计算机应用,2006,26(9):2024-2027. 被引量：6
2高岭,赵朋朋,崔志明.Deep Web查询接口的自动判定[J].计算机技术与发展,2007,17(5):148-151. 被引量：13
3Chang K C, He B, Li C, et al. Structured databases on the Web : Observations and implications [ J ]. ACM SIG- MOD Record, 2004,35(3) :61-70.
4He B, Zhang Z, Chang K C. Knocking the door to the Deep Web : Integrating Web query interfaces [ C ]// Pro- ceedings of the 2004 ACM SIGMOD International Confer- ence on Management of Data. 2004:913-914.
5Cope J, Craswell N, Hawking D. Automated discovery of search interfaces on the Web[ C]//Proceedings of the lathAustralasian Database Conference. 2003:181-189.
6He H, Meng W Y, Yu C, et al. WISE-Inte~ator: A sys- tem for extracting and integrating complex Web search in- terfaces of the Deep Web[ C]//Proceedings of the 31 st In- ternational Conference on Very Large Data Bases. 2005: 1314-1317.
7Raghavan S, Gareia-Molina H. Crawling tile Hidden Web [ R]. Conjurer Science Department, Stanford University, 2000.
8Page L, Brin S, Motwani R, et al. The PageRank Citation Ranking: Bring Order to the Web[ R]. Stanford Universi- ty, 1997.
9刘伟,孟小峰,孟卫一.Deep Web数据集成研究综述[J].计算机学报,2007,30(9):1475-1489. 被引量：136
10王小林,王义.改进的基于知网的词语相似度算法[J].计算机应用,2011,31(11):3075-3077. 被引量：38

引证文献2

1钱程,阳小兰.Deep Web查询接口研究[J].计算机与现代化,2012(6):161-164.
2常甜甜,陈军华.Deep Web数据源的发现和分类[J].上海师范大学学报（自然科学版）,2016,45(5):536-542.

1王海龙,胡景芝,赵朋朋,崔志明.基于搜索引擎的Deep Web数据源发现[J].计算机工程,2011,37(5):77-79. 被引量：1
2林超,赵朋朋,崔志明.Deep Web数据源聚焦爬虫[J].计算机工程,2008,34(7):56-58. 被引量：11
3常甜甜,陈军华.Deep Web数据源的发现和分类[J].上海师范大学学报（自然科学版）,2016,45(5):536-542.
4李恒杰,王建军.Ontology与Agent在图像检索中的应用[J].甘肃联合大学学报（自然科学版）,2007,21(3):62-65. 被引量：2
5辛洁,崔志明,赵朋朋,张广铭,鲜学丰.基于MapReduce虚拟机的Deep Web数据源发现方法[J].通信学报,2011,32(7):189-195. 被引量：3
6朱郭峰,杨彦,周竹荣,应中运,韩凤娇.基于领域的微博用户影响力计算方法[J].西南大学学报（自然科学版）,2014,36(3):145-151. 被引量：11
7李道申,刘勇.基于本体的DeepWeb数据源发现方法[J].计算机工程,2012,38(4):52-54. 被引量：1
8何彦东,王妍,蒋碧珠.光化学领域CPC分类系统应用初探[J].中国发明与专利,2014(8):114-117. 被引量：3
9成瑜,何洁月.基于本体的生物信息数据源的发现[J].微机发展,2005,15(1):38-40. 被引量：5
10李文骏,崔志明.基于搜索引擎的Deep Web数据源发现技术[J].计算机技术与发展,2008,18(8):58-60. 被引量：2

计算机技术与发展

2010年第7期

浏览历史

内容加载中请稍等...

Deep Web数据源发现与分类模型被引量：2

参考文献9

二级参考文献71

共引文献66

同被引文献11

引证文献2

相关作者

相关机构

相关主题

浏览历史

Deep Web数据源发现与分类模型 被引量：2

参考文献9

二级参考文献71

共引文献66

同被引文献11

引证文献2

相关作者

相关机构

相关主题

浏览历史

Deep Web数据源发现与分类模型被引量：2