深层网中基于入口查询的表单填充策略被引量：3

Form Filling Strategy Based on Entrance Query in Deep Web

下载PDF

导出

摘要针对深层网中数据量大导致无法被传统搜索引擎索引的问题,在提取网页中,改进启发式规则识别表单查询入口,在表单标签与内容匹配时,改进基于语义的相似度匹配算法进行表单内容填充。实验结果表明,提取表单标签的准确率达到94.23%,匹配成功率达到88.83%,填充成功率达到95.43%。 Aiming at the problem that large data in deep Web can not be indexed by traditional searching engine, this paper uses an improved heuristic rules to identify entrance query of form in extractive Web pages. It adopts improved similarity matching algorithm based on semantic to fill form content when form tag matching with content. Experimental results show that the veracity rate of extracted form label is 94.23%, success rate of the matching is 88.83% and filling form control is 95.43%.

作者马建华李赛红徐兰兰

机构地区南京邮电大学教务处南京师范大学教育技术系

出处《计算机工程》 CAS CSCD 北大核心 2010年第7期66-67,70,共3页 Computer Engineering

关键词深层网入口查询表单填充 deep Web entrance query form filling

分类号 TP393.4 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1Bergmanm M K. The Deep Web: Surfacing the Hidden Value[J]. Journal of Electronic Publishing in Taking License: Recognizing a Need to Change, 2001, 7(1): 30-32.
2Chang K C C, He Bin, Li Chengkai, et al. Struetured Databases on the Web: Observations and Implieations[J]. ACM SIGMOD Record, 2004, 33(3): 61-70.

同被引文献15

1郑冬冬,赵朋朋,崔志明.Deep Web爬虫研究与设计[J].清华大学学报（自然科学版）,2005,45(S1):1896-1902. 被引量：28
2郑冬冬,崔志明.Deep Web爬虫爬行策略研究[J].计算机工程与设计,2006,27(17):3154-3158. 被引量：13
3Yang Daowen, Liu Quan. The Discovery and Extraction of Query Interfaces Based on Deep Web[C] //Proc. of WCSE’09. [S. l.] : IEEE Computer Society, 2009.
4刘伟,孟小峰,孟卫一.Deep Web数据集成研究综述[J].计算机学报,2007,30(9):1475-1489. 被引量：136
5ChangK,HeB,LiC,eta1.StructureddatabasesOFttheWeb:Observationsandimplications.ACMSIGMODRecord,2004,33(3):61-70.
6TEL-8QueryInterfaces[EB/OL].http:,/metaquerier.CS.uiuc.edu/repository/datasets/tel-8/browsable.
7王辉,刘艳威,左万利.使用分类器自动发现特定领域的深度网入口(英文)[J].软件学报,2008,19(2):246-256. 被引量：14
8马军,宋玲,韩晓晖,闫泼.基于网页上下文的Deep Web数据库分类[J].软件学报,2008,19(2):267-274. 被引量：31
9曾伟辉,李淼.深层网络爬虫研究综述[J].计算机系统应用,2008,17(5):122-126. 被引量：39
10荣光,张化祥.一种Deep Web爬虫的设计与实现[J].计算机与现代化,2009(3):31-34. 被引量：5

引证文献3

1李道申,刘勇.基于本体的DeepWeb数据源发现方法[J].计算机工程,2012,38(4):52-54. 被引量：1
2邵崇洁,陈丽君,徐贝,丁特战.Deep Web表单标签提取探究[J].电脑知识与技术,2012,8(6):3821-3822.
3刘宇,郑成焕.基于Scrapy的深层网络爬虫研究[J].软件,2017,38(7):111-114. 被引量：29

二级引证文献30

1邓松.实体信息集成检索的深网数据源选择[J].计算机工程,2016,42(10):75-79. 被引量：2
2刘贵平,刘娜,段红义.基于聚焦网络爬虫技术的人才招聘数据采集[J].电脑编程技巧与维护,2018(5):69-70. 被引量：2
3马艳辉,刘进,黄伟恺,吴钧,蔡梅松,李宇平.企业内网内容检索系统的设计与实现[J].电脑编程技巧与维护,2018(7):97-100.
4云洋.基于Scrapy的网络爬虫设计与实现[J].电脑编程技巧与维护,2018(9):19-21. 被引量：2
5范顺利,周亦敏.基于云平台的网页抓取架构的研究与设计[J].计算机时代,2018(9):21-23.
6韩贝,马明栋,王得玉.基于Scrapy框架的爬虫和反爬虫研究[J].计算机技术与发展,2019,29(2):139-142. 被引量：26
7曾健荣,张仰森,郑佳,黄改娟,陈若愚.面向多数据源的网络爬虫实现技术及应用[J].计算机科学,2019,46(5):304-309. 被引量：44
8武振国,李红斌,李艳翠,张怀彬.小麦育种辅助系统设计与实现[J].河南科技学院学报（自然科学版）,2019,47(2):49-55. 被引量：3
9鲁丰玲.基于Scrapy的招聘信息爬虫设计与实现[J].科技资讯,2019,17(20):7-10. 被引量：4
10杜鹏辉,仇继扬,彭书涛,柴沣伟,刘意先.基于Scrapy的网络爬虫的设计与实现[J].电子设计工程,2019,27(22):120-123. 被引量：22

1林志泉,胡永健,杨晖,汪伟.一种基于特征的约束匹配方法[J].中国图象图形学报,2007,12(11):2104-2108. 被引量：4
2张宇,蒋东兴,刘启新.基于元数据的异构数据集整合方案[J].清华大学学报（自然科学版）,2009(7):1037-1040. 被引量：49
3李媛媛,蒋楠.浅谈一种基于过程本体的语义检索方法[J].数字技术与应用,2014,32(9):47-47. 被引量：1
4丁迎.VFP如何按任意组合条件查询表单[J].电脑编程技巧与维护,2003(10):89-89. 被引量：2
5张洋,高岭,高全力,杨建锋.一种基于协同过滤的表单推荐录入模型[J].计算机工程,2016,42(1):41-45. 被引量：3
6李富昌.在专利审查公众意见提交制度中引入适度反馈之探讨[J].中国发明与专利,2012(10):76-79. 被引量：3
7程晋,严承华,樊攀星.基于RBR和CBR的网络入侵检测系统模型[J].信息网络安全,2013(7):47-49.
8SSBD.自动匹配内容调整[J].电脑高手,2002(3):89-89.
9苏力健.手语元素在新媒体界面交互应用中的图形特征研究[J].大众文艺（学术版）,2015(21):190-190.
10龚德良,程杰仁,王鲁达,吕明娥,刘平.基于报文头与报文内容的入侵检测分析方法[J].湘南学院学报,2011,32(5):46-50.

计算机工程

2010年第7期

浏览历史

内容加载中请稍等...

深层网中基于入口查询的表单填充策略被引量：3

参考文献2

同被引文献15

引证文献3

二级引证文献30

相关作者

相关机构

相关主题

浏览历史

深层网中基于入口查询的表单填充策略 被引量：3

参考文献2

同被引文献15

引证文献3

二级引证文献30

相关作者

相关机构

相关主题

浏览历史

深层网中基于入口查询的表单填充策略被引量：3