基于网页上下文的Deep Web数据库分类被引量：31

Classification of Deep Web Databases Based on the Context of Web Pages

下载PDF

导出

摘要讨论了提高Deep Web数据库分类准确性的若干新技术,其中包括利用HTML网页的内容文本作为理解数据库内容的上下文和把数据库表的属性标记词归一的过程.其中对网页中的内容文本的发现算法是基于对网页文本块的多种统计特征.而对数据库属性标记词的归一过程是把同义标记词用代表词进行替代的过程.给出了采用分层模糊集合对给定学习实例所发现的领域和语言知识进行表示和基于这些知识对标记词归一化算法.基于上述预处理,给出了计算Deep Web数据库的K-NN(k nearest neighbors)分类算法,其中对数据库之间语义距离计算综合了数据库表之间和含有数据库表的网页的内容文本之间的语义距离.分类实验给出算法对未预处理的网页和经过预处理后的网页在数据库分类精度、查全率和综合F1等测度上的分类结果比较. New techniques are discussed for enhancing the classification precision of deep Web databases, which include utilizing the content texts of the HTML pages containing the database entry forms as the context and a unification processing for the database attribute labels. An algorithm to find out the content texts in HTML pages is developed based on multiple statistic characteristics of the text blocks in HTML pages. The unification processing for database attributes is to let the attribute labels that are closed semantically be replaced with delegates. The domain and language knowledge found in learning samples is represented in hierarchical fuzzy sets and an algorithm for the unification processing is proposed based on the presentation. Based on the pre-computing a k-NN （k nearest neighbors） algorithm is given for deep Web database classification, where the semantic distance between two databases is calculated based on both the distance between the content texts of the HTML pages and the distance between database forms embedded in the pages. Various classification experiments are carried out to compare the classification results done by the algorithm with pre-computing and the one without the pre-computing in terms of classification precision, recall and F1 values.

作者马军宋玲韩晓晖闫泼

机构地区山东大学计算机科学与技术学院

出处《软件学报》 EI CSCD 北大核心 2008年第2期267-274,共8页 Journal of Software

基金 Supported by the Specialized Research Fund for the Doctoral Program of Higher Education of China under Grant No.20070422107 (高等学校博士学科点专项科研基金) the Key Science-Technology Project of Shandong Province of China under Grant No.2007GG10001002 (山东省科技攻关项目)

关键词 DEEP Web 隐式Web 数据库分类内容文本抽取语义分类 deep Web hidden Web database classification content text extraction semantic classification

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献18

1Brightpanet's investigation. 2001. http://www.brightplanet.com/news/prs/deep-Web-500-times-larger.html
2Chang KCC, He B, Zhang Z. Toward large-scale, integration: building a MetaQuerier over databases on the Web. In: Weikum G, ed. Proc. of the Conf. on Innovative Data Systems Research. Asilomar: IEEE Computer Society, 2005.44-55.
3He H, Meng W, Yu CT, Wu Z. Automatic integration of Web search interfaces with WISE-integrator. VLDB Journal, 2004,13(3):256-273.
4He H, Meng W, Yu C, Wu Z. Wise-Integrator: An automatic integrator of Web search interfaces for e-commerce. In: Lockemann P, ed. Proc. of the Int'l Conf. on very Large Data Bases. Berlin: IEEE Computer Society, 2003. 357-368.
5Gravano L, Garcia-Molina H, Tomasic A. Gloss: Textsource discovery over the Intemet. ACM Trans. on Database Systems, 1999, 24(2):229-246.
6Yi L, Liu B. Web page cleaning for Web mining through feature weighting. In: Cohn AG, ed. Proc. of the 18th Int'l Joint Conf. on Artificial Intelligence (IJCAI 2003). Acapulco: Kluwier Academic Publisher, 2003.64-75.
7Bergholz A, Chidlovskii B. Crawling for domain-specific hidden Web resources. In: Spaccapietra S, ed. Proc. of the 4th Int'l Conf. on Web Information Systems Engineering. Rome: IEEE Computer Society, 2003. 125-133.
8Barbosa L, Freire J, Silva A. Organizing hidden-Web databases by clustering visible Web documents. In: Doqac A, ed. Proc. of IEEE the 23rd Int'l Conf. on Data Engineering. Istanbul: IEEE Computer Society, 2007. 326-335.
9Gravano L, Ipeirotis PG, Sahami M. QProber: A system for automatic classification of hidden-Web databases. ACM TOIS, 2003, 21(1):1-41.
10He B, Tao T, Chang KCC. Organizing structured Web sources by query schemas: A clustering approach. In: Oravano L, ed. Proc. of ACM the 13th Conf. on Information and Knowlege Management. Washington: ACM Press, 2004.22-31.

同被引文献235

1郑冬冬,赵朋朋,崔志明.Deep Web爬虫研究与设计[J].清华大学学报（自然科学版）,2005,45(S1):1896-1902. 被引量：28
2封化民,刘飚,刘艳敏,方勇,宋国森.含有位置坐标树的Web页面分析和内容提取框架[J].清华大学学报（自然科学版）,2005,45(S1):1767-1771. 被引量：8
3孙晨.利用机器学习技术获取WEB页面中的匹配数[J].中国科教创新导刊,2007(23):187-189. 被引量：1
4王辉,左万利,袁华.一种基于质心与本体的文本分类方法[J].计算机研究与发展,2007,44(z2):6-11. 被引量：3
5黄晓冬.Invisible Web研究综述[J].情报科学,2004,22(9):1144-1148. 被引量：19
6苏志华,杨冬青,唐世渭,王腾蛟.基于结构分析和实体识别的信息集成[J].计算机研究与发展,2004,41(10):1823-1828. 被引量：5
7唐焕玲,孙建涛,陆玉昌.文本分类中结合评估函数的TEF-WA权值调整技术[J].计算机研究与发展,2005,42(1):47-53. 被引量：26
8李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：95
9胡佳妮,徐蔚然,郭军,邓伟洪.中文文本分类中的特征选择算法研究[J].光通信研究,2005(3):44-46. 被引量：47
10陈瑞芬.一种结合反馈方法的中文文本分类算法[J].计算机应用,2005,25(12):2862-2864. 被引量：9

引证文献31

1周爱武,李玉梅,周闪闪,王宝铜.基于返回结果的Deep Web查询接口识别[J].计算机技术与发展,2009,19(7):117-119. 被引量：1
2刘芳.查询自动生成器在Web数据库发现中的应用[J].信息技术,2009,33(6):85-87. 被引量：2
3崔晓军,彭智勇,杨先娣,张莹.Deep Web信息按需集成研究综述[J].武汉大学学报（理学版）,2009,55(4):465-472. 被引量：2
4鲜学丰,赵朋朋,辛洁,方巍,崔志明.基于领域样本查询的Deep Web数据库分类[J].微电子学与计算机,2010,27(3):20-23. 被引量：1
5陆余良,房珊瑶,刘金红,施凡.Deep Web站点分类研究进展[J].安徽大学学报（自然科学版）,2010,34(1):103-108. 被引量：1
6沈炜,蒙祖强.基于Web日志粒度化的深网数据库分类[J].微计算机信息,2010,26(15):161-162.
7华慧,伏玉琛,周小科.基于查询接口文本的Deep Web数据源分类[J].计算机工程,2010,36(12):66-68. 被引量：1
8李秀娟,田川,冯欣.数据挖掘分类技术研究与分析[J].现代电子技术,2010,33(20):86-88. 被引量：11
9陈文,晏立,周亮.一种具有增量学习能力的PU主动学习算法[J].计算机工程,2011,37(4):214-215. 被引量：1
10张亮,陆余良,房珊瑶.基于量子自组织神经网络的Deep Web分类方法研究[J].计算机科学,2011,38(6):205-210. 被引量：3

二级引证文献74

1王鸿,余建桥.基于N-Gram的Deep Web接口属性抽取[J].计算机与现代化,2010(12):135-138. 被引量：1
2王海涛,陈树宁.常用数据挖掘算法研究[J].电子设计工程,2011,19(11):90-92. 被引量：7
3惠燕,潘煜.骑士游历问题算法的研究[J].电子设计工程,2011,19(11):112-114. 被引量：4
4李炳芳,冒晓东.基于表单的网络印刷客户端色彩再现方法的研究[J].包装工程,2012,33(3):113-116.
5崔园.数据挖掘技术在机考系统中的应用[J].电子设计工程,2012,20(1):1-3. 被引量：1
6崔晓军,肖红宇,丁立新.基于距离的自适应Web数据库记录匹配方法[J].武汉大学学报（理学版）,2012,58(1):89-94. 被引量：5
7刘晖.面向Web体系结构系统安全管理方法分析[J].计算机光盘软件与应用,2012,15(6):79-80.
8李春林.Web数据库集成技术及其发展趋势[J].硅谷,2012,5(9):1-2. 被引量：2
9唐彰国,李焕洲,钟明全,张健.基于量子神经网络的启发式网络隐蔽信道检测模型[J].计算机应用研究,2012,29(8):3033-3035. 被引量：6
10罗国涛,马在强.基于文本特征的Deep Web分类研究[J].计算机与现代化,2012(10):58-61.

1黄明辉.SQL Server数据库分类及迁移的方法[J].电脑知识与技术,2007(3):1199-1200. 被引量：1
2马旭辉,张阿红.基于Rough集的朴素贝叶斯分类算法研究[J].科技信息,2010(09X):63-64.
3杨帆,张彩丽.基于粗集的朴素贝叶斯分类算法及其应用[J].计算机工程与应用,2007,43(29):189-191. 被引量：7
4郭东伟,李三义,张仲明,刘淼.基于模型匹配的Deep Web数据库分类[J].吉林大学学报（理学版）,2011,49(3):487-492. 被引量：1
5曹慧.一种基于聚类的多数据库分类方法设计[J].网络安全技术与应用,2010(6):79-81. 被引量：1
6沈炜,蒙祖强.基于Web日志粒度化的深网数据库分类[J].微计算机信息,2010,26(15):161-162.
7罗国涛,马在强.基于文本特征的Deep Web分类研究[J].计算机与现代化,2012(10):58-61.
8陈治平,王雷.基于自学习K近邻的垃圾邮件过滤算法[J].计算机应用,2005,25(B12):7-8. 被引量：15
9陈钰芳,王晓峰.基于应用的分布式数据库挖掘算法研究[J].计算机工程与科学,2009,31(6):119-120. 被引量：2
10胡凤兰.管理信息系统的数据库建设[J].江苏通信,1997,0(4):32-36.

软件学报

2008年第2期

浏览历史

内容加载中请稍等...

基于网页上下文的Deep Web数据库分类被引量：31

参考文献18

同被引文献235

引证文献31

二级引证文献74

相关作者

相关机构

相关主题

浏览历史

基于网页上下文的Deep Web数据库分类 被引量：31

参考文献18

同被引文献235

引证文献31

二级引证文献74

相关作者

相关机构

相关主题

浏览历史

基于网页上下文的Deep Web数据库分类被引量：31