基于决策树的查询接口识别技术

The Technology of Web Search Interface Discovery Based on Decision Tree

下载PDF

导出

摘要传统的搜索引擎可以很好地发现静态网页,但是不能获取隐藏在查询接口背后的大量数据。大量不断更新的数据只能通过填写HTML页面的查询接口对后台的数据进行查询得到。本文介绍了一种发现查询接口的有效方法。通过用更具代表性的属性描述查询接口,并利用决策树技术对查询接口进行分类,从而达到比较高的识别准确率。 Traditional Web search engines work well for finding static Web pages, but not for finding datasets hidden behind Web search forms. A significant and ever-increasing amount of data is accessible only by filling out HTML forms to query an underlying Web data source. We describe a novel technique for detecting search forms, which uses representative features to describe candidate forms and a useful general purpose decision tree that is effective on accuracy to classify them.

作者马也张峥张辉

机构地区北京航空航天大学

出处《微计算机信息》北大核心 2008年第33期204-205,208,共3页 Control & Automation

基金国家科技基础条件平台门户应用系统颁布部门:国家科学技术部(2005DKA63901)

关键词 DEEP WEB 信息提取决策树 Deep Web information extraction decision tree

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献5

1M. K. Bergman. The Deep Web: Surfacing Hidden Value (white paper). Journal of Electronic Publishing, 7(1), August 2001
2杨占华,杨燕.数据挖掘在智能搜索引擎中的应用[J].微计算机信息,2006,22(04X):244-246. 被引量：22
3[美]Tom M.Mitchell.机器学习.北京:机械工业出版社,2003
4J. Cope, N. Craswell, and D. Hawking. Automated Discovery of Search Interfaces on the Web. In Proc. of ADC, pages 181-189, 2003
5Weka 3: Data Mining Software in Java http://www.cs.waikato.ac. nz/ml/weka

二级参考文献4

1杨思洛.搜索引擎的排序技术研究[J].现代图书情报技术,2005(1):43-47. 被引量：23
2陈旭春,赵明生.分布式多搜索引擎系统的研究与实现[J].微计算机信息,2005,21(10X):37-38. 被引量：9
3韩家炜 Michelin K.数据挖掘:概念与技术[M].北京:机械工业出版社,2001..
4Jon M Kleinberg.Authoritative Sources in a Hyperlinked Environment[Z] the Proceedings of the ACM-SIAM Symposiumon Discrete Algorithms.1999.

共引文献21

1吕志花.网络信息挖掘及其在搜索引擎方面的应用[J].微计算机信息,2008,24(6):173-174. 被引量：6
2钟更进.基于BP神经网络的信息融合发动机故障诊断的研究[J].微计算机信息,2007,23(05S):229-230. 被引量：2
3钱冬云.基于用户兴趣导向的关联规则数据挖掘[J].微计算机信息,2007,23(21):207-208. 被引量：2
4谭思亮.一种新的主题爬行算法[J].微计算机信息,2007,23(02X):193-195. 被引量：2
5吴远红,徐妙君,范银琛.元搜索引擎中基于OWA算子的查询结果合成研究[J].微电子学与计算机,2007,24(9):22-24. 被引量：2
6姜银聚.一种改进的强相关的数据挖掘算法研究[J].微计算机信息,2007(30):184-186. 被引量：1
7肖剑,姜良华,章彪.Web浏览行为的客户端追踪的研究[J].微计算机信息,2007,23(33):270-272. 被引量：3
8钟更进.水上勘查导航定位系统的设计[J].广东交通职业技术学院学报,2008,7(2):51-53.
9邢伟,周秉时,刘艳春.贝叶斯准则下的BP神经网络故障诊断的研究[J].河南农业大学学报,2008,42(3):319-322.
10齐志宏,熊桂喜.关联规则发现在ITS中的分析与实现[J].微计算机信息,2008,24(27):152-154.

1王彩霞,高明.Deep Web查询接口及其识别算法[J].电脑知识与技术,2011,7(8):5422-5424.
2刘超,刘妍.基于Deep Web数据查询接口的抽取与集成[J].硅谷,2008,1(23):40-40.
3苏晓珂,赵磊,黄青松.Deep Web中基于迭代的查询方式[J].云南民族大学学报（自然科学版）,2007,16(1):66-68. 被引量：1
4季一木,匡子卓,康家邦,孙延鹏,潘俏羽.云环境下用户隐私属性及其分类研究[J].计算机应用研究,2014,31(5):1495-1498. 被引量：3
5方丽,李锡辉.基于Deep Web挖掘的搜索策略[J].福建电脑,2008,24(3):45-46. 被引量：1
6刘伟,孟小峰,孟卫一.Deep Web数据集成研究综述[J].计算机学报,2007,30(9):1475-1489. 被引量：136
7董欢.数据挖掘技术概述[J].黑龙江科技信息,2012(1):100-100. 被引量：2
8汪小燕.粗集结合决策树在高校图书馆中的应用[J].电脑学习,2008(5):40-41.
9飘零雪.如何提高IIS的执行速度？[J].电击高手,2004(3):65-65.
10石国河.网页设计中JSP和ASP技术的应用[J].通信技术,2010,43(2):98-100. 被引量：6

微计算机信息

2008年第33期

浏览历史

内容加载中请稍等...

基于决策树的查询接口识别技术

参考文献5

二级参考文献4

共引文献21

相关作者

相关机构

相关主题

浏览历史