期刊文献+

基于决策树的查询接口识别技术

The Technology of Web Search Interface Discovery Based on Decision Tree
下载PDF
导出
摘要 传统的搜索引擎可以很好地发现静态网页,但是不能获取隐藏在查询接口背后的大量数据。大量不断更新的数据只能通过填写HTML页面的查询接口对后台的数据进行查询得到。本文介绍了一种发现查询接口的有效方法。通过用更具代表性的属性描述查询接口,并利用决策树技术对查询接口进行分类,从而达到比较高的识别准确率。 Traditional Web search engines work well for finding static Web pages, but not for finding datasets hidden behind Web search forms. A significant and ever-increasing amount of data is accessible only by filling out HTML forms to query an underlying Web data source. We describe a novel technique for detecting search forms, which uses representative features to describe candidate forms and a useful general purpose decision tree that is effective on accuracy to classify them.
出处 《微计算机信息》 北大核心 2008年第33期204-205,208,共3页 Control & Automation
基金 国家科技基础条件平台门户应用系统颁布部门:国家科学技术部(2005DKA63901)
关键词 DEEP WEB 信息提取 决策树 Deep Web information extraction decision tree
  • 相关文献

参考文献5

  • 1M. K. Bergman. The Deep Web: Surfacing Hidden Value (white paper). Journal of Electronic Publishing, 7(1), August 2001
  • 2杨占华,杨燕.数据挖掘在智能搜索引擎中的应用[J].微计算机信息,2006,22(04X):244-246. 被引量:22
  • 3[美]Tom M.Mitchell.机器学习.北京:机械工业出版社,2003
  • 4J. Cope, N. Craswell, and D. Hawking. Automated Discovery of Search Interfaces on the Web. In Proc. of ADC, pages 181-189, 2003
  • 5Weka 3: Data Mining Software in Java http://www.cs.waikato.ac. nz/ml/weka

二级参考文献4

共引文献21

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部