期刊文献+

垂直搜索引擎系统的设计与实现 被引量:5

Design and Implement of Vertical Search Engine
原文传递
导出
摘要 面对日益专业和个性化的信息检索需求,通用搜索引擎存在的问题暴露无遗。垂直搜索技术作为搜索引擎发展的一个主要方向,正在受到越来越多的关注。在给出一个垂直搜索引擎总体结构的基础上,详细分析了所涉及的关键技术:网页抓取、中文分词、文本分类等。并将分词和分类算法加入到Nutch中,实现了系统原型。实验证明,该系统主题相关度达到94%以上。 Faced with increasingly professional and personalized needs of information retrieval, the problem for general search engine is exposed. It is more and more attention for vertical search technology as a major direction of search engine development. To gives the general structure of a vertical search engine, based on it, the key technologies involved are analyzed in detail: Web crawling, Chinese word segmentation, text classification and so on. And segmentation and classification algorithms add to the Nutch, realizing a prototype system. Experiments show that the degree of the system subject is to 94%.
作者 张敏 杜华
出处 《情报科学》 CSSCI 北大核心 2011年第3期421-424,439,共5页 Information Science
基金 张家口市2009年科技攻关项目(0921047B)
关键词 垂直搜索引擎 中文分词 文本分类 主题相关度 NUTCH vertical search engine chinese word segmentation text classification degree of the system subject hutch
  • 相关文献

参考文献5

  • 1中国互联网络信息中心.第二十四次中国互联网发展状况统计报告[EB/OL].http://www.cnnic.net.cn,2009-07-21.
  • 2Heritrix Crawler vs.Nutch Crawler [EB/OL].http://www. dbanotes.net/web/heritrix_crawler_vs nutch_crawler.ht m 1,2006-09-24.
  • 3代六玲,黄河燕,陈肇雄.中文文本分类中特征抽取方法的比较研究[J].中文信息学报,2004,18(1):26-32. 被引量:228
  • 4G Salton, C S Yang. On the Specification of Term Values in Automatic Indexing [J].Journal of Documentation, 1973,29(4):351-372.
  • 5Y Yang, C G Chut. An Example-Based Mapping Method for Text Classification and Retrieval [J]. ACM Transactions on Information Systems,1994 ,23 (3):252- 277.

二级参考文献4

共引文献227

同被引文献36

引证文献5

二级引证文献11

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部