期刊文献+

一种高校网站群近似镜像网页检测系统的设计

下载PDF
导出
摘要 高校网站群使用部门众多,热点网页容易重复,这对于信息抽取来说,容易造成重复提取。本文对高校网站群近似镜像网页的检测进行了分析,比较了常用的几种检测算法,根据高校网站群的特点,选择了合适的算法。本系统可以运行在校园网站群之上,自动对各种近似镜像网页进行检测与去重。测试证明,这种方法完全满足高校网站群的需求。
作者 楼俊君
机构地区 上海电力学院
出处 《黑龙江科技信息》 2013年第22期146-146,共1页 Heilongjiang Science and Technology Information
  • 相关文献

参考文献2

二级参考文献11

  • 1高大力.关于高校二级网站建设、管理的探索与实践[J].西北工业大学学报(社会科学版),2004,24(2):82-84. 被引量:22
  • 2SALTON G,MCGILL MJ.Introduction to Modern Information Retrieval[M].McGraw-Hill,Inc.,1983.
  • 3SALTON G.Automatic Text Processin-the Transformation,Analysis and Retrieval of Information by Computer[M].Addison-Wesley Publishing Co.,Reading,MA,1989.
  • 4SHIAN-HUA LIN,JAN-MING HO.Discovering informative content blocks from Web documents[A].Proceedings of the SIGKDD Conference[C].2002.588 -593.
  • 5YANG YM.Noise reduction in a statistical approach to text categorization[A].Proceedings of SIGIR295,18th ACM International Conference on Research and Development in Information Retrieval[C].1995.
  • 6HAN JW,KAMBER M.Data Mining:Concepts and Techniques[M].Morgan Kaufmann Publishers,Inc.,1998.
  • 7ETZWEILER L,MARTIN C.Binary cluster division and its application to a modified single pass clustering algorithm[R].In Report No.ISR-21 to the National Library of Medicine,1972.
  • 8JOON HO LEE.Combining Multiple Evidence from Different Properties of Weighting Schemes[A].Proceeding of the 18th annual international ACM SIGIR conference on Research and development in information retrieval[C].1995.
  • 9BRIN S,PAGE L.The Anatomy of a Large-Scale Hypertextual Web Search Engine[A].Proceedings of the 7th International World Wide Web Conference[C].1998.
  • 10沈培华,王映雪,蒋东兴,陈怀楚,常晓磊,刘启新.清华大学数字校园建设与思考[J].管理信息系统,2002(2):18-19. 被引量:110

共引文献20

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部