期刊文献+

后缀树聚类在专用搜索引擎中的应用研究与改进 被引量:2

The Research and Improvement of STC on Dedicated Search Engine
下载PDF
导出
摘要 为了提高专用搜索引擎的分类精确度和可控度,提出了一种新算法。根据现有的后缀树文本聚类,通过建立基本分类表,并结合专用搜索引擎的特点进行改进,将文本分类和文本聚类有机地结合起来,使改进后的算法能够通过人工的干预,不断修正自己的分类结果。实验表明,相比传统的文本分类算法,这种算法能通过自我修正能力不断提高分类准确度,并且计算开销和传统文本分类算法相当。因此,该算法通过结合文本分类和文本聚类算法,在专用搜索引擎结果处理上提出了新的思路。 In order to promote the precision and controllability of the categorization of dedicated search engine. This paper has raised a new algorithm, which improves STC, and combines text categorization and clustering organically by building a basic clustering table. According to experiment result, this improved algorithm can continuously fix the categorization result by the manual error fixing, and cost the nearly computing time of traditional text categorization. In summary, this algorithm has raised a new thought in the result analysis of dedicated search engine by combining the text categorization and clustering.
出处 《成都信息工程学院学报》 2010年第3期269-274,共6页 Journal of Chengdu University of Information Technology
基金 教育部科学技术研究重点项目资金资助项目(107094)
关键词 计算机应用 文本分类 文本聚类 搜索引擎 后缀树 词频 降维 召回率 computer application text categorization text clustering search engine STC term frequency dimensionality reduction recall rate
  • 相关文献

参考文献11

二级参考文献50

共引文献40

同被引文献19

  • 1彭静,翟英,冯爽.后缀树算法在舆情聚类中的应用[J].河北科技大学学报,2012,33(1):65-68. 被引量:1
  • 2中国互联网络信息中心.第33次中国互联网络发展状况统计报告.[EB/OL].(2014-01-16)/2014-02-10.http://www.cnnic.net.cn/hlwfzyj/hlwxzbg/hlwtjbg/20140l/t20140116_43820.htm.
  • 3Croft W B,Metzler D, StrohmanT.搜索引擎:信息检索实践[M].北京:机械工业出版社,2010.
  • 4GrossmanDA,FriederO.信息检索:算法与启发式方法[M].北京:人民邮电出版社,2010.
  • 5Zamir O, Etzioni O.Web document clustering: a feasibility demonstration[C]//Proceedings of the 19th International ACM SIGIR Conference on Research and Development of Information Retrieval( SIGIR' 98), 1998 : 46-54.
  • 6Osinski S, Stefanowski J, Weiss D.Lingo: search results clustering algorithm based on singular value decomposi- tion[C]//Proceedings of the International IIS: Intelligent Information Processing and Web Mining Conference, Advances in Soft Computing,2004: 359-368.
  • 7Wang Xuanhui, Zhai Chengxiang.Learn from Web search logs to organize search results[C]//SIGIR 2007 Proceedings, Amsterdam, The Netherlands, 2007.
  • 8Zeng H, He Q, Chen Z, et al.Learning to cluster web search results[C]//SIGIR, 2004 : 210-217.
  • 9Ukkonen E. On-line construction of suffix tree [ J ]. Algorithmica, 1995,14 ( 3 ) : 249-260.
  • 10骆雄武,万小军,杨建武,吴於茜.基于后缀树的Web检索结果聚类标签生成方法[J].中文信息学报,2009,23(2):83-88. 被引量:9

引证文献2

二级引证文献1

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部