期刊文献+

基于BP神经网络的文档聚类研究 被引量:7

Research on Document Clustering Based on BP Neural Net
下载PDF
导出
摘要 1,引言 近年来,随着互联网的迅速发展,基于Web的数据挖掘技术受到越来越多的关注,经常用在文本挖掘和信息检索等多个领域的聚类(Clustering)技术也成为人们研究的热点.对一组实际或抽象的元素进行处理,把相似的元素归为同类的过程称之为聚类[1].对文本信息,如科技文献、Web文档等的聚类,称之为文档聚类(Document Clustering).最初,文档聚类常用于提高信息检索系统的查准率和查全率(recall),或用来寻找与一篇文档最为相似的文档[2].现在,人们利用文档聚类来获得一组满足用户要求的文档集合并按用户需求对其进行排序.另外在Internet上,文本聚类也可用来自动产生文档的层次聚类,从而实现对Web文档的分类. Document clustering has been used in a number of different areas of text mining and information retrieval. This paper first introduces the presentation of document clustering and it's ground, VSM(Vector Space Mode). On the other hand,comparing with the VSM.we present a new model to calculate the word weight in a document based on BP neural net. On the ground of it,two document clustering algorithms are described aiming at scientific literature on the Web. One is to get document sets relevant to user's query,and the other is to extract more personalized interesting items.
出处 《计算机科学》 CSCD 北大核心 2002年第8期93-95,共3页 Computer Science
关键词 Internet BP神经网络 文档聚类 数据挖掘 信息检索系统 查准率 查全率 Document clustering,Vector Space Model,BP neural net,Word weight,Scientific literature
  • 引文网络
  • 相关文献

参考文献8

  • 1(美)韩(Han.J.).数据挖掘:概念和技术.北京:高等教育出版社,2001
  • 2Steinbach M,Karypis G,Kumar V. A Comparison of Document Clustering Techniques. www.acm. org
  • 3Huang L. A survey On Web Information Retrieval Technologies. www. acm. org
  • 4Bollacker K D,lawrence S,lee Giles C. Discovering relevant scien tific literatureon the web. IEEE Intelligent systems ,2000,15(2): 42~47
  • 5Martin J D. Clustering Full Text Documents. www. acm. org
  • 6Information Retrieval Survey - 1997. www. acm. org
  • 7王实,高文.数据挖掘中的聚类方法[J].计算机科学,2000,27(4):42-45. 被引量:88
  • 8赵仲孟,张蓓,沈均毅.对搜索引擎未来发展的探讨[J].计算机科学,2001,28(3):60-61. 被引量:8

二级参考文献4

共引文献92

同被引文献51

引证文献7

二级引证文献46

;
使用帮助 返回顶部