期刊文献+

基于摘要的web内容挖掘研究 被引量:1

Using Summarization Techniques For Web Content Mining
下载PDF
导出
摘要 Internet是一个巨大的,分步广泛的,动态性强的全球信息服务中心,人们想在它上面找到想要的相关信息是很困难的,一般用户通过给搜索引擎提供简短的关键词来检索信息,但是通过搜索引擎返回的相关结果太多,这使得处理相关结果太耗时,本文提出了一种语义虚拟文档(SVD)来表示web文档,在此基础上实现了凝聚层次聚类算法,以自动聚类内容相似的web文档。结果:一方面使网络用户增强了相关结果的判断处理,同时使用户快速、高效的从Internet上发现想要的信息,另一方面返回的结果在知识表示上增强了web内容挖掘。 Internet is a global service center, which is very large, widespread, dynamic. It is very difficult for people to find relevant information on the Internet. Most users typically search their information by short keywords to search engines, but search engines usually return too many relevant results, which make the process of relevant results time-consuming. In this paper, we put forward a Semantic Virtual Document to represent web document. Based on this, we realize Hierarchical Agglomerative Clustering and achieve automatic content-based categorization of similar web document. As a result, on the one hand, document browsing enhance relevant judgement process for Internet users and find information-wanted swiftly and efficiently. On the other hand, returned results enhance web content mining on knowledge representation.
作者 常浩 陈莉
出处 《微计算机信息》 北大核心 2006年第08X期302-304,共3页 Control & Automation
基金 陕西省自然科学基金(98X11) 陕西省教育厅重点科研计划项目(00JK015)
关键词 语义虚拟文档 锚文本 摘要 文本聚类 单链接凝聚层次聚类算法 SVD, Anchortext, Summarization, Document clustering, HAC Single-Linkage
  • 相关文献

参考文献7

二级参考文献11

  • 1Han J,Data Mining:Concepts and Techniques,2000年
  • 2Wang K,Proc of VLDB'97,1999年,363页
  • 3Zaiane O R,Proc Int Workshop Web Information and Data Management(WIDM'98),1998年,9页
  • 4Mobasher B,Tech Rep:TR96 0 5 0,1996年
  • 5Zaiane O R,Proc KDD'95,1995年,331页
  • 6范明,孟小蜂译.数据挖掘:概念与技术--聚类分析[M].北京:机械工业出版社,2001.223-258.
  • 7Salton, G. Automatic Text Processing. Addison-Wesley Publishing Company, 1988.
  • 8Hartigan, J.A. Clustering Algorithms, Yale University, John Wiley&Sons, New York, London, 1975.
  • 9Kleinberg, J. Authoritative sources in a hyperlinked environment, In: Proceedings of the ACM-SIAM Symposium on Discrete Algorithms. 1998. http://www.cs.cornell.edu/home/kleinber/.
  • 10Dumais, S.T. LSI meets TREC: a status report. In: Harman, D., ed. Proceedings of the 1st Text Retrieval Conference (TREC1). National Institute of Standards and Technology, 1993. 137~152.

共引文献474

同被引文献14

引证文献1

二级引证文献2

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部