期刊文献+

有效地检索HTML文档 被引量:23

EFFECTIVELY RETRIEVE HTML DOCUMENTS
下载PDF
导出
摘要 WWW上的资源大多以 HTML 格式的文档存储 ,同普通文档不同 ,HTML 文档的标签特性使得它具有一定的结构 .我们采取了一种检索方法 ,它扩展了传统的信息检索 ,利用 HTML文档结构提高了在 WWW环境下的检索效率 .本文介绍了 HTML的结构以及传统的向量空间信息检索 ;提出运用聚簇方法为标签分组 ;最后详细讨论了如何利用文档结构扩展加权框架 ,使得检索词能更贴切地描述文档 ,以提高检索的准确性 . The information resources in WWW are mostly stored as HTML. Unlike norm al documents, the HTML documents is structured. In this paper, we propose a meth od for making use of the structure to effectively retrieve HTML documents. This method derived from the traditional information retrieval. First, we describe th e structure of HTML and the traditional IR based on the vector space model. Then we propose our extending weighting schema and tags classes. Finally we provide the conclusion and future work.
作者 刘芳 卢正鼎
出处 《小型微型计算机系统》 CSCD 北大核心 2000年第9期986-988,共3页 Journal of Chinese Computer Systems
基金 :国防预研基金赞助
关键词 信息检索 向量空间模型 聚簇 HTML文档 WWW WWW HTML Information retrieval Vector space model Clustering
  • 相关文献

参考文献1

  • 1上海交大远程教育中心,HTML 语言参考 .WWW书籍,1998年

同被引文献102

  • 1王正群,陈世福,陈兆乾.并行学习神经网络集成方法[J].计算机学报,2005,28(3):402-408. 被引量:36
  • 2张敏,马少平,宋睿华.DF还是IDF?主特征模型在Web信息检索中的使用[J].软件学报,2005,16(5):1012-1020. 被引量:13
  • 3李俊杰.非受限域中文自动文摘系统研究与实现[M].哈尔滨:哈尔滨工业大学,1995..
  • 4[2]Salton G, Wong A and Yang C S. On the specification of term values in automatic indexing[J]. Journalof Documentation.1973,29(4):351-372.
  • 5[3]Michal Cutler,Shi Yun-ming, Meng Wei-yi. Using the structure of HTML documents to improve retrieval[C]. USENIX Symposium on Internet Technologies and Systems (NSITS97).241-251,Monterey,California,December 1997
  • 6[5]Filippo Menczer, Gautam Pant, Padmini Srinivasan. Evaluating topic driven web crawlers[C]. Proc. of 24th international ACM SIGIR conference on Research and Development in Information retrieval, 2001,241-249.
  • 7[6]Kleinberg J. Authoritative sources in a hyperlinked enviroment[J]. Journal of ACM (JASM),1999,46(5):604-632.
  • 8[7]Krishna Bharat, Monika R. Henzinger improved algorithms for topic distillation in a hyperlinked environment[C]. In: 21st International ACM SIGIR Conference on Research and Development in Informa-tion Retrieval,1998,8, 104-111.
  • 9[8]Soumen Chakrabarti, Mukul Josln,Vivek Tawde. Enhanced topic distillation using text,markuptags,and hyperlinks[C]. In: Proc.of 24th ACM-SIGIR conference on Research and Development in Infor-mation Retrieval,2001,9, 208-216.
  • 10[10]Chakrabarti S, Dom B, Gibson D, etc. Automatic resource compilation by analyzing hyperlink structure and associated text[C]. Proc.of 7th World Wide Web Conference,1998,65-74.

引证文献23

二级引证文献128

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部