摘要
WWW上的资源大多以 HTML 格式的文档存储 ,同普通文档不同 ,HTML 文档的标签特性使得它具有一定的结构 .我们采取了一种检索方法 ,它扩展了传统的信息检索 ,利用 HTML文档结构提高了在 WWW环境下的检索效率 .本文介绍了 HTML的结构以及传统的向量空间信息检索 ;提出运用聚簇方法为标签分组 ;最后详细讨论了如何利用文档结构扩展加权框架 ,使得检索词能更贴切地描述文档 ,以提高检索的准确性 .
The information resources in WWW are mostly stored as HTML. Unlike norm al documents, the HTML documents is structured. In this paper, we propose a meth od for making use of the structure to effectively retrieve HTML documents. This method derived from the traditional information retrieval. First, we describe th e structure of HTML and the traditional IR based on the vector space model. Then we propose our extending weighting schema and tags classes. Finally we provide the conclusion and future work.
出处
《小型微型计算机系统》
CSCD
北大核心
2000年第9期986-988,共3页
Journal of Chinese Computer Systems
基金
:国防预研基金赞助