有效地检索HTML文档被引量：23

EFFECTIVELY RETRIEVE HTML DOCUMENTS

下载PDF

导出

摘要 WWW上的资源大多以 HTML 格式的文档存储 ,同普通文档不同 ,HTML 文档的标签特性使得它具有一定的结构 .我们采取了一种检索方法 ,它扩展了传统的信息检索 ,利用 HTML文档结构提高了在 WWW环境下的检索效率 .本文介绍了 HTML的结构以及传统的向量空间信息检索 ;提出运用聚簇方法为标签分组 ;最后详细讨论了如何利用文档结构扩展加权框架 ,使得检索词能更贴切地描述文档 ,以提高检索的准确性 . The information resources in WWW are mostly stored as HTML. Unlike norm al documents, the HTML documents is structured. In this paper, we propose a meth od for making use of the structure to effectively retrieve HTML documents. This method derived from the traditional information retrieval. First, we describe th e structure of HTML and the traditional IR based on the vector space model. Then we propose our extending weighting schema and tags classes. Finally we provide the conclusion and future work.

作者刘芳卢正鼎

机构地区华中理工大学计算机学院应用系

出处《小型微型计算机系统》 CSCD 北大核心 2000年第9期986-988,共3页 Journal of Chinese Computer Systems

基金 :国防预研基金赞助

关键词信息检索向量空间模型聚簇 HTML文档 WWW WWW HTML Information retrieval Vector space model Clustering

分类号 G354.4 [文化科学—情报学]

引文网络
相关文献

参考文献1

1上海交大远程教育中心，HTML 语言参考 .WWW书籍，1998年

同被引文献102

1王正群,陈世福,陈兆乾.并行学习神经网络集成方法[J].计算机学报,2005,28(3):402-408. 被引量：36
2张敏,马少平,宋睿华.DF还是IDF?主特征模型在Web信息检索中的使用[J].软件学报,2005,16(5):1012-1020. 被引量：13
3李俊杰.非受限域中文自动文摘系统研究与实现[M].哈尔滨:哈尔滨工业大学,1995..
4[2]Salton G, Wong A and Yang C S. On the specification of term values in automatic indexing[J]. Journalof Documentation.1973,29(4):351-372.
5[3]Michal Cutler,Shi Yun-ming, Meng Wei-yi. Using the structure of HTML documents to improve retrieval[C]. USENIX Symposium on Internet Technologies and Systems (NSITS97).241-251,Monterey,California,December 1997
6[5]Filippo Menczer, Gautam Pant, Padmini Srinivasan. Evaluating topic driven web crawlers[C]. Proc. of 24th international ACM SIGIR conference on Research and Development in Information retrieval, 2001,241-249.
7[6]Kleinberg J. Authoritative sources in a hyperlinked enviroment[J]. Journal of ACM (JASM),1999,46(5):604-632.
8[7]Krishna Bharat, Monika R. Henzinger improved algorithms for topic distillation in a hyperlinked environment[C]. In: 21st International ACM SIGIR Conference on Research and Development in Informa-tion Retrieval,1998,8, 104-111.
9[8]Soumen Chakrabarti, Mukul Josln,Vivek Tawde. Enhanced topic distillation using text,markuptags,and hyperlinks[C]. In: Proc.of 24th ACM-SIGIR conference on Research and Development in Infor-mation Retrieval,2001,9, 208-216.
10[10]Chakrabarti S, Dom B, Gibson D, etc. Automatic resource compilation by analyzing hyperlink structure and associated text[C]. Proc.of 7th World Wide Web Conference,1998,65-74.

引证文献23

1钟敏娟,林亚平,陈治平.基于超链接和标记文本的信息检索算法[J].小型微型计算机系统,2004,25(7):1344-1347. 被引量：7
2刘志为,何丕廉,孙越恒,郑小慎.N层向量空间模型在Web信息检索中的应用[J].微型机与应用,2004,23(12):60-62. 被引量：5
3胡健,陆一鸣,马范援.基于HTML文档结构的向量空间模型的改进[J].情报学报,2005,24(4):433-437. 被引量：10
4胡敏,杨红,戴玉刚.基于XML的向量空间模型在数字图书馆检索中的应用研究[J].福建电脑,2005,21(11):1-1.
5刘斌,陈桦.向量空间模型信息检索技术讨论[J].情报杂志,2006,25(7):92-93. 被引量：20
6钟敏娟,凌传繁,白耀辉,郭攀.CDSE:一个面向领域的智能搜索引擎[J].计算机工程,2006,32(24):206-208.
7赵正文,康耀红.Web信息检索结构化排序函数与标引词加权技术[J].计算机工程与应用,2007,43(11):181-184. 被引量：1
8刘斌,徐谦,陈桦.一种关系型数据库并行概念学习系统的探讨[J].微型电脑应用,2007,23(3):53-54.
9周竹荣,黄果,周亭.一种混合的文本信息检索模型研究[J].计算机工程与设计,2007,28(11):2671-2673. 被引量：2
10黄宏涛,徐谦,刘斌.一种关系型数据库并行概念学习系统的探讨[J].陕西科技大学学报（自然科学版）,2007,25(4):135-137.

二级引证文献128

1赵燕平,朱东华.科技信息的网络动态监测和信息自动获取技术研究[J].科学学研究,2003,21(z1):230-237. 被引量：6
2曲维光.汉语自动分词的方法选择[J].计算机科学,2002,29(z1):54-56. 被引量：2
3张培颖.基于模糊隶属度的个性化网页推荐系统[J].计算机系统应用,2008,17(11):11-13.
4刘海峰,姚泽清,汪泽焱,张学仁.基于位置的文本特征加权方法研究[J].微电子学与计算机,2009,26(2):188-192. 被引量：9
5文丽,马建国,姚远程.基于播存网格的智能Agent研究与设计[J].计算机工程与应用,2004,40(25):124-125. 被引量：3
6王一蕾,林世平.基于Web页面链接结构的挖掘算法[J].福州大学学报（自然科学版）,2004,32(4):476-478.
7钟敏娟,林亚平,陈治平.基于超链接和标记文本的信息检索算法[J].小型微型计算机系统,2004,25(7):1344-1347. 被引量：7
8杨创新,彭宏,莫卓斌.基于N层向量空间模型的Web主题检索算法[J].广东自动化与信息工程,2004,25(3):7-9.
9甘平.关于图书馆网络信息过滤问题的思考[J].图书馆界,2004(4):29-31.
10潘静,饶若楠.基于Web数据挖掘的信息获取系统的研究及设计[J].计算机工程,2004,30(B12):136-138. 被引量：3

1郝玉玲.建立高校学位论文网上检索系统的关键技术研究[J].图书馆学刊,2001,23(2):27-29. 被引量：7
2景勇,郭雨梅,丁岚.科技期刊微信公众平台功能拓展[J].编辑学报,2016,28(4):384-387. 被引量：18
3王兆元.论出版社的网络宣传[J].现代出版,1998(1):21-22.
4周必水,郦泓.用Java实现基于向量空间的搜索引擎优化[J].计算机应用研究,2003,20(2):150-153.
5洪拓夷.基于传统检索的智能检索[J].图书馆建设,1998(3):26-27. 被引量：4
6杨俊.敦煌西晋骨尺[J].陇右文博,2009(1):46-47.
7石燕.浅议电子文件的管理归档工作[J].黔南民族师范学院学报,2006,26(3):87-90.
8白莉.WWW环境下信息第一检索策略的实验调查研究[J].情报科学,2005,23(11):1704-1707. 被引量：4
9丁永生,周斌,杨文春.HTML文档的模糊检索模型[J].计算机工程与应用,2001,37(3):12-15. 被引量：1
10刘彬,陈柳.基于WOS和Citespace的华中农业大学基础研究状况分析[J].中国科学基金,2015,29(1):42-47. 被引量：11

小型微型计算机系统

2000年第9期

浏览历史

内容加载中请稍等...

有效地检索HTML文档被引量：23

参考文献1

同被引文献102

引证文献23

二级引证文献128

相关作者

相关机构

相关主题

浏览历史

有效地检索HTML文档 被引量：23

参考文献1

同被引文献102

引证文献23

二级引证文献128

相关作者

相关机构

相关主题

浏览历史

有效地检索HTML文档被引量：23