期刊文献+

普通文件和HTML文件及XML文件信息检索过程探析

Research on the Information Retrieval Process of Plain Text, HTML and XML
下载PDF
导出
摘要 通过对普通文件(Plain Text)、HTML文件和XML文件结构的分析,以经典的VSM为例,探讨了3种文件在信息检索过程中所采用的不同处理技术。同时针对传统VSM的不足以及HTML文件和XML文件的结构特点,讨论了N-Level VSM对经典VSM的改进。 Through analyzing the file structure of plain text, HTML and XML, this paper probes into the different technologies of the three kinds of files used in the information retrieval process taking the classical VSM, and discusses the improvement of N-Level VSM to the classical VSM based on the shortages of traditional VSM and the structural features of HTML and XML.
作者 陈桂鸿
出处 《科技情报开发与经济》 2009年第11期90-92,共3页 Sci-Tech Information Development & Economy
关键词 普通文件 XML文件 HTML文件 VSM 信息检索 N—Level VSM plain text XML file HTML file VSM information retrieval N-Level VSM
  • 相关文献

参考文献7

二级参考文献46

  • 1王晓燕,王海洋,洪晓光.自行调整粒度的XML向量空间检索[J].武汉大学学报(理学版),2004,50(5):609-613. 被引量:3
  • 2何月顺,刘光萍,丁秋林.XML与面向Web的数据挖掘技术的应用研究[J].江西农业大学学报,2004,26(6):968-971. 被引量:6
  • 3宋玲丽,成颖,单启成.信息检索系统中的相关反馈技术[J].情报学报,2005,24(1):34-41. 被引量:7
  • 4李凡,林爱武,陈国社.一种基于VSM文本分类系统的设计与实现[J].华中科技大学学报(自然科学版),2005,33(3):53-55. 被引量:19
  • 5Gokcay D,Gokcay E.Generating titles for paragraphs using statistically extracted keywords and phrases[c].In:Intelligent Systems for the 21st Century, 1995: 3174~3179
  • 6Szymanski B K,Ming-Shu Chung. A method for indexing Web pages using Web bots[C].In:Proceedings on Info-tech and Info-net,Beijing,2001:1~6
  • 7徐晓梅 龚志祥 译.XML技术内幕[M].北京:机械工业出版社,2002..
  • 8Nick Craswell and David Hawking.Overview of the TREC-2002 Web Track.The 10th Text Retrieval Conference,Gaithersburg,2002
  • 9Nick Craswell and David Hawking.Overview of the TREC-2003 Web Track.The 10th Text Retrieval Conference,Gaithersburg,2003
  • 10Min Zhang,etc.THU TREC 2002: Web track experiments.In: Proceedings of Text Retrieval Conference,2002.586

共引文献69

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部