普通文件和HTML文件及XML文件信息检索过程探析

Research on the Information Retrieval Process of Plain Text, HTML and XML

下载PDF

导出

摘要通过对普通文件(Plain Text)、HTML文件和XML文件结构的分析,以经典的VSM为例,探讨了3种文件在信息检索过程中所采用的不同处理技术。同时针对传统VSM的不足以及HTML文件和XML文件的结构特点,讨论了N-Level VSM对经典VSM的改进。 Through analyzing the file structure of plain text, HTML and XML, this paper probes into the different technologies of the three kinds of files used in the information retrieval process taking the classical VSM, and discusses the improvement of N-Level VSM to the classical VSM based on the shortages of traditional VSM and the structural features of HTML and XML.

作者陈桂鸿

机构地区中山大学资讯管理系

出处《科技情报开发与经济》 2009年第11期90-92,共3页 Sci-Tech Information Development & Economy

关键词普通文件 XML文件 HTML文件 VSM 信息检索 N—Level VSM plain text XML file HTML file VSM information retrieval N-Level VSM

分类号 G354 [文化科学—情报学]

引文网络
相关文献

参考文献7

1胡健,陆一鸣,马范援.基于HTML文档结构的向量空间模型的改进[J].情报学报,2005,24(4):433-437. 被引量：10
2张咏.XML及其在图书馆和情报检索中的应用[J].现代图书情报技术,2001(2):30-34. 被引量：47
3何东彬,王俊义.XML文档检索技术研究[J].内蒙古大学学报（自然科学版）,2006,37(5):574-579. 被引量：3
4邢玲,史杏荣.基于UCL的网页自动标引技术[J].计算机工程与应用,2004,40(17):148-151. 被引量：6
5付克志,林鸿飞.基于N-Level VSM在Web信息检索中的研究[J].计算机工程与应用,2006,42(19):158-160. 被引量：3
6张冉,卡米力.毛依丁.基于XML和N层VSM的Web信息检索[J].计算机技术与发展,2006,16(5):56-58. 被引量：4
7陈景霞,张鹏伟.基于XML的Web数据挖掘模型的研究[J].情报杂志,2006,25(11):100-102. 被引量：4

二级参考文献46

1王晓燕,王海洋,洪晓光.自行调整粒度的XML向量空间检索[J].武汉大学学报（理学版）,2004,50(5):609-613. 被引量：3
2何月顺,刘光萍,丁秋林.XML与面向Web的数据挖掘技术的应用研究[J].江西农业大学学报,2004,26(6):968-971. 被引量：6
3宋玲丽,成颖,单启成.信息检索系统中的相关反馈技术[J].情报学报,2005,24(1):34-41. 被引量：7
4李凡,林爱武,陈国社.一种基于VSM文本分类系统的设计与实现[J].华中科技大学学报（自然科学版）,2005,33(3):53-55. 被引量：19
5Gokcay D,Gokcay E.Generating titles for paragraphs using statistically extracted keywords and phrases[c].In:Intelligent Systems for the 21st Century, 1995: 3174～3179
6Szymanski B K,Ming-Shu Chung. A method for indexing Web pages using Web bots[C].In:Proceedings on Info-tech and Info-net,Beijing,2001:1～6
7徐晓梅龚志祥译.XML技术内幕[M].北京:机械工业出版社,2002..
8Nick Craswell and David Hawking.Overview of the TREC-2002 Web Track.The 10th Text Retrieval Conference,Gaithersburg,2002
9Nick Craswell and David Hawking.Overview of the TREC-2003 Web Track.The 10th Text Retrieval Conference,Gaithersburg,2003
10Min Zhang,etc.THU TREC 2002: Web track experiments.In: Proceedings of Text Retrieval Conference,2002.586

共引文献69

1张培颖.基于模糊隶属度的个性化网页推荐系统[J].计算机系统应用,2008,17(11):11-13.
2刘海峰,姚泽清,汪泽焱,张学仁.基于位置的文本特征加权方法研究[J].微电子学与计算机,2009,26(2):188-192. 被引量：9
3王知津,赵洪.基于改进遗传算法的XML信息检索研究[J].图书馆杂志,2007,26(11):20-26. 被引量：2
4郭磊.XML—未来数字图书馆的通用媒介[J].现代图书情报技术,2003(S1):8-10.
5李富成.基于有序对含父子边小枝在图书馆中的应用[J].图书馆学研究（应用版）,2010(11):33-35.
6陈湘宁,唐建玲.XML在数字图书馆中的应用及前景[J].医学情报工作,2004,25(4):297-298. 被引量：1
7李琨.我国图书情报档案界XML研究现状综述[J].图书与情报,2004(5):19-21.
8马小燕,严武军.XML技术在数字图书馆的应用研究[J].太原师范学院学报（自然科学版）,2003,2(4):20-22. 被引量：4
9李传益.高校图书馆网络信息资源建设[J].咸宁学院学报,2002,22(4):124-126.
10曹锦丹,符太东,白淑春,刘鑫,刘莉,李欣欣,王伟.基于用户问题域的文献知识表述及检索系统的建立与实现[J].情报学报,2005,24(5):529-534.

1罗为群,高友爱.谈电子文件管理的发展趋势[J].兰台世界（上旬）,2006(02S):42-44. 被引量：10
2陆芳.对电子文件实行档案化管理的思考[J].现代企业教育,2008(2):54-55. 被引量：1
3刘淑萍.美国国立医学图书馆标准出版数据XML文件的制作[J].编辑学报,2006,18(S1):156-159. 被引量：1
4王选.出版系统近年来的发展回顾和展望[J].中国传媒科技,1997,0(2):23-25.
5庞连福,杨玲.浅析电子文件档案化管理[J].黑龙江档案,2009(2):65-65.
6江丽.电子文件档案化管理的研究[J].黑龙江国土资源,2005(7):46-46.
7陈克云.卷内单份文件应注意“四防”[J].档案时空,1989(4):17-17.
8郑经莉,马丽.传统档案与电子档案管理之我见[J].黑龙江史志,2008(7):33-33. 被引量：4
9李睿.用VSM设计合理的信息管理过程[J].情报学报,1999,18(S1):59-60. 被引量：1
10王飞,朱友芹,林西武.报纸电子版的实现过程[J].中国传媒科技,1999,0(9):15-17.

科技情报开发与经济

2009年第11期

浏览历史

内容加载中请稍等...

普通文件和HTML文件及XML文件信息检索过程探析

参考文献7

二级参考文献46

共引文献69

相关作者

相关机构

相关主题

浏览历史