期刊文献+

基于分解的向量空间模型的Web新闻信息检索 被引量:1

Web news retrieval based on splited vector space model
下载PDF
导出
摘要 在分析了传统向量空间检索模型的不足的基础上,给出了一种利用分解的向量空间模型进行Web新闻信息检索的方法.该方法没有使用传统向量空间模型中的单个向量,而是按照语义将特征词划分为4个组(人物,时间,地点,内容)并形成4个向量空间,每个空间进行独立的权重计算和相似度计算.而且将报道中的时间信息标准化,利用地理知识将报道中的地点特征词扩充,并利用这些信息进行检索.实验证明这些方法是有效的. Based on the analysis of the deficiency of the traditional vector space retrieval model, a Web News Retrieval approach is presented based on splited vector space model. Instead of using a single term vector as event representation, the terms into four semantic classes are split(names, temporal expressions, spatial terms and contents) according to the semantic diffirence of them. form four vector spaces, and process and weigh the classes separately. Temporal expressions and augment spatial terms with geography information are formalized and this data in the retrieval is used. The approach is motivated by experiment.
出处 《山东大学学报(理学版)》 CAS CSCD 北大核心 2006年第3期37-40,共4页 Journal of Shandong University(Natural Science)
关键词 信息检索 向量空间模型 时间 地点 人物 内容 information retrieval vector space model temporal expressions spatial terms names contents
  • 相关文献

参考文献6

  • 1Salton G, Wong A. On the specification of term value in automatic Indexing[J]. Journal of Documentation, 1973, 29(4) :351 - 372.
  • 2S K M Wong, Wojciech Ziarko, Patrick C N Wong. Generalized vector spaces model in information retrieval[A]. Proceeding the 8th Annual ACM SIGIR International Conference on Research and Development in Information Retrieval [C]. New York: ACM Press, 1985. 18 - 25.
  • 3战学刚,林鸿飞,姚天顺.Infolite中文检索系统[J].小型微型计算机系统,2000,21(9):989-992. 被引量:9
  • 4李晓明,阎宏飞,王继民.搜索引擎[M].北京:科学出版社,2005.
  • 5李凡,林爱武,陈国社.一种基于VSM文本分类系统的设计与实现[J].华中科技大学学报(自然科学版),2005,33(3):53-55. 被引量:19
  • 6陆玉昌,鲁明羽,李凡,周立柱.向量空间法中单词权重函数的分析和构造[J].计算机研究与发展,2002,39(10):1205-1210. 被引量:126

二级参考文献8

  • 1吴立德,大规模中文文本处理,1997年
  • 2姚天顺,自然语言理解,1995年
  • 3Salton G,Commun ACM,1975年,18卷,11期,613页
  • 4Salton G,J Documentation,1973年,29卷,4期,351页
  • 5Salton G, Yang C S.On the specification of term values in automatic indexing[J].Journal of Documentation, 1973, 29(4): 351-372.
  • 6Fabrizio Sebastiani.Machine learning in automated text categorization[J].ACM Computing Surveys, 2002, 34(1): 11-12,32-33.
  • 7朱华宇,孙正兴,张福炎.一个基于向量空间模型的中文文本自动分类系统[J].计算机工程,2001,27(2):15-17. 被引量:45
  • 8李凡,鲁明羽,陆玉昌.关于文本特征抽取新方法的研究[J].清华大学学报(自然科学版),2001,41(7):98-101. 被引量:78

共引文献151

同被引文献7

引证文献1

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部