摘要
在分析了传统向量空间检索模型的不足的基础上,给出了一种利用分解的向量空间模型进行Web新闻信息检索的方法.该方法没有使用传统向量空间模型中的单个向量,而是按照语义将特征词划分为4个组(人物,时间,地点,内容)并形成4个向量空间,每个空间进行独立的权重计算和相似度计算.而且将报道中的时间信息标准化,利用地理知识将报道中的地点特征词扩充,并利用这些信息进行检索.实验证明这些方法是有效的.
Based on the analysis of the deficiency of the traditional vector space retrieval model, a Web News Retrieval approach is presented based on splited vector space model. Instead of using a single term vector as event representation, the terms into four semantic classes are split(names, temporal expressions, spatial terms and contents) according to the semantic diffirence of them. form four vector spaces, and process and weigh the classes separately. Temporal expressions and augment spatial terms with geography information are formalized and this data in the retrieval is used. The approach is motivated by experiment.
出处
《山东大学学报(理学版)》
CAS
CSCD
北大核心
2006年第3期37-40,共4页
Journal of Shandong University(Natural Science)
关键词
信息检索
向量空间模型
时间
地点
人物
内容
information retrieval
vector space model
temporal expressions
spatial terms
names
contents