摘要
针对网络新闻的特点,从人名、时间名、地点名、组织机构名、内容五个方面抽取特征词形成特征向量。在此基础上,分别进行了相似度计算,其中,人名、组织机构名、内容采用余弦夹角的方法,时间和地点向量,相似度计算采用了引入报道时间和关联度计算。最后,使用这5个相似度作为特征,使用SVM进行训练,并在测试集上进行了测试。测试结果表明,这种方法可以有效地改善系统的性能。
Via analyzing the characteristic of news in the Web,construct the feature vector using features from five entity categories:persons,time,location,organizations,and content.Using story time and entity relatedness for temporal or place vector when calculating their similarity and cosine similarity for others.All the features together with the entity relatedness are integrated by Support Vector Machine(SVM).Experimental results show that this method can improve system performance effectively.
出处
《计算机工程与应用》
CSCD
北大核心
2008年第33期141-143,共3页
Computer Engineering and Applications
基金
国家自然科学基金No.60475022
山西省自然科学基金No.20041041
山西省回国留学人员基金(No.2002004)。~~