摘要
新事件检测(NED)的目标是从一个或多个新闻源中检测出报道一个新闻话题的第一个新闻。传统向量空间模型采用单个词来表示文本特征,考虑到词的位置信息以及其他的表示内容的信息,提出了词对表示文本的方法,并结合HowNet资源对所抽取的词对进行归一化处理,最后对不同类别新闻中不同词性对的权重参数进行优化。通过在已有的突发性新闻语料上进行实验,表明这种改进方法的效果比较明显,性能也有一定的提高。
New Event Detection(NED) aims at detecting the first news item on one topic from one or more news reports.The traditional vector space model adopts single word to represent the text features,considering the information of word position and other information of expressing content,this paper proposes an approach using word pairs to express text content.Combined with the HowNet,the extracted word pairs are normalized.Then the different weight parameters of different part of speech pairs are given according to different types of news reports.Experiments on emergency news corpus show that the word-pair method can significantly improve the representation results.
出处
《计算机工程与应用》
CSCD
北大核心
2010年第12期123-125,共3页
Computer Engineering and Applications
基金
国家自然科学基金No.60475022
山西省自然科学基金No.20041041
山西省回国留学人员基金(No.2002004)~~
关键词
向量空间模型
词对特征
新事件检测
vector space model
word pair feature
new event detection