摘要
聚类算法的研究已经非常成熟了,但是这些聚类算法一般都是基于数值型信息,所以怎样把现有的一些经典聚类算法有效地应用到文本聚类,特别是中文文本聚类是一个非常重要的问题。文中提出了一种基于语义分析,利用段落同现频率来加权特征向量权值的方法。实验证明:基于语义分析特征向量加权的方法能够提高10%左右的文本聚类效果。同时,文中还研究了段落同现频率阈值选取问题,发现段落同现频率阈值选取大小对聚类效果有很大影响。
The research on clustering algorithms has already become a focus. So how to apply these classical clustering algorithms to text clustering is a very important issue. This paper presents a feature value weighted method based on semantic analysis by using Paragraph Co-occurrence Frequency(PCF). Experiment indicates that the semantic analysisbased feature value weighted method could improve the text clustering result by 10% and the PCF threshold has a great influence on the text clustering result.
出处
《信息安全与通信保密》
2009年第12期57-59,63,共4页
Information Security and Communications Privacy
基金
上海科委科技攻关基金资助项目(编号:08511501902)
关键词
特征向量模型
段落同现频率
特征向量加权
vector space model(VSM)
paragraph co-occurrence frequency(PCF)
feature value weighted