为了提高宋词文档分类的精确性,本文在广泛采用的向量空间模型(Vector space model,VSM)的基础上,对分类算法中使用的特征项做了相应的修改,提出了频繁关键字共现的概念.在实验过程中,首先提取了宋词语料库中的关键字,再利用发现关联规...为了提高宋词文档分类的精确性,本文在广泛采用的向量空间模型(Vector space model,VSM)的基础上,对分类算法中使用的特征项做了相应的修改,提出了频繁关键字共现的概念.在实验过程中,首先提取了宋词语料库中的关键字,再利用发现关联规则的Apriori算法发现分类时所需要的频繁关键字共现,最后结合关键字和频繁关键字共现,利用最邻近算法(KNN)对宋词文档进行风格分类.实验结果发现,结合了频繁关键字共现的VSM可以提高对宋词风格分类的准确度.可见,频繁关键字共现确实提供了风格分类中所需的更多信息.展开更多
文摘为了提高宋词文档分类的精确性,本文在广泛采用的向量空间模型(Vector space model,VSM)的基础上,对分类算法中使用的特征项做了相应的修改,提出了频繁关键字共现的概念.在实验过程中,首先提取了宋词语料库中的关键字,再利用发现关联规则的Apriori算法发现分类时所需要的频繁关键字共现,最后结合关键字和频繁关键字共现,利用最邻近算法(KNN)对宋词文档进行风格分类.实验结果发现,结合了频繁关键字共现的VSM可以提高对宋词风格分类的准确度.可见,频繁关键字共现确实提供了风格分类中所需的更多信息.