提出一种新颖的中文文本分类框架。在该框架中,首先基于Word2Vec构建词向量模型,然后采用分词频文档频率(segmentation term frequency-document frequency,STF-DF)筛选出类别区分能力强的关键词,同时构建一种适合于中文文本分类的卷积...提出一种新颖的中文文本分类框架。在该框架中,首先基于Word2Vec构建词向量模型,然后采用分词频文档频率(segmentation term frequency-document frequency,STF-DF)筛选出类别区分能力强的关键词,同时构建一种适合于中文文本分类的卷积神经网络(convolution neural network,CNN)进行分类。实验结果表明,采用该框架使THUCNews和复旦大学中文文本数据集中的准确率分别达到了94.51%和95.04%,同时在真实的有害信息数据集中取得了99.70%的召回率,这验证了所提出框架的有效性和实用价值。展开更多