摘要
提出了一种以XML文件内在的分层结构为基础的文件分类方法,并与改良的VSM方法的实验结果进行了比较。和以往XML文件的分类方法不同的是,此方法更加注重XML文件特有的结构信息。首先利用TF-IDF方法针对XML文件非结构的信息产生一般特征集,然后再针对XML文件各个层次重要性赋予一定的权重,从而产生层次特征集,然后根据一些领域知识,产生知识特征集,将三个特征集结合起来对XML进行分类。试验结果表明,这种方法比改良的VSM方法在分类的准确性方面有大幅的提高。
A new method of classification based on hierarchical structure for XML file is proposed in this paper.Three feature word clusters are separately generated from the content,hierarchical structure,and domain knowledge.They all lead to the classification result.An experiment system is designed to show this method effective and feasible.
出处
《计算机工程与应用》
CSCD
北大核心
2007年第3期168-172,193,共6页
Computer Engineering and Applications
关键词
特征词
文件自动分类
分层结构
feature word
text auto classification
hierarchical structure