摘要
为了更好地对XML文档进行分类或聚类分析,以主成分分析的理论基础为指导,在研究了文本表示的各种模型的基础上,提出了两种对XML文档进行向量化表示并进行特征提取的方法,同时也实现了对XML文档的有效降维。实验结果表明,两种方法都能有效地表示XML文档的主体特征,但全路径特征向量抽取方法能更好地描述XML信息,为下一步有效处理XML文档做了良好铺垫,具有一定的研究价值。
To classify or analyze XML documents better, based on the theoretical analysis of principal component analysis and the study of text representation model, the effective methods aiming to form the feature vector and extract the feature ofxml documents is presented, at the same time it can reduce the dimensions of XML documents. The experiment result shows that two methods both can represent the main feature of XML document effectively, but the method of all path feature extraction for XML document is better than the method of edge set feature extraction, and is an important work for latter handling xml documents efficiently.
出处
《计算机工程与设计》
CSCD
北大核心
2011年第11期3894-3896,3911,共4页
Computer Engineering and Design
基金
国家863高技术研究发展计划基金项目(2009AA044601)
南京工程学院科研基金项目(QKJB2009021)
关键词
XML文档
向量空间模型
特征提取
主成分分析
降维
xml document
vector space model
feature extraction
principal component analysis
reducing dimensions