期刊文献+

基于PCA的XML文档特征提取方法 被引量:1

Feature extraction methods for XML documents based on PCA
下载PDF
导出
摘要 为了更好地对XML文档进行分类或聚类分析,以主成分分析的理论基础为指导,在研究了文本表示的各种模型的基础上,提出了两种对XML文档进行向量化表示并进行特征提取的方法,同时也实现了对XML文档的有效降维。实验结果表明,两种方法都能有效地表示XML文档的主体特征,但全路径特征向量抽取方法能更好地描述XML信息,为下一步有效处理XML文档做了良好铺垫,具有一定的研究价值。 To classify or analyze XML documents better, based on the theoretical analysis of principal component analysis and the study of text representation model, the effective methods aiming to form the feature vector and extract the feature ofxml documents is presented, at the same time it can reduce the dimensions of XML documents. The experiment result shows that two methods both can represent the main feature of XML document effectively, but the method of all path feature extraction for XML document is better than the method of edge set feature extraction, and is an important work for latter handling xml documents efficiently.
作者 郭丽红 王箭
出处 《计算机工程与设计》 CSCD 北大核心 2011年第11期3894-3896,3911,共4页 Computer Engineering and Design
基金 国家863高技术研究发展计划基金项目(2009AA044601) 南京工程学院科研基金项目(QKJB2009021)
关键词 XML文档 向量空间模型 特征提取 主成分分析 降维 xml document vector space model feature extraction principal component analysis reducing dimensions
  • 相关文献

参考文献12

二级参考文献124

共引文献229

同被引文献1

引证文献1

二级引证文献1

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部