基于PCA的XML文档特征提取方法被引量：1

Feature extraction methods for XML documents based on PCA

下载PDF

导出

摘要为了更好地对XML文档进行分类或聚类分析,以主成分分析的理论基础为指导,在研究了文本表示的各种模型的基础上,提出了两种对XML文档进行向量化表示并进行特征提取的方法,同时也实现了对XML文档的有效降维。实验结果表明,两种方法都能有效地表示XML文档的主体特征,但全路径特征向量抽取方法能更好地描述XML信息,为下一步有效处理XML文档做了良好铺垫,具有一定的研究价值。 To classify or analyze XML documents better, based on the theoretical analysis of principal component analysis and the study of text representation model, the effective methods aiming to form the feature vector and extract the feature ofxml documents is presented, at the same time it can reduce the dimensions of XML documents. The experiment result shows that two methods both can represent the main feature of XML document effectively, but the method of all path feature extraction for XML document is better than the method of edge set feature extraction, and is an important work for latter handling xml documents efficiently.

作者郭丽红王箭

机构地区南京航空航天大学计算机科学与技术学院南京工程学院通信工程学院

出处《计算机工程与设计》 CSCD 北大核心 2011年第11期3894-3896,3911,共4页 Computer Engineering and Design

基金国家863高技术研究发展计划基金项目(2009AA044601) 南京工程学院科研基金项目(QKJB2009021)

关键词 XML文档向量空间模型特征提取主成分分析降维 xml document vector space model feature extraction principal component analysis reducing dimensions

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献12

1Flesca S,Masciari E,Masciari E.Fast detection of XML structural similarity[J].IEEE Transactions on Knowledge and Data Engi- neering,2005,17(2):160-175.
2Kurt A,Engin T.Classification of xslt-generated web documents with Support Vector Machines[J]. Knowledge Discovery from XML Documents,2006,3915:33-42.
3陈龙,范瑞霞,高琪.基于概念的文本表示模型[J].计算机工程与应用,2008,44(20):162-164. 被引量：16
4周树德,孙增圻.分布估计算法综述[J].自动化学报,2007,33(2):113-124. 被引量：209
5刘大昕,王桐.一种新的XML近似查询及排序方法[J].哈尔滨工程大学学报,2006,27(B07):407-410. 被引量：1
6刘锋,唐佳,仲红.一种基于RBF神经网络的XML文本分类方法[J].计算机技术与发展,2009,19(8):34-36. 被引量：3
7Dasgupta A.Feature selection methods for text classification[C]. California:Proceedings of the 13th ACM SIGKDD InternationalConference on Knowledge Discovery and Data Mining, 2007: 230-239.
8蔡平胜,闫乐林.主成分分析法在掌纹图像识别中的应用[J].计算机系统应用,2010,19(9):187-190. 被引量：5
9Niagara. NIAGARA experimental data [EB/OL]. [2008-09-08]. http://www.cs, wisc.edu/niagara/data/.
10Richter, Jeffrey. Windows via C/C++[M]. Beijing: China Posts Telecom Press,2008.

二级参考文献124

1张燕平,张铃,吴涛,徐锋,张,王伦文.基于覆盖的构造性学习算法SLA及在股票预测中的应用[J].计算机研究与发展,2004,41(6):979-984. 被引量：18
2赵姝,张燕平,张媛,陈传明.基于交叉覆盖算法的改进算法——核平移覆盖算法[J].微机发展,2004,14(11):1-3. 被引量：6
3张燕平,张铃,段震.构造性核覆盖算法在图像识别中的应用[J].中国图象图形学报（A辑）,2004,9(11):1304-1308. 被引量：17
4孟小峰,周龙骧,王珊.数据库技术发展趋势[J].软件学报,2004,15(12):1822-1836. 被引量：176
5曹奎,冯玉才.一种压缩域特征提取与语义图像检索技术[J].小型微型计算机系统,2005,26(1):151-155. 被引量：3
6徐建斌,施亚东.基于概念的文本自动分类研究的综述[J].福建电脑,2005,21(2):2-4. 被引量：3
7吴涛,张铃,张燕平.机器学习中的核覆盖算法[J].计算机学报,2005,28(8):1295-1301. 被引量：33
8李强,裘正定,孙冬梅,刘陆陆.基于改进二维主成分分析的在线掌纹识别[J].电子学报,2005,33(10):1886-1889. 被引量：36
9赵丰年,刘林,商建云.基于概念的文本过滤模型[J].计算机工程与应用,2006,42(4):186-188. 被引量：11
10闫蓉,张蕾.一种新的汉语词义消歧方法[J].计算机技术与发展,2006,16(3):22-25. 被引量：3

共引文献229

1喻飞,吴瑞峰,魏波,张应龙,夏学文.多精英采样与个体差分学习的分布估计算法[J].系统仿真学报,2020,32(3):382-393. 被引量：3
2刘俊杰,叶英豪,董立映.航空安全信息风险主题语义图谱构建[J].情报工程,2022,8(4):31-40.
3王文峰,郭波,刘新亮.多级覆盖设施选址问题建模及求解方法研究[J].中国管理科学,2007,15(z1):144-148. 被引量：10
4高尚.背包问题的分布估计算法[J].中南大学学报（自然科学版）,2013,44(S2):165-168. 被引量：3
5韩忠明,许峰敏,段大高.面向微博的概率图水军识别模型[J].计算机研究与发展,2013,50(S2):180-186. 被引量：10
6郑长建,侍洪波.基于整数编码的分布式估计单元重组算法[J].计算机与应用化学,2008,25(7):877-880. 被引量：1
7张智晟,时翔,林涛,孙雅明.基于分布估计算法和遗传算法融合的神经网络故障诊断模型研究[J].电工电能新技术,2008,27(3):18-21. 被引量：1
8王钧炎,黄德先.基于混合差分进化算法的软测量时延参数估计[J].化工学报,2008,59(8):2058-2064. 被引量：12
9吴养会,卢恩双,邓业胜,秦宝福.分布估计算法中适应度函数模型检验及应用[J].数学的实践与认识,2008,38(18):98-104.
10吴养会,John McCall,刘迎洲,王洁.一种生物病虫害控制模型的进化算法处理[J].吉林农业大学学报,2008,30(5):682-686.

同被引文献1

1李丽双,郭元凯.基于CNN-BLSTM-CRF模型的生物医学命名实体识别[J].中文信息学报,2018,32(1):116-122. 被引量：123

引证文献1

1薛俊杰,周军华,施国强,宋晓,蒋炎红,全红艳.产品协同设计中异构模型数据融合的有效策略[J].北京航空航天大学学报,2022,48(6):995-1003. 被引量：1

二级引证文献1

1朱怡超,廖子祥.促进直升机产业链协同发展的标准化应用研究[J].中国标准化,2024(15):95-99.

1罗盈军.从电子器件的换代来看计算机的发展[J].现代物理知识,2006,18(1):60-61.
2马训鸣.基于机器视觉的农业机械无人驾驶研究[J].西安石油大学学报（自然科学版）,2004,19(5):71-73. 被引量：4
3王汉博,孙启霖.基于路径特征的复杂本体匹配[J].计算机工程,2017,34(2):227-233. 被引量：1
4刘琳,廖勇勇.走向共和的维客——维客传播主体特征初探[J].声屏世界,2006(4):36-37. 被引量：3
5刁庶,嵇艳鞠,刘叶婷.论领导干部信息化能力体系的要素构成[J].信息化建设,2016,0(10):22-24.
6张力生,洪小云,雷大江.基于路径特征的XML文档结构相似性度量[J].计算机应用与软件,2015,32(7):39-42. 被引量：4
7郭海针,马俊龙,徐海刚.基于机器视觉的农业机械无人驾驶系统[J].农机化研究,2009,31(6):189-191. 被引量：5
8黄小红.基于路径聚类分析的代码缺陷定位研究[J].软件导刊,2017,16(3):3-6. 被引量：1
9胡剑波,陈良银,徐正坤,殷峰.网格环境下一种基于分类的行为信任模型[J].四川大学学报（自然科学版）,2010,47(2):281-286. 被引量：2
10王源,陈亚军,蔡彪,王伟.一种基于形态学的路径特征提取算法[J].计算机技术与发展,2006,16(7):70-72.

计算机工程与设计

2011年第11期

浏览历史

内容加载中请稍等...

基于PCA的XML文档特征提取方法被引量：1

参考文献12

二级参考文献124

共引文献229

同被引文献1

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于PCA的XML文档特征提取方法 被引量：1

参考文献12

二级参考文献124

共引文献229

同被引文献1

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于PCA的XML文档特征提取方法被引量：1