期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
基于关键字语义信息的XML文档分类 被引量:6
1
作者 张利军 李战怀 +2 位作者 陈群 娄颖 李宁 《吉林大学学报(工学版)》 EI CAS CSCD 北大核心 2012年第6期1510-1514,共5页
针对XML数据半结构化的特点及传统的tf-idf方法仅考虑关键字在文档中出现的频率和包含关键字的文档数,而未考虑XML文档中关键字语义信息的不足,提出了一种新的关键字权重度量方法。该方法充分考虑了XML文档中关键字所出现的路径、路径... 针对XML数据半结构化的特点及传统的tf-idf方法仅考虑关键字在文档中出现的频率和包含关键字的文档数,而未考虑XML文档中关键字语义信息的不足,提出了一种新的关键字权重度量方法。该方法充分考虑了XML文档中关键字所出现的路径、路径包含关键字的个数、包含路径的文档个数、路径的层次等影响关键字语义的因素,用于计算关键字权重,从而提高了关键字权重度量的准确性。在多个数据集上的实验结果表明,将该方法应用于XML文档的分类时,与传统的tf-idf方法和基于规则的方法相比,分类的查全率、查对率及F1均有所提高。 展开更多
关键词 计算机软件 半结构化数据 xml挖掘 xml分类 关键字语义 权重度量
下载PDF
基于结构与文本关键词相关度的XML网页分类研究 被引量:13
2
作者 袁家政 须德 鲍泓 《计算机研究与发展》 EI CSCD 北大核心 2006年第8期1361-1367,共7页
针对XML网页特点,提出了计算XML文档结构相似性、文档关键词出现的位置以及关键词频度的方法,根据计算的结果提取XML网页特征,同时设计了一种基于支持向量机的XML网页多类分类算法·算法通过XML文档的训练样本集为每一类文档建立基... 针对XML网页特点,提出了计算XML文档结构相似性、文档关键词出现的位置以及关键词频度的方法,根据计算的结果提取XML网页特征,同时设计了一种基于支持向量机的XML网页多类分类算法·算法通过XML文档的训练样本集为每一类文档建立基于相似公共特征的聚类核,计算测试样本中的文档与每个聚类核的相似度,判断该文档的所属类·实验证明该分类算法具有比较高的分类查全率和查准率,能够较好地解决XML文档同时属于多个类的问题· 展开更多
关键词 xml分类 文档结构 关键词特征 支持向量机
下载PDF
XML文档分类的IL-AdaBoost算法 被引量:3
3
作者 董元方 李雄飞 +1 位作者 李军 李巍 《吉林大学学报(工学版)》 EI CAS CSCD 北大核心 2011年第4期1054-1058,共5页
提出一种XML文档分类算法——IL-AdaBoost。算法以XML频繁变化子结构为特征构建决策树桩,作为boosting算法的弱分类器,并改进了AdaBoost算法;利用泊松过程模拟新增XML文档的生成,反映XML文档随时间增加的特性,更新样本分布,实现增量学... 提出一种XML文档分类算法——IL-AdaBoost。算法以XML频繁变化子结构为特征构建决策树桩,作为boosting算法的弱分类器,并改进了AdaBoost算法;利用泊松过程模拟新增XML文档的生成,反映XML文档随时间增加的特性,更新样本分布,实现增量学习。利用采样改善基本分类器的差异性,提高集成学习效果。 展开更多
关键词 人工智能 ADABOOST xml分类 特征空间 增量学习
下载PDF
结构和内容联合提取的XML网页分类研究 被引量:2
4
作者 阎红灿 李敏强 +1 位作者 任蕴丽 阎少宏 《天津大学学报(社会科学版)》 CSSCI 2009年第3期272-276,共5页
针对XML网页特点,重点研究了XML文档结构和内容特征的提取方法,提出了一种基于频繁结构层次空间模型的联合特征提取策略,并给出了结构特征权重和关键词出现的位置及频度权重的计算公式,并根据计算结果提取XML网页特征矩阵,分别就结构、... 针对XML网页特点,重点研究了XML文档结构和内容特征的提取方法,提出了一种基于频繁结构层次空间模型的联合特征提取策略,并给出了结构特征权重和关键词出现的位置及频度权重的计算公式,并根据计算结果提取XML网页特征矩阵,分别就结构、内容联合提取三种情况进行分类测试,通过ROSSETA系统,利用粗糙集优越的属性约简构造文本分类系统,实现XML文档分类。实验表明,该方法分类准确度较高,计算量较小。 展开更多
关键词 xml网页分类 频繁结构层次空间模型 联合特征提取 粗糙集 网页特征矩阵
下载PDF
基于Web挖掘和文档对象模型树的XML网页分类方法
5
作者 马勇 郑翔 +1 位作者 鲜敏 黎远松 《微型电脑应用》 2016年第7期47-49,52,共4页
Web网页的自动分类有助于更好地对其内容进行组织和管理,针对XML网页的分类问题,提出了一种基于Web挖掘和文档对象模型(DOM)树的XML网页分类方法。首先,收集XML网页的文本信息。然后,对XML文本进行去冗余操作,并提取网页源代码。再后,利... Web网页的自动分类有助于更好地对其内容进行组织和管理,针对XML网页的分类问题,提出了一种基于Web挖掘和文档对象模型(DOM)树的XML网页分类方法。首先,收集XML网页的文本信息。然后,对XML文本进行去冗余操作,并提取网页源代码。再后,利用DOM树结构进行标签提取,创建知识库。最后,通过从测试网页中获取的标签与知识库进行匹配来分类网页。实验结果表明,提出的方法在各种XML网页下获得了97%的整体准确度。 展开更多
关键词 xml网页分类 WEB挖掘 文档对象模型树 标签匹配
下载PDF
社区矫正通信系统中XML数据流的压缩优化 被引量:1
6
作者 李浩森 郭红钰 《信息技术》 2018年第2期104-109,共6页
传统的XML压缩算法对XMPP通信中产生的XML数据压缩虽然能达到很高的压缩率,但是还有改进的余地,文中利用XMPP通信中产生的XML数据特点、社区矫正通信应用场景时产生和使用的数据具有相似性的特点对已有算法进行了优化;另外,还对传统压... 传统的XML压缩算法对XMPP通信中产生的XML数据压缩虽然能达到很高的压缩率,但是还有改进的余地,文中利用XMPP通信中产生的XML数据特点、社区矫正通信应用场景时产生和使用的数据具有相似性的特点对已有算法进行了优化;另外,还对传统压缩算法大多是针对英文,未考虑中文的特点做了相应的改善,使其更好地压缩中文信息。结果表明,改进后的压缩算法相比传统压缩算法,在社区矫正通信系统中压缩率更高。 展开更多
关键词 XMPP xml压缩 BWT LZMA xml数据分类
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部