期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
结构和内容联合提取的XML网页分类研究 被引量:2
1
作者 阎红灿 李敏强 +1 位作者 任蕴丽 阎少宏 《天津大学学报(社会科学版)》 CSSCI 2009年第3期272-276,共5页
针对XML网页特点,重点研究了XML文档结构和内容特征的提取方法,提出了一种基于频繁结构层次空间模型的联合特征提取策略,并给出了结构特征权重和关键词出现的位置及频度权重的计算公式,并根据计算结果提取XML网页特征矩阵,分别就结构、... 针对XML网页特点,重点研究了XML文档结构和内容特征的提取方法,提出了一种基于频繁结构层次空间模型的联合特征提取策略,并给出了结构特征权重和关键词出现的位置及频度权重的计算公式,并根据计算结果提取XML网页特征矩阵,分别就结构、内容联合提取三种情况进行分类测试,通过ROSSETA系统,利用粗糙集优越的属性约简构造文本分类系统,实现XML文档分类。实验表明,该方法分类准确度较高,计算量较小。 展开更多
关键词 xml网页分类 频繁结构层次空间模型 联合特征提取 粗糙集 网页特征矩阵
下载PDF
基于Web挖掘和文档对象模型树的XML网页分类方法
2
作者 马勇 郑翔 +1 位作者 鲜敏 黎远松 《微型电脑应用》 2016年第7期47-49,52,共4页
Web网页的自动分类有助于更好地对其内容进行组织和管理,针对XML网页的分类问题,提出了一种基于Web挖掘和文档对象模型(DOM)树的XML网页分类方法。首先,收集XML网页的文本信息。然后,对XML文本进行去冗余操作,并提取网页源代码。再后,利... Web网页的自动分类有助于更好地对其内容进行组织和管理,针对XML网页的分类问题,提出了一种基于Web挖掘和文档对象模型(DOM)树的XML网页分类方法。首先,收集XML网页的文本信息。然后,对XML文本进行去冗余操作,并提取网页源代码。再后,利用DOM树结构进行标签提取,创建知识库。最后,通过从测试网页中获取的标签与知识库进行匹配来分类网页。实验结果表明,提出的方法在各种XML网页下获得了97%的整体准确度。 展开更多
关键词 xml网页分类 WEB挖掘 文档对象模型树 标签匹配
下载PDF
基于UCL的网页自动标引技术 被引量:6
3
作者 邢玲 史杏荣 《计算机工程与应用》 CSCD 北大核心 2004年第17期148-151,共4页
UCL(UniformContentLocator)是作者、编者和读者进行语义沟通的工具,是进行信息快速选择、智能代理和信息主动服务的基础。该文针对网络信息检索中的自动标引问题,提出了一种基于UCL的网页自动标引技术。研究了从HTML编写的网页映射到XM... UCL(UniformContentLocator)是作者、编者和读者进行语义沟通的工具,是进行信息快速选择、智能代理和信息主动服务的基础。该文针对网络信息检索中的自动标引问题,提出了一种基于UCL的网页自动标引技术。研究了从HTML编写的网页映射到XML文档的过程,并从中提取符合用户兴趣模型的UCL字段,从而达到网页自动标引的目的。实验验证了理论方案的正确性和有效性。 展开更多
关键词 自动标引 UCL xml网页 用户兴趣模型
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部