-
题名基于内容与结构语义相融合的XML检索结果聚类
被引量:5
- 1
-
-
作者
钟敏娟
-
机构
江西财经大学信息管理学院
江西财经大学数据与知识工程江西省高校重点实验室
-
出处
《情报学报》
CSSCI
北大核心
2012年第5期515-525,共11页
-
基金
国家自然科学基金项目(60763001,60803105),国家社会科学基金项目(07BTQ025),江西省教育厅科技项目重点项目(GJJ08506,GJJ08507,GJJ09649).
-
文摘
检索结果聚类是提高检索性能的一种有效手段.其中,如何衡量文档间的相似性是影响聚类质量的关键因素.针对XML文档的内容和结构双重特性,提出了内容与结构语义相融合的扩展向量空间模型,并分析了影响相似性度量的各种特征,进而提出了内容与结构语义相融合的XML语义相似性度量方法.同时,针对IEEE数据集无法提供每篇文档的类别信息,本文从相关文档的分布情况引入了相关簇率和相关文档分布率的概念来进行聚类质量评价.数据集IEEE CS上的实验表明,与同类相似性度量方法和传统方法相比,本文所提方法具有可行性和更好的聚类效果.
-
关键词
XML聚类
标签权重
节点层次
相关簇率
相关文档分布率
-
Keywords
XML clustering, tag weight, node level, relevant cluster ratio, relevant document distribution ratio
-
分类号
TP311.132
[自动化与计算机技术—计算机软件与理论]
-