期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
数据源敏感的多源XML数据相似度量方法
1
作者 王继奎 李少波 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2014年第7期28-32,共5页
将预处理后的XML数据当作文本信息采用词频-逆向文档频率(TF-IDF)模型进行处理时,逆向文档频率作为词项权重有其不足之处.为此,文中定义了词项的数据源敏感度作为逆向文档频率(IDF)的修正系数.其值取决于提供此词项的数据来源于不同数... 将预处理后的XML数据当作文本信息采用词频-逆向文档频率(TF-IDF)模型进行处理时,逆向文档频率作为词项权重有其不足之处.为此,文中定义了词项的数据源敏感度作为逆向文档频率(IDF)的修正系数.其值取决于提供此词项的数据来源于不同数据源的概率,概率大则其值大,反之则其值小.然后在修正后的词项权重向量的基础上,定义了相似度函数.最后在模拟、真实数据集上进行数据重复检测实验.结果表明,新方法获得了更高的F测度值.这说明考虑词项的数据源敏感度可提高相似度函数的有效性. 展开更多
关键词 XML 数据集成 文本处理 数据源敏感度
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部