期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于DotHash模型的链接预测和文档重复数据研究
1
作者 魏鹏 《长江信息通信》 2023年第11期146-148,共3页
分析数据集合相似度是数据挖掘任务的核心。例如,删除Web搜索中的重复结果,常用的方法是查看页面的Jaccard指数。在社会网络分析中,另一个常见度量是adam-adar指数,在预测链接问题中被广泛使用。然而,随着要处理的数据量的增加,计算所... 分析数据集合相似度是数据挖掘任务的核心。例如,删除Web搜索中的重复结果,常用的方法是查看页面的Jaccard指数。在社会网络分析中,另一个常见度量是adam-adar指数,在预测链接问题中被广泛使用。然而,随着要处理的数据量的增加,计算所有数据对之间的精确相似度可能变得难以处理。对于这个任务,目前主流的估计模型有MinHash和Sim Hash,它们一般用于处理大量重复数据,如文档重复数据删除系统等。但是考虑到目前任务的重要性,对更高效的估计模型的需求是显而易见的。文章提出了使用Dot Hash——一种两集合相交大小的无偏差估计量的模型。DotHash可以用来估计Jaccard指数,也可以估计adam-adar指数。实验结果表明,DotHash在链接预测和检测重复文档方面比其他模型更准确。 展开更多
关键词 dothash Jaccard adam-adar 链接预测 重复数据删除
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部