期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于DotHash模型的链接预测和文档重复数据研究
1
作者
魏鹏
《长江信息通信》
2023年第11期146-148,共3页
分析数据集合相似度是数据挖掘任务的核心。例如,删除Web搜索中的重复结果,常用的方法是查看页面的Jaccard指数。在社会网络分析中,另一个常见度量是adam-adar指数,在预测链接问题中被广泛使用。然而,随着要处理的数据量的增加,计算所...
分析数据集合相似度是数据挖掘任务的核心。例如,删除Web搜索中的重复结果,常用的方法是查看页面的Jaccard指数。在社会网络分析中,另一个常见度量是adam-adar指数,在预测链接问题中被广泛使用。然而,随着要处理的数据量的增加,计算所有数据对之间的精确相似度可能变得难以处理。对于这个任务,目前主流的估计模型有MinHash和Sim Hash,它们一般用于处理大量重复数据,如文档重复数据删除系统等。但是考虑到目前任务的重要性,对更高效的估计模型的需求是显而易见的。文章提出了使用Dot Hash——一种两集合相交大小的无偏差估计量的模型。DotHash可以用来估计Jaccard指数,也可以估计adam-adar指数。实验结果表明,DotHash在链接预测和检测重复文档方面比其他模型更准确。
展开更多
关键词
dothash
Jaccard
adam-adar
链接预测
重复数据删除
下载PDF
职称材料
题名
基于DotHash模型的链接预测和文档重复数据研究
1
作者
魏鹏
机构
广东白云学院
出处
《长江信息通信》
2023年第11期146-148,共3页
文摘
分析数据集合相似度是数据挖掘任务的核心。例如,删除Web搜索中的重复结果,常用的方法是查看页面的Jaccard指数。在社会网络分析中,另一个常见度量是adam-adar指数,在预测链接问题中被广泛使用。然而,随着要处理的数据量的增加,计算所有数据对之间的精确相似度可能变得难以处理。对于这个任务,目前主流的估计模型有MinHash和Sim Hash,它们一般用于处理大量重复数据,如文档重复数据删除系统等。但是考虑到目前任务的重要性,对更高效的估计模型的需求是显而易见的。文章提出了使用Dot Hash——一种两集合相交大小的无偏差估计量的模型。DotHash可以用来估计Jaccard指数,也可以估计adam-adar指数。实验结果表明,DotHash在链接预测和检测重复文档方面比其他模型更准确。
关键词
dothash
Jaccard
adam-adar
链接预测
重复数据删除
Keywords
dothash
Jaccard
adam-adar
Link prediction
Data deduplication
分类号
P413 [天文地球—大气科学及气象学]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于DotHash模型的链接预测和文档重复数据研究
魏鹏
《长江信息通信》
2023
0
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部