期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于连接位MinwiseHash的三者相似性估计算法 被引量:1
1
作者 袁鑫攀 盛鑫海 +2 位作者 龙军 张祖平 桂卫华 《上海交通大学学报》 EI CAS CSCD 北大核心 2014年第7期936-941,共6页
计算相似性是信息检索的一个核心基础问题,二者、三者甚至更多集合的相似性估计在相似文档检测、词语相关性、聚类、数据清理等领域有着广泛的应用.连接位Minwise Hash算法作为一种高效、准确的相似性估计算法,能够成倍地减少比对的次数... 计算相似性是信息检索的一个核心基础问题,二者、三者甚至更多集合的相似性估计在相似文档检测、词语相关性、聚类、数据清理等领域有着广泛的应用.连接位Minwise Hash算法作为一种高效、准确的相似性估计算法,能够成倍地减少比对的次数,提升算法性能.通过理论推导,给出基于连接位Minwise Hash的三者相似度无偏估计公式.实验结果显示,在样本大小k=500、相似度阈值R0=0.8时,算法的准确率和召回率均能达到95%以上,并且所需的CPU运行时间仅为b位Minwise Hash三者估计算法的50%. 展开更多
关键词 三者相似度 三者相似性估计 连接位 信息检索
下载PDF
基于分组指纹的细粒度相似性检测系统
2
作者 盛鑫海 袁鑫攀 +1 位作者 满君丰 涂慧 《湖南工业大学学报》 2014年第6期81-85,共5页
在文档相似性检测中,粗粒度会降低准确度,粒度过细又会大幅增加计算时间。针对基金项目相似性检测,在b位Minwise Hash算法的基础上,提出了一种细粒度文档相似性快速检测方法。先对文档进行预处理,提取文档正文,并生成分组指纹特征,再构... 在文档相似性检测中,粗粒度会降低准确度,粒度过细又会大幅增加计算时间。针对基金项目相似性检测,在b位Minwise Hash算法的基础上,提出了一种细粒度文档相似性快速检测方法。先对文档进行预处理,提取文档正文,并生成分组指纹特征,再构建细粒度的分组指纹索引结构,利用海明距离来计算文档之间的相似性,以XML文档形式存储并显示相似信息。通过系统的实现,验证了该方法的有效性,且检索效率有所提高。 展开更多
关键词 分组指纹 细粒度 文档相似性检测 海明距离
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部