期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
2
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于连接位MinwiseHash的三者相似性估计算法
被引量:
1
1
作者
袁鑫攀
盛鑫海
+2 位作者
龙军
张祖平
桂卫华
《上海交通大学学报》
EI
CAS
CSCD
北大核心
2014年第7期936-941,共6页
计算相似性是信息检索的一个核心基础问题,二者、三者甚至更多集合的相似性估计在相似文档检测、词语相关性、聚类、数据清理等领域有着广泛的应用.连接位Minwise Hash算法作为一种高效、准确的相似性估计算法,能够成倍地减少比对的次数...
计算相似性是信息检索的一个核心基础问题,二者、三者甚至更多集合的相似性估计在相似文档检测、词语相关性、聚类、数据清理等领域有着广泛的应用.连接位Minwise Hash算法作为一种高效、准确的相似性估计算法,能够成倍地减少比对的次数,提升算法性能.通过理论推导,给出基于连接位Minwise Hash的三者相似度无偏估计公式.实验结果显示,在样本大小k=500、相似度阈值R0=0.8时,算法的准确率和召回率均能达到95%以上,并且所需的CPU运行时间仅为b位Minwise Hash三者估计算法的50%.
展开更多
关键词
三者相似度
三者相似性估计
连接位
信息检索
下载PDF
职称材料
基于分组指纹的细粒度相似性检测系统
2
作者
盛鑫海
袁鑫攀
+1 位作者
满君丰
涂慧
《湖南工业大学学报》
2014年第6期81-85,共5页
在文档相似性检测中,粗粒度会降低准确度,粒度过细又会大幅增加计算时间。针对基金项目相似性检测,在b位Minwise Hash算法的基础上,提出了一种细粒度文档相似性快速检测方法。先对文档进行预处理,提取文档正文,并生成分组指纹特征,再构...
在文档相似性检测中,粗粒度会降低准确度,粒度过细又会大幅增加计算时间。针对基金项目相似性检测,在b位Minwise Hash算法的基础上,提出了一种细粒度文档相似性快速检测方法。先对文档进行预处理,提取文档正文,并生成分组指纹特征,再构建细粒度的分组指纹索引结构,利用海明距离来计算文档之间的相似性,以XML文档形式存储并显示相似信息。通过系统的实现,验证了该方法的有效性,且检索效率有所提高。
展开更多
关键词
分组指纹
细粒度
文档相似性检测
海明距离
下载PDF
职称材料
题名
基于连接位MinwiseHash的三者相似性估计算法
被引量:
1
1
作者
袁鑫攀
盛鑫海
龙军
张祖平
桂卫华
机构
湖南工业大学计算机与通信学院
中南大学信息科学与工程学院
出处
《上海交通大学学报》
EI
CAS
CSCD
北大核心
2014年第7期936-941,共6页
基金
国家自然科学基金(61121008
60970095
+5 种基金
60873081
61350011)
科技部科技支撑计划(2013BAJ10B14-5)
湖南省杰出青年基金(11JJ1012)
湖南省自然科学基金重点项目(12JJ2036)
湖南省自然科学基金面上项目(14JJ2115)资助
文摘
计算相似性是信息检索的一个核心基础问题,二者、三者甚至更多集合的相似性估计在相似文档检测、词语相关性、聚类、数据清理等领域有着广泛的应用.连接位Minwise Hash算法作为一种高效、准确的相似性估计算法,能够成倍地减少比对的次数,提升算法性能.通过理论推导,给出基于连接位Minwise Hash的三者相似度无偏估计公式.实验结果显示,在样本大小k=500、相似度阈值R0=0.8时,算法的准确率和召回率均能达到95%以上,并且所需的CPU运行时间仅为b位Minwise Hash三者估计算法的50%.
关键词
三者相似度
三者相似性估计
连接位
信息检索
Keywords
three-way resemblance
similarity estimation {or three way
connected bit
information retrieval
分类号
TP301.6 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
基于分组指纹的细粒度相似性检测系统
2
作者
盛鑫海
袁鑫攀
满君丰
涂慧
机构
湖南工业大学计算机与通信学院
中南大学信息科学与工程学院
出处
《湖南工业大学学报》
2014年第6期81-85,共5页
基金
国家自然科学基金资助项目(61350011
61402165)
+3 种基金
湖南省自然科学面上基金资助项目(14JJ2115
2015JJ3058)
湖南省教育厅科技研究基金资助项目(14C0325)
湖南工业大学自然科学研究基金资助项目(2014HZX17)
文摘
在文档相似性检测中,粗粒度会降低准确度,粒度过细又会大幅增加计算时间。针对基金项目相似性检测,在b位Minwise Hash算法的基础上,提出了一种细粒度文档相似性快速检测方法。先对文档进行预处理,提取文档正文,并生成分组指纹特征,再构建细粒度的分组指纹索引结构,利用海明距离来计算文档之间的相似性,以XML文档形式存储并显示相似信息。通过系统的实现,验证了该方法的有效性,且检索效率有所提高。
关键词
分组指纹
细粒度
文档相似性检测
海明距离
Keywords
grouping fingerprint
fine-grained
document similarity detection
Hamming distance
分类号
TP391.3 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于连接位MinwiseHash的三者相似性估计算法
袁鑫攀
盛鑫海
龙军
张祖平
桂卫华
《上海交通大学学报》
EI
CAS
CSCD
北大核心
2014
1
下载PDF
职称材料
2
基于分组指纹的细粒度相似性检测系统
盛鑫海
袁鑫攀
满君丰
涂慧
《湖南工业大学学报》
2014
0
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部