期刊文献+
共找到9篇文章
< 1 >
每页显示 20 50 100
基于分块sim-min-Hash的近似图像检索 被引量:2
1
作者 刘翔宇 《计算机应用与软件》 北大核心 2019年第7期259-263,299,共6页
基于内容的图像检索技术(Content-Based ImageRetrieval,CBIR)突破传统基于文本的图像检索(Text-based Image Retrieval,TBIR)所造成的工作量大量性和主观注释信息不稳定性的瓶颈,大大提高图像资源的利用率,为使用者提供全新的体验。近... 基于内容的图像检索技术(Content-Based ImageRetrieval,CBIR)突破传统基于文本的图像检索(Text-based Image Retrieval,TBIR)所造成的工作量大量性和主观注释信息不稳定性的瓶颈,大大提高图像资源的利用率,为使用者提供全新的体验。近似图像(Near Duplicate Images)被定义为对于同一物体或场景,在不同的拍摄情况(遮挡,位移,光线变化,背景,色差)下获取的图像,是CBIR重要检索对象之一。基于传统的min-Hash和sim-min-Hash算法,引入分块技术、块重叠技术、目标定位技术,提出分块sim-min-Hash算法(Partition sim-min-Hash)用来进行近似图像检索。并且在速度、查准率和查全率上对分块sim-min-Hash和sim-min-Hash标准min-Hash做了严格的比较。该算法对图像进行分块处理,极大地提高了运行速度和准确度。 展开更多
关键词 min-hash 图像检索 Sim-min-hash PsmH
下载PDF
基于Min-Hash数据降维的伴随关系研究 被引量:1
2
作者 黄晓雄 李博文 +4 位作者 卢云亮 林璋 史超 陈伟 章武盛 《中国电子科学研究院学报》 北大核心 2020年第10期984-988,共5页
文中提出一种新的计算伴随关系(同行、同停留)的方法,该方法基于手机信号数据、人脸行踪和车辆记录等多源数据。首先,利用ID-MAPPING技术将多源数据统一关联到同一ID,实现数据融合;接着,采用min-Hash算法进行数据降维,降低运算量和存储... 文中提出一种新的计算伴随关系(同行、同停留)的方法,该方法基于手机信号数据、人脸行踪和车辆记录等多源数据。首先,利用ID-MAPPING技术将多源数据统一关联到同一ID,实现数据融合;接着,采用min-Hash算法进行数据降维,降低运算量和存储空间;最后,利用分块Hash映射将具有相同轨迹特征片段的用户映射进同一个桶,计算时空相似度,得到具有相似时空序列的人员列表,从而生成伴随关系。实测数据表明:该方法在提高伴随关系准确度的同时,运行效率比传统方法提升了12倍。 展开更多
关键词 伴随关系 ID-MAPPING min-hash 时空相似度
下载PDF
高效的数据源选择方式 被引量:1
3
作者 黄维篁 李国良 冯建华 《计算机科学与探索》 CSCD 2010年第10期890-898,共9页
随着关键词查询技术的飞速发展和互联网数据的迅猛增长,高效、准确的数据源选择变得十分有意义。提出了一种基于倒排列表的数据源选择方式,通过这种方式,能够在短时间内选择出相关度高的数据源,在这些数据源中执行检索,从而减少查询时间... 随着关键词查询技术的飞速发展和互联网数据的迅猛增长,高效、准确的数据源选择变得十分有意义。提出了一种基于倒排列表的数据源选择方式,通过这种方式,能够在短时间内选择出相关度高的数据源,在这些数据源中执行检索,从而减少查询时间,给用户带来了更好的查询体验。从实验结果可以看出,这种方法在实际系统(例如机票查询系统)中可以得到很好的效果。为了在大规模的数据集上高效地实现相关算法,将min-hash算法应用到相似度估计中来,减少了查询空间和时间的消耗。与传统算法的比较结果表明:min-hash算法能够得到较高的精确度,并且极大地节省了算法的运行时间。 展开更多
关键词 数据源选择 关键词查询 概要 min-hash算法
下载PDF
基于压缩直方图的劣质数据库上相似连接结果大小估计 被引量:2
4
作者 张岩 杨忠胜 +2 位作者 王宏志 高宏 李建中 《小型微型计算机系统》 CSCD 北大核心 2012年第10期2113-2120,共8页
现代数据管理系统普遍存在劣质数据,影响了数据质量,给数据管理带来了新的挑战.已经有不少管理劣质数据的数据模型,实体关系数据模型就是其中一种,该模型允许劣质数据的存在,并给出衡量数据质量的方法,并且可根据对结果质量的需求给出... 现代数据管理系统普遍存在劣质数据,影响了数据质量,给数据管理带来了新的挑战.已经有不少管理劣质数据的数据模型,实体关系数据模型就是其中一种,该模型允许劣质数据的存在,并给出衡量数据质量的方法,并且可根据对结果质量的需求给出查询结果.鉴于该模型的特点,传统的估计查询代价的优化方法很难再适用,需要新的代价估计技术.本文提出了一种新的估计连接结果大小的方法.使用加权的最小哈希函数获得某一属性的最小哈希签名,这使得属性具有相同维数,便于利用直方图进行快速估计;然后建立其直方图,最后使用改进的离散余弦变换压缩直方图信息,使用压缩信息直接进行代价估计,这使得即使对于高维数据也能保证低错误率和低存储代价.此外,此方法可以很好的支持动态数据更新,消除周期性重建直方图的时间开销. 展开更多
关键词 劣质数据 连接估计 最小哈希签名 压缩直方图
下载PDF
空间局部重合图像的快速聚类
5
作者 汪国安 郭昕 《河南教育学院学报(自然科学版)》 2015年第2期23-29,共7页
采用视觉词袋模型表示图像,以快速检测空间上部分重合图像对的最小哈希算法为基础,提出一种对局部重合图像聚类即数据挖掘的方法,能够找到类种子的概率随着类别中图像数目的增长显著增加.对聚类的结果进行空间上的验证,并在大小分别为10... 采用视觉词袋模型表示图像,以快速检测空间上部分重合图像对的最小哈希算法为基础,提出一种对局部重合图像聚类即数据挖掘的方法,能够找到类种子的概率随着类别中图像数目的增长显著增加.对聚类的结果进行空间上的验证,并在大小分别为104、105以及5×106的图像数据集上对该算法的效果进行测试.算法的速度依赖于数据集中图像的数目和数据集中类别的数目,类种子生成的时间复杂度线性相关于数据集大小. 展开更多
关键词 最小哈希 视觉词袋模型 图像聚类 局部重合图像 数据挖掘
下载PDF
一种从多表达谱数据挖掘基因共表达团的新方法 被引量:2
6
作者 陈兰 王世敏 陈润生 《生物化学与生物物理进展》 SCIE CAS CSCD 北大核心 2008年第8期914-920,共7页
随着近年来高通量基因表达谱数据的涌现,集成多个不同实验条件的表达谱数据,并挖掘在多数据源都保守的基因共表达团,成为预测基因功能或者调控关系的方法之一.但是,常用的方法通常仅简单地集成不同表达谱数据并推导保守基因共表达团,这... 随着近年来高通量基因表达谱数据的涌现,集成多个不同实验条件的表达谱数据,并挖掘在多数据源都保守的基因共表达团,成为预测基因功能或者调控关系的方法之一.但是,常用的方法通常仅简单地集成不同表达谱数据并推导保守基因共表达团,这样可能会导致结果中出现并非真正在多数据源保守的共表达团.提出一种结合最小哈希与局部敏感哈希的新方法,可以高效地寻找在多表达谱数据源中真正保守的基因共表达团.结果分析证明,相比过去的方法,现提出的方法可以获得更加功能相关和调控相关的基因共表达团. 展开更多
关键词 表达谱 共表达网络 最小哈希 局部敏感哈希
下载PDF
基于连续变量真空噪声量子随机数的高速产生 被引量:1
7
作者 刘日鹏 成琛 +3 位作者 吴明川 李璞 郭晓敏 郭龑强 《光通信研究》 北大核心 2019年第5期22-27,70,共7页
针对当前量子随机数产生技术无法满足通信领域中安全性和高速率的问题,文章提出了一种基于测量光场真空起伏产生量子真随机数的实验方案。与以往报道的实验方案所不同,文章理论分析,量子随机数生成系统中量子正交分量测量中本底光增益... 针对当前量子随机数产生技术无法满足通信领域中安全性和高速率的问题,文章提出了一种基于测量光场真空起伏产生量子真随机数的实验方案。与以往报道的实验方案所不同,文章理论分析,量子随机数生成系统中量子正交分量测量中本底光增益对原始随机数中相对量子熵含量的影响,在经典噪声完全被窃听方控制的最差情况假定下,采用量子条件最小熵量化评估原始随机数的随机性。基于理论分析实验中通过相对增强本底光强的同时控制电子学增益,经典电子噪声独立地放大真空噪声分量起伏,提高了系统中量子噪声引入的最小熵含量,同时,基于真空量子噪声是宽带高斯白噪声,有效提升频带提取带宽,提高量子熵源的利用率,在提高量子随机数生成系统安全性的同时提高了量子随机数的产生速率。实验结果表明,基于安全性信息论可证明的托普利茨-哈希(Toeplitz-hash)提取器,实现了6.7Gbit/s的量子随机数产生,同时利用Nist、Diehard和TestU01-SmallCrush3种随机数标准测试验证了该方案下生成的量子随机数的真随机性,为真空量子随机数发生器产生速率的提高提供了新的途径。 展开更多
关键词 量子随机数 光场真空噪声 量子条件最小熵 Toeplitz-hash提取器
下载PDF
低支持度关联规则挖掘的一种算法
8
作者 卢世海 齐雁 《中原工学院学报》 CAS 2003年第2期57-59,共3页
 针对已有的对低支持度关联规则进行挖掘的算法中没有提出对具有多个相关项的关联规则进行挖掘的有效方法,本文提出一种能够对低支持度关联规则的多个相关项进行有效挖掘的方法.算法基于相似度来衡量各个相关项的关联程度,在已有算法...  针对已有的对低支持度关联规则进行挖掘的算法中没有提出对具有多个相关项的关联规则进行挖掘的有效方法,本文提出一种能够对低支持度关联规则的多个相关项进行有效挖掘的方法.算法基于相似度来衡量各个相关项的关联程度,在已有算法的基础上增加了一次特殊的矩阵转换,从而将对项的相似度衡量方法进行了转换,转换后的矩阵可以基于Apriori性质来拓展多个相似相关项.算法在低支持度情况下具有较高的挖掘效率和良好的挖掘效果.算法还可以用来挖掘多个项之间的排斥规则. 展开更多
关键词 数据挖掘 关联规则 APRIORI性质 算法 矩阵转换 相似度
下载PDF
运用哈希技术进行关联规则挖掘
9
作者 高法钦 《河北建筑科技学院学报》 2002年第4期46-50,共5页
以前基于支持度一置信度框架的关联规则挖掘算法都是先用支持度做为阈值对搜索结果进行剪枝 ,产生频繁集 ,再针对频繁集产生关联规则 ,这就是频繁关联规则。然而在很多应用中 ,诸如 :鉴别相似的Web文件、网络中入侵检测等 ,有许多有趣... 以前基于支持度一置信度框架的关联规则挖掘算法都是先用支持度做为阈值对搜索结果进行剪枝 ,产生频繁集 ,再针对频繁集产生关联规则 ,这就是频繁关联规则。然而在很多应用中 ,诸如 :鉴别相似的Web文件、网络中入侵检测等 ,有许多有趣的关联规则仅有很少的支持度。在本文中 ,针对这种情况 ,提出了一种可以挖掘非频繁项之间有趣规则的算法 。 展开更多
关键词 哈希技术 数据挖掘 关联规则 置信度 相似度 网络 阈值 数据库
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部