-
题名高维空间近邻检索的双层组合量化GPU加速算法
被引量:5
- 1
-
-
作者
邓理睿
包涵
陈靓
全成斌
赵有健
-
机构
清华大学计算机科学与技术系
中国石油勘探开发研究院
-
出处
《小型微型计算机系统》
CSCD
北大核心
2019年第2期390-394,共5页
-
基金
国家自然科学基金项目(61472210
61233007)资助
-
文摘
在大规模视频、图像、文本检索等许多实际应用中,高维空间内海量数据的索引及近邻检索一直是难点和关键问题之一.传统的K-D树等树形索引方法在高维空间中容易陷入"维度灾难",而主流的哈希散列方法(如局部敏感哈希)空间复杂度较高,在大规模数据下难以应用.本文总结了近年来基于向量量化的检索算法的相关研究,提出了一种基于GPU优化的高维数据近似近邻检索算法,在组合量化算法的基础上融合双层索引树结构与局部子空间最优化思想,在提高算法准确率的同时针对GPU模型优化算法,极大改善了检索性能,在单张GPU上实现了十亿量级高维数据的高效近似近邻检索.
-
关键词
近似近邻检索
组合量化
GPU
高维索引
-
Keywords
approximate nearest neighbor
composite quantization
GPU
high-dimension indexing
-
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
-
-
题名稠密向量实体检索模型的二值化提速压缩
被引量:1
- 2
-
-
作者
王苑铮
范意兴
陈薇
张儒清
郭嘉丰
-
机构
中国科学院计算技术研究所网络数据科学与技术重点实验室
中国科学院大学计算机科学与技术学院
-
出处
《模式识别与人工智能》
EI
CSCD
北大核心
2023年第1期60-69,共10页
-
基金
国家自然科学基金项目(No.61902381,62006218)
中国科学院青年创新促进会会员项目(No.20144310,2021100)
+1 种基金
中国科学技术协会青年人才托举工程项目(No.YESS20200121)
中国科学院计算技术研究所创新项目(No.E261090)资助。
-
文摘
在实体检索任务中,为了从大规模实体库中高效筛选与查询相关的候选实体,可使用稠密向量检索模型.然而在现有的稠密向量检索模型中,由于实体向量维度较高,导致实时计算效率较低、存储空间较大.文中通过实验发现这些实体向量存在大量的冗余信息:一方面,绝大多数实体向量分布在互不相同的象限里;另一方面,语义相近的实体所在的象限也更近.因此,文中提出二值化的实体检索方法,用于压缩实体向量,加速相似度计算.具体而言,方法利用符号函数(sign),二值化压缩高维稠密的浮点向量,并通过汉明距离加快检索.从理论上分析文中方法保证检索性能的原因.通过定性、定量的分析实验验证理论的正确性,并给出基于随机升维旋转的二值检索性能改善方法.
-
关键词
实体检索
嵌入式表示
稠密向量检索
近似近邻检索
乘积量化
-
Keywords
Entity Retrieval
Embedding Representation
Dense Vector Retrieval
Approximate Nearest Neighbor Retrieval
Product Quantization
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名开放环境多分布特性的局部敏感哈希检索方法
被引量:7
- 3
-
-
作者
张仕
赖会霞
肖如良
潘淼鑫
张路路
陈伟林
-
机构
福建师范大学计算机与网络空间安全学院
数字福建环境监测物联网实验室(福建师范大学)
福建省网络安全与密码技术重点实验室(福建师范大学)
-
出处
《软件学报》
EI
CSCD
北大核心
2022年第4期1200-1217,共18页
-
基金
国家自然科学基金(61772004)
福建省科技重大项目(2020H6011)
福建省自然科学基金(2020J01161)。
-
文摘
基于局部敏感哈希的检索方法能够较好地解决高维大规模数据的近似近邻检索问题.但在开放环境下针对多种分布特性时,迄今尚未有令人满意的解决方案.利用Laplacian算子对数据分布剧烈变化敏感的特性,提出一种具有全局性、适用于开放环境下多种分布特性的基于Laplacian算子的局部敏感哈希搜索方法(LPLSH).该方法把Laplacian算子应用于数据投影的概率密度分布,找到数据投影分布的剧烈变化位置作为超平面的偏移量.从理论上证明了精简维度的哈希函数能够保持局部敏感性及低投影密度区间分割的有效性,分析了利用Laplacian算子计算的二阶导数对超平面偏移量设置的指导意义.与其他8种方法对比,LPLSH算法的F1值是其他方法最优值的0.8倍-5倍,耗费时间也大幅减少.通过对具有多种分布特性数据集上的实验验证,结果表明:LPLSH方法能够同时兼顾效率、精度和召回率,可满足开放环境下多分布特性的大规模高维检索的鲁棒性需求.
-
关键词
开放环境
近似近邻检索
数据多分布特性
局部敏感哈希
数据检索
-
Keywords
open environment
nearest neighbor search
data multiple distributed characteristics
locality-sensitive hashing
data retrieval
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于随机森林的哈希检索算法
被引量:5
- 4
-
-
作者
花强
郭欣欣
张峰
董春茹
-
机构
河北大学河北省机器学习与计算智能重点实验室
-
出处
《计算机科学与探索》
CSCD
北大核心
2019年第7期1174-1183,共10页
-
基金
河北省自然科学基金面上项目Nos.F2018201115,F2018201096
河北省教育厅青年基金No.QN2017019
河北省教育厅科学技术研究重点项目No.ZD2019021~~
-
文摘
从海量数据中进行近似数据的检索是数据挖掘领域许多应用的关键。尤其近年来,数据的规模出现爆炸式增长,数据检索需面对海量数据和“维度灾难”的叠加考验,这使得传统最近邻算法效率降低,而近似最近邻算法发挥了越来越重要的作用。其中哈希算法以其在存储空间和计算时间上的优势受到了广泛关注。提出了一种基于随机森林的哈希算法。该算法通过构建随机森林,将原始空间的样本映射为海明空间的二进制哈希码,并在哈希空间上定义了顺序敏感的海明距离,以最大程度保持数据在原空间的近邻关系不变。由于随机森林中不同决策树所使用的特征空间和学习过程是独立的,可以以增量的方式灵活地确定哈希码的长度。此外基于随机森林的哈希编码算法天然适合并行部署,从而可以大大提高算法速度。最后,在MNIST和CIFAR-10数据集对所提算法进行了实验验证,结果表明了算法的有效性和出色性能。
-
关键词
近似近邻检索(ANNS)
哈希编码
随机森林
顺序敏感的海明距离
-
Keywords
approximate nearest neighbor search (ANNS)
Hashing code
random forest
order-sensitive Hamming distance
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-
-
题名基于卷积神经网络和监督核哈希的图像检索方法
被引量:36
- 5
-
-
作者
柯圣财
赵永威
李弼程
彭天强
-
机构
解放军信息工程大学信息系统工程学院
武警工程大学电子技术系
河南工程学院计算机学院
-
出处
《电子学报》
EI
CAS
CSCD
北大核心
2017年第1期157-163,共7页
-
基金
国家自然科学基金(No.60872142
No.61301232)
-
文摘
当前主流的图像检索方法采用的视觉特征,缺乏自主学习能力,导致其图像表达能力不强,此外,传统的特征索引方法检索效率较低,难以适用于大规模图像数据.针对这些问题,本文提出了一种基于卷积神经网络和监督核哈希的图像检索方法.首先,利用卷积神经网络的学习能力挖掘训练图像内容的内在隐含关系,提取图像深层特征,增强特征的视觉表达能力和区分性;然后,利用监督核哈希方法对高维图像深层特征进行监督学习,并将高维特征映射到低维汉明空间中,生成紧致的哈希码;最后,在低维汉明空间中完成对大规模图像数据的有效检索.在Image Net-1000和Caltech-256数据集上的实验结果表明,本文方法能够有效地增强图像特征的表达能力,提高图像检索效率,优于当前主流方法.
-
关键词
深度学习
图像检索
卷积神经网络
近似近邻检索
监督核哈希
-
Keywords
deep learning
image retrieval
convolutional neural network
approximate nearest neighbor
kernel-based supervised Hashing
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于改进局部敏感哈希的协同过滤推荐算法
- 6
-
-
作者
曹界杰
张娟
-
机构
上海工程技术大学电子电气工程学院
-
出处
《软件》
2021年第5期151-156,共6页
-
文摘
传统推荐系统中存在用户评分数据高维稀疏、分布不均匀和传统用户相似度计算准确性低等问题,本文提出一种基于改进局部敏感哈希的协同过滤算法。首先利用改进局部敏感哈希算法对用户评分数据进行降维处理并构建索引,并使用相似度修正系数对用户相似度计算做出改进;然后利用索引敏捷切确地计算目标对象的近邻用户集合;之后选择近邻用户聚集的高相似度用户,使用加权算法对目标对象未评分项目进行评定预估。实验结果表明,对于非均匀用户评分数据的高维稀疏问题,该算法不仅能明显缩短近邻用户检索时间,且能有效提高推荐精度。
-
关键词
推荐系统
协同过滤
局部敏感哈希算法
相似性度量
近似近邻检索
-
Keywords
recommendation system
collaborative filtering
locality-sensitive hashing algorithm
similarity measurement
approximate nearest neighbor search
-
分类号
TP391.3
[自动化与计算机技术—计算机应用技术]
-