-
题名近似最近邻搜索算法——位置敏感哈希
被引量:8
- 1
-
-
作者
高毫林
徐旭
李弼程
-
机构
信息工程大学
[
-
出处
《信息工程大学学报》
2013年第3期332-340,共9页
-
基金
国家自科学基金资助项目(60872142)
-
文摘
寻找查询点的最近邻是信息处理相关领域的主要任务之一。在数据规模较大时需要采用快速检索算法,常用的快速检索算法主要是基于树的算法,但是当数据点维数较高时,这些算法的效率会变低。位置敏感哈希是当前解决高维搜索的最快的算法,文章对汉明空间、欧式空间下的位置敏感哈希算法的实现方案进行了详细分析,对算法中数据点冲突概率、空间时间消耗、参数调整对算法性能的影响进行了详尽的研究和试验,最后讨论算法的优点和缺点,说明了算法应用于视觉聚类的可能性。
-
关键词
近似最近邻搜索
位置敏感哈希
精确欧式距离位置敏感哈希
视觉聚类
-
Keywords
approximate nearest neighbor(ANN)
locality sensitive Hashing(LSH)
exact euclide- an locality sensitive Hashing( E2LSH)
visual clustering
-
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
-
-
题名基于多级索引的高维数据近似最近邻搜索
被引量:4
- 2
-
-
作者
杨凤丽
李娜
刘仁芬
-
机构
石家庄铁道大学四方学院
-
出处
《计算机仿真》
北大核心
2022年第11期398-401,共4页
-
文摘
当前的高维数据最近邻搜索方法大多应用单级索引,导致近邻搜索稳定性较差,且时间开销较大。为此提出基于多级索引的高维数据近似最近邻搜索方法。利用二级距离敏感哈希算法(M2LSH)实现多级索引。将第一次哈希处理的高维数据输入哈希桶内,使用二次哈希映射桶号,使其在一维空间中呈现。依据各桶内数据量完成临近哈希桶合并,将新哈希桶作为候选搜索集合,实现高维数据近似最近邻搜索。实验结果表明:不同相邻桶距离下,所提算法优化后的近似比率均可保持在1左右,搜索效果大幅度提升,且稳定性较好;将该算法的哈希函数数量和哈希桶宽度分别设置为12、3,能获得更优异的搜索效果,并极大地节省时间开销,说明多级索引是处理高维数据近似最近邻问题的有效方法。
-
关键词
多级索引
高维数据
近似最近邻
距离敏感哈希
哈希桶
-
Keywords
Multi level index
High dimensional data
Approximate nearest neighbor
Distance sensitive hash
Hash bucket
-
分类号
TP311.3
[自动化与计算机技术—计算机软件与理论]
-