局部敏感哈希算法需要生成足够长的哈希码才能达到理想的检索精度,这导致哈希码携带了大量冗余信息。针对该问题,本文提出一种面向长局部敏感哈希码的压缩编码算法(Compression Coding for Locality-Sensitive Hashing,CCLSH)。该算法...局部敏感哈希算法需要生成足够长的哈希码才能达到理想的检索精度,这导致哈希码携带了大量冗余信息。针对该问题,本文提出一种面向长局部敏感哈希码的压缩编码算法(Compression Coding for Locality-Sensitive Hashing,CCLSH)。该算法基于哈希位的平衡性、相似性结构保留能力和互信息设计了哈希位质量与相关性度量准则,通过融合上述两个准则去除长哈希码中低质量且具有高相关性的冗余哈希位,实现无损压缩的目的。在三个基准数据集上的实验结果表明,CCLSH所压缩的哈希码在检索性能上与原长哈希码保持一致,同时压缩率都达到了90%以上。此外,与经典的压缩和哈希算法相比,该算法展现出更优秀的检索性能。展开更多
文摘局部敏感哈希算法需要生成足够长的哈希码才能达到理想的检索精度,这导致哈希码携带了大量冗余信息。针对该问题,本文提出一种面向长局部敏感哈希码的压缩编码算法(Compression Coding for Locality-Sensitive Hashing,CCLSH)。该算法基于哈希位的平衡性、相似性结构保留能力和互信息设计了哈希位质量与相关性度量准则,通过融合上述两个准则去除长哈希码中低质量且具有高相关性的冗余哈希位,实现无损压缩的目的。在三个基准数据集上的实验结果表明,CCLSH所压缩的哈希码在检索性能上与原长哈希码保持一致,同时压缩率都达到了90%以上。此外,与经典的压缩和哈希算法相比,该算法展现出更优秀的检索性能。