在目标检索领域,当前主流的解决方案是视觉词典法(Bag of Visual Words,BoVW),然而,传统的BoVW方法具有时间效率低、内存消耗大以及视觉单词同义性和歧义性的问题。针对以上问题,该文提出了一种基于随机化视觉词典组和查询扩展的目标检...在目标检索领域,当前主流的解决方案是视觉词典法(Bag of Visual Words,BoVW),然而,传统的BoVW方法具有时间效率低、内存消耗大以及视觉单词同义性和歧义性的问题。针对以上问题,该文提出了一种基于随机化视觉词典组和查询扩展的目标检索方法。首先,该方法采用精确欧氏位置敏感哈希(Exact Euclidean LocalitySensitive Hashing,E2LSH)对训练图像库的局部特征点进行聚类,生成一组支持动态扩充的随机化视觉词典组;然后,基于这组词典构建视觉词汇分布直方图和索引文件;最后,引入一种查询扩展策略完成目标检索。实验结果表明,与传统方法相比,该文方法有效地增强了目标对象的可区分性,能够较大地提高目标检索精度,同时,对大规模数据库有较好的适用性。展开更多
传统词袋(bag of words,BoW)模型在构造视觉词典时一般采用k-means聚类方法实现,但k-means聚类方法的性能在很大程度上依赖于初始点的选择,从而导致生成的视觉词典鲁棒性较差,此外,每次迭代都要计算数据点与中心点的距离,计算复杂度高...传统词袋(bag of words,BoW)模型在构造视觉词典时一般采用k-means聚类方法实现,但k-means聚类方法的性能在很大程度上依赖于初始点的选择,从而导致生成的视觉词典鲁棒性较差,此外,每次迭代都要计算数据点与中心点的距离,计算复杂度高。针对上述问题,提出了一种改进的k-means聚类视觉词典构造方法,该方法首先对初始值的选取进行了优化,克服了随机选取初始值对聚类性能的影响,其次基于三角形不等式对计算进行了简化,使生成的视觉词典更加稳定,计算复杂度更低,最后引入权值分布对图像进行基于视觉词典的表示,并将基于改进的视觉词典的词袋模型应用于图像分类,提高了分类性能。通过在Caltech 101和Caltech 256两个数据库进行实验,验证了本文方法的有效性,并分析了词典库大小对分类性能的影响。从实验结果可以看出,采用本文方法所得到的分类正确率提高了5%~8%。展开更多
视觉词典树是通过视觉词袋(Bag of Visual Words,Bo VW)模型将一组图像形成单词表征场景。它主要通过聚类算法构造视觉词典树,为了改进K-Means在寻找聚类中心的过程中受到噪声异常维度的干扰,基于K中心算法提出了一种分层视觉词典树构...视觉词典树是通过视觉词袋(Bag of Visual Words,Bo VW)模型将一组图像形成单词表征场景。它主要通过聚类算法构造视觉词典树,为了改进K-Means在寻找聚类中心的过程中受到噪声异常维度的干扰,基于K中心算法提出了一种分层视觉词典树构造方法。该方法提出了从每次迭代后的聚类特征点中随机地选取新的中心点,可避免因噪声异常维度使计算中心点位置时有较大误差,从而可提高聚类质量,使类簇更加紧凑。在图像的分类实验中,分别使用K-Means和K中心算法对构建的视觉词典树进行性能评价,实验结果证明通过K中心算法构造的分层视觉词典树可有效提高图像分类准确率。展开更多
同时定位与建图(Simultaneous Localization and Mapping,SLAM)是机器人领域的研究热点,被认为是实现机器人自主运动的关键。传统的基于RGB-D摄像头的SLAM算法(RGB-D SLAM)采用SIFT(Scale-Invariant Feature Transform)特征描述符来计...同时定位与建图(Simultaneous Localization and Mapping,SLAM)是机器人领域的研究热点,被认为是实现机器人自主运动的关键。传统的基于RGB-D摄像头的SLAM算法(RGB-D SLAM)采用SIFT(Scale-Invariant Feature Transform)特征描述符来计算相机位姿,采用GPU加速的siftGPU算法克服SITF特征提取慢的缺点,但多数嵌入式设备缺乏足够的GPU运算能力,使其应用性受到局限。此外,常规算法在闭环检测时效率较低,实时性不强。针对上述问题,提出了一种结合ORB(oriented FAST and rotated BRIEF)特征与视觉词典的SLAM算法。在算法前端,首先提取相邻图像的ORB特征,然后利用k近邻(k-Nearest Neighbor,kNN)匹配找到对应的最临近与次临近匹配,接着采用比值检测与交叉检测剔除误匹配点,最后采用改进的PROSAC-PnP(Progressive Sample Consensus based Perspective-N-Point)算法进行相机姿态计算,得到对相机位姿的高精度估计。在后端,提出了一种基于视觉词典的闭环检测算法来消除机器人运动中的累计误差。通过闭环检测增加帧间约束,利用通用图优化工具进行位姿图优化,得到全局一致的相机位姿与点云。通过对标准fr1数据集的测试和对比,表明了该算法具有较强的鲁棒性。展开更多
当前视觉词袋(Bag of Visual Word,Bo VW)模型中的视觉词典均由k-means及其改进算法在原始局部特征描述子上聚类生成,但随着图像数据的迅速增长,在原始局部特征空间中进行聚类存在着运行时间较长和占用内存较大的问题.针对着这些问题,...当前视觉词袋(Bag of Visual Word,Bo VW)模型中的视觉词典均由k-means及其改进算法在原始局部特征描述子上聚类生成,但随着图像数据的迅速增长,在原始局部特征空间中进行聚类存在着运行时间较长和占用内存较大的问题.针对着这些问题,提出了一种基于视觉词典和位置敏感哈希的图像检索方法.首先,选择合适的生成二进制哈希码的哈希算法,将局部特征点保持相似性地映射为二进制哈希码.然后,在二进制哈希码上进行k-means,生成视觉词为二进制码的视觉词典.最后,用视觉单词的词频向量表示图像内容,根据词频向量对图像进行检索.在SIFT-1M和Caltech-256数据集上的实验结果表明,本方法可以缩短视觉词典生成的时间,占用更少的存储空间,与传统的基于k-means的视觉词典算法相比,图像检索性能基本不变.展开更多
文摘传统词袋(bag of words,BoW)模型在构造视觉词典时一般采用k-means聚类方法实现,但k-means聚类方法的性能在很大程度上依赖于初始点的选择,从而导致生成的视觉词典鲁棒性较差,此外,每次迭代都要计算数据点与中心点的距离,计算复杂度高。针对上述问题,提出了一种改进的k-means聚类视觉词典构造方法,该方法首先对初始值的选取进行了优化,克服了随机选取初始值对聚类性能的影响,其次基于三角形不等式对计算进行了简化,使生成的视觉词典更加稳定,计算复杂度更低,最后引入权值分布对图像进行基于视觉词典的表示,并将基于改进的视觉词典的词袋模型应用于图像分类,提高了分类性能。通过在Caltech 101和Caltech 256两个数据库进行实验,验证了本文方法的有效性,并分析了词典库大小对分类性能的影响。从实验结果可以看出,采用本文方法所得到的分类正确率提高了5%~8%。
文摘视觉词典树是通过视觉词袋(Bag of Visual Words,Bo VW)模型将一组图像形成单词表征场景。它主要通过聚类算法构造视觉词典树,为了改进K-Means在寻找聚类中心的过程中受到噪声异常维度的干扰,基于K中心算法提出了一种分层视觉词典树构造方法。该方法提出了从每次迭代后的聚类特征点中随机地选取新的中心点,可避免因噪声异常维度使计算中心点位置时有较大误差,从而可提高聚类质量,使类簇更加紧凑。在图像的分类实验中,分别使用K-Means和K中心算法对构建的视觉词典树进行性能评价,实验结果证明通过K中心算法构造的分层视觉词典树可有效提高图像分类准确率。
文摘同时定位与建图(Simultaneous Localization and Mapping,SLAM)是机器人领域的研究热点,被认为是实现机器人自主运动的关键。传统的基于RGB-D摄像头的SLAM算法(RGB-D SLAM)采用SIFT(Scale-Invariant Feature Transform)特征描述符来计算相机位姿,采用GPU加速的siftGPU算法克服SITF特征提取慢的缺点,但多数嵌入式设备缺乏足够的GPU运算能力,使其应用性受到局限。此外,常规算法在闭环检测时效率较低,实时性不强。针对上述问题,提出了一种结合ORB(oriented FAST and rotated BRIEF)特征与视觉词典的SLAM算法。在算法前端,首先提取相邻图像的ORB特征,然后利用k近邻(k-Nearest Neighbor,kNN)匹配找到对应的最临近与次临近匹配,接着采用比值检测与交叉检测剔除误匹配点,最后采用改进的PROSAC-PnP(Progressive Sample Consensus based Perspective-N-Point)算法进行相机姿态计算,得到对相机位姿的高精度估计。在后端,提出了一种基于视觉词典的闭环检测算法来消除机器人运动中的累计误差。通过闭环检测增加帧间约束,利用通用图优化工具进行位姿图优化,得到全局一致的相机位姿与点云。通过对标准fr1数据集的测试和对比,表明了该算法具有较强的鲁棒性。
文摘当前视觉词袋(Bag of Visual Word,Bo VW)模型中的视觉词典均由k-means及其改进算法在原始局部特征描述子上聚类生成,但随着图像数据的迅速增长,在原始局部特征空间中进行聚类存在着运行时间较长和占用内存较大的问题.针对着这些问题,提出了一种基于视觉词典和位置敏感哈希的图像检索方法.首先,选择合适的生成二进制哈希码的哈希算法,将局部特征点保持相似性地映射为二进制哈希码.然后,在二进制哈希码上进行k-means,生成视觉词为二进制码的视觉词典.最后,用视觉单词的词频向量表示图像内容,根据词频向量对图像进行检索.在SIFT-1M和Caltech-256数据集上的实验结果表明,本方法可以缩短视觉词典生成的时间,占用更少的存储空间,与传统的基于k-means的视觉词典算法相比,图像检索性能基本不变.