期刊文献+
共找到25篇文章
< 1 2 >
每页显示 20 50 100
ViTH:面向医学图像检索的视觉Transformer哈希改进算法
1
作者 刘传升 丁卫平 +2 位作者 程纯 黄嘉爽 王海鹏 《西南大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第5期11-26,共16页
对海量的医学图像进行有效检索会给医学诊断和治疗带来极其重要的意义.哈希方法是图像检索领域中的一种主流方法,但在医学图像领域的应用相对较少.针对此,提出一种面向医学图像检索的视觉Transformer哈希改进算法.首先使用视觉Transfor... 对海量的医学图像进行有效检索会给医学诊断和治疗带来极其重要的意义.哈希方法是图像检索领域中的一种主流方法,但在医学图像领域的应用相对较少.针对此,提出一种面向医学图像检索的视觉Transformer哈希改进算法.首先使用视觉Transformer模型作为基础的特征提取模块,其次在Transformer编码器的前、后端分别加入幂均值变换(Power-Mean Transformation,PMT),进一步增强模型的非线性性能,接着在Transformer编码器内部的多头注意力(Multi-Head Attention,MHA)层引入空间金字塔池化(Spatial Pyramid Pooling,SPP)形成多头空间金字塔池化注意力(Multi-Head Spatial Pyramid Pooling Attention,MHSPA)模块,该模块不仅可以提取全局的上下文特征,而且可以提取多尺度的局部上下文特征,并将不同尺度的特征进行融合.最后在输出幂均值变换层之后将提取到的特征分别通过两个多层感知机(Multi-Layer Perceptrons,MLPs),上分支的MLP用来预测图像的类别,下分支的MLP用来学习图像的哈希码.在损失函数部分,充分考虑了成对损失、量化损失、平衡损失以及分类损失来优化整个模型.在医学图像数据集ChestX-ray14和ISIC 2018上的实验结果表明,该研究所提出的算法相比于经典的哈希算法具有更好的检索效果. 展开更多
关键词 医学图像检索 视觉Transformer 哈希 幂均值变换 空间金字塔池化
下载PDF
基于Hash改进的k-means算法并行化设计 被引量:5
2
作者 张波 徐蔚鸿 +1 位作者 陈沅涛 朱玲 《计算机工程与科学》 CSCD 北大核心 2016年第10期1980-1985,共6页
为了解决k-means算法在Hadoop平台下处理海量高维数据时聚类效果差,以及已有的改进算法不利于并行化等问题,提出了一种基于Hash改进的并行化方案。将海量高维的数据映射到一个压缩的标识空间,进而挖掘其聚类关系,选取初始聚类中心,避免... 为了解决k-means算法在Hadoop平台下处理海量高维数据时聚类效果差,以及已有的改进算法不利于并行化等问题,提出了一种基于Hash改进的并行化方案。将海量高维的数据映射到一个压缩的标识空间,进而挖掘其聚类关系,选取初始聚类中心,避免了传统k-means算法对随机选取初始聚类中心的敏感性,减少了k-means算法的迭代次数。又结合MapReduce框架将算法整体并行化,并通过Partition、Combine等机制加强了并行化程度和执行效率。实验表明,该算法不仅提高了聚类的准确率和稳定性,同时具有良好的处理速度。 展开更多
关键词 海量数据 HADOOP HASH 并行k-means聚类 中心选取
下载PDF
关于对图像哈希算法的研究与应用 被引量:5
3
作者 姚永明 杨纯 +1 位作者 吴凌燕 沈烨 《西安文理学院学报(自然科学版)》 2016年第5期30-33,共4页
传统的基于文本的检索方式无法精确地搜索图片,因此基于图像内容的检索技术应运而生.它利用图像哈希算法提取图像特征,通过量化压缩等方法产生一个标明图像指纹的哈希序列,对比哈希序列即可判定两张图像的相似度.主要从图像哈希算法的... 传统的基于文本的检索方式无法精确地搜索图片,因此基于图像内容的检索技术应运而生.它利用图像哈希算法提取图像特征,通过量化压缩等方法产生一个标明图像指纹的哈希序列,对比哈希序列即可判定两张图像的相似度.主要从图像哈希算法的定义、原理、特点、应用等方面进行研究,并着重介绍和对比a Hash算法及p Hash算法. 展开更多
关键词 均值哈希算法 感知哈希算法 哈希算法 图片相似搜索
下载PDF
快速非局部均值的CT图像去噪算法 被引量:1
4
作者 康长青 曹文平 +2 位作者 方磊 华丽 程虹 《南方医科大学学报》 CAS CSCD 北大核心 2012年第11期1606-1609,共4页
针对CT图像的单一色彩性,利用已有的医疗档案图像,提出一种快速非局部均值的图像去噪算法。算法分预处理阶段和实际处理阶段。预处理阶段采用位置敏感性哈希的数据结构建立图像的样本邻域数据库。在实际处理阶段,利用位置敏感性的快速... 针对CT图像的单一色彩性,利用已有的医疗档案图像,提出一种快速非局部均值的图像去噪算法。算法分预处理阶段和实际处理阶段。预处理阶段采用位置敏感性哈希的数据结构建立图像的样本邻域数据库。在实际处理阶段,利用位置敏感性的快速检索结果,采用NLM算法进行图像去噪。实验表明,与NLM相比,提出的算法能大大节约计算时间,而且能够有效保存图像边缘和细节。 展开更多
关键词 非局部均值 样本邻域 位置敏感性哈希国 CT图像
下载PDF
基于双向生成对抗网络的图像感知哈希算法 被引量:3
5
作者 马宾 王一利 +3 位作者 徐健 王春鹏 李健 周琳娜 《电子学报》 EI CAS CSCD 北大核心 2023年第5期1405-1412,共8页
本文提出一种基于双向生成对抗网络(Bidirectional Generative Adversarial Network, BiGAN)的无监督感知哈希生成算法,通过编码网络、生成网络和判别网络间的双向迭代对抗,生成具有较强图像语义特征表示能力的感知哈希码.本算法通过在... 本文提出一种基于双向生成对抗网络(Bidirectional Generative Adversarial Network, BiGAN)的无监督感知哈希生成算法,通过编码网络、生成网络和判别网络间的双向迭代对抗,生成具有较强图像语义特征表示能力的感知哈希码.本算法通过在编码网络和生成网络间添加跳接层网络结构,将原始图像不同维度的特征信息传递到生成网络,提高生成图像语义学习能力与网络收敛速度;同时,在对抗损失中添加均方误差(Mean Sequare Error, MSE)损失,增强生成图像的视觉质量与细节表示能力.最后,基于网络间的多重迭代对抗训练,输出兼备相同来源图像鲁棒性和不同来源图像区分性的高性能图像感知哈希码.本研究首次采用大型图像数据库进行算法性能评价,实验结果表明,基双向生成对抗网络的感知哈希生成算法与当前其他最新研究方案相比具有更强的版权认证与来源检测能力. 展开更多
关键词 感知哈希 生成对抗网络 均方误差 来源检测 哈希码 图像内容认证
下载PDF
在线密度敏感哈希算法研究 被引量:2
6
作者 王星 于江旭 +1 位作者 唐晓亮 闫慧斌 《小型微型计算机系统》 CSCD 北大核心 2018年第5期1068-1073,共6页
哈希算法在大规模的数据检索中得到了越来越广泛的应用,但目前无论是基于学习的哈希还是基于随机投影的哈希都是为静态数据集设计的,无法对动态的数据库或者动态的网页进行近邻搜索.为了解决这一问题,本文提出了基于在线k均值聚类的密... 哈希算法在大规模的数据检索中得到了越来越广泛的应用,但目前无论是基于学习的哈希还是基于随机投影的哈希都是为静态数据集设计的,无法对动态的数据库或者动态的网页进行近邻搜索.为了解决这一问题,本文提出了基于在线k均值聚类的密度敏感哈希算法ODSH(Online Density Sensitive Hash).首先给出了固定聚类个数的在线k均值聚类公式;然后,根据在线k均值聚类量化后数据簇的表示点来划定超平面,并根据动态超平面推出该哈希算法的哈希函数以及对应的投影向量;最后根据投影向量划分的数据集求得各投影向量的信息熵值,根据其大小选出最合适的投影向量,并通过投影向量对数据集进行映射来获取对应的哈希编码.实验结果表明,与局部敏感哈希、谱哈希等哈希算法相比,本文算法在准确性和效率上均具有一定的优势. 展开更多
关键词 哈希算法 在线k均值聚类 ODSH 信息熵 投影向量
下载PDF
基于双向生成对抗网络的感知哈希图像内容取证算法 被引量:1
7
作者 马宾 王一利 +4 位作者 徐健 王春鹏 李健 周琳娜 施云庆 《计算机学报》 EI CAS CSCD 北大核心 2023年第12期2551-2572,共22页
传统的感知哈希算法通过提取图像特定属性生成感知哈希序列,难以充分利用原始图像全部特征信息,影响了基于感知哈希的图像内容认证与版权保护能力.本文提出一种基于双向生成对抗网络(Bidirectional Generative Adversarial Network,BiG... 传统的感知哈希算法通过提取图像特定属性生成感知哈希序列,难以充分利用原始图像全部特征信息,影响了基于感知哈希的图像内容认证与版权保护能力.本文提出一种基于双向生成对抗网络(Bidirectional Generative Adversarial Network,BiGAN)的无监督感知哈希图像内容取证算法,基于编码网络、生成网络和判别网络间的双向迭代对抗,生成具有较强图像语义特征表示能力的感知哈希码;并通过在编码网络和生成网络间添加跳接层网络结构,将原始图像不同维度的特征信息传递到生成网络,提高生成网络语义特征学习能力与网络收敛速度;同时,在对抗损失中添加MSE误差损失,增强生成图像的视觉质量与细节表示能力;最后,基于网络间的多重迭代与对抗训练,输出兼具相同内容图像认证鲁棒性和不同内容图像区分敏感性的高性能图像感知哈希码.本研究首次采用大型图像数据库进行算法性能评价,实验结果表明基于双向生成对抗网络的感知哈希图像内容取证算法与当前其他优秀研究方案相比具有更强的图像内容取证性能. 展开更多
关键词 图像取证 生成对抗网络 感知哈希 跳接 均方误差
下载PDF
基于深度卷积神经网络与哈希的图像检索 被引量:5
8
作者 冯兴杰 程毅玮 《计算机工程与设计》 北大核心 2020年第3期670-675,共6页
为解决当前流行的哈希检索方法生成的哈希码存在信息冗余,不能很好地保留图像语义相似性等问题,提出一种基于深度卷积神经网络来学习二进制哈希编码的方法。利用深度卷积神经网络提取图像的特征表示;将来自两个完全连接层的图像特征表... 为解决当前流行的哈希检索方法生成的哈希码存在信息冗余,不能很好地保留图像语义相似性等问题,提出一种基于深度卷积神经网络来学习二进制哈希编码的方法。利用深度卷积神经网络提取图像的特征表示;将来自两个完全连接层的图像特征表示输入到哈希层,将分类误差以及阈值误差添加到损失函数中进行训练;将查询图像输入模型得到对应的哈希码。在CIFAR-10和NUS-WIDE两个数据集上进行实验,实验结果表明,所提方法在检索精度方面优于其它现有哈希方法。 展开更多
关键词 图像检索 哈希 深度卷积神经网络 信息冗余 均值平均精度
下载PDF
基于随机局部均值Hash特征的在线学习目标跟踪 被引量:3
9
作者 吴盈 刘哲 +1 位作者 陈恳 吉培培 《计算机工程与应用》 CSCD 北大核心 2016年第14期209-214,260,共7页
在局部遮挡,光线变化,以及复杂背景环境下进行有效稳定的目标跟踪一直是一个长期困扰研究者的复杂问题。提出一种基于随机局部均值Hash特征的在线学习目标跟踪算法,算法的创新点为基于泊松概率分布的目标模型建立及其在线更新。算法首... 在局部遮挡,光线变化,以及复杂背景环境下进行有效稳定的目标跟踪一直是一个长期困扰研究者的复杂问题。提出一种基于随机局部均值Hash特征的在线学习目标跟踪算法,算法的创新点为基于泊松概率分布的目标模型建立及其在线更新。算法首先利用已标定实际位置的目标图像来初始化目标模型及构建初始分类器池,由此求出下一帧的检测算子,同时基于多实例在线学习方法,利用检测到的目标样本(正样本)以及附近的背景样本(负样本)在线更新目标模型,求出新的检测算子用于后续帧的目标检测及跟踪。提出的算法与现有基于检测学习的Online Boosting Tracker,Semi Tracker,Beyond Semi Tracker,Context Tracker和MILTracker跟踪算法在给定的四个标准视频序列中进行了跟踪性能比较。实验结果表明,在各种复杂环境下,该算法具备良好的综合跟踪性能,尤其在抗局部遮挡方面尤为突出。在抗目标旋转方面,该算法仍有待优化。 展开更多
关键词 均值Hash 多实例学习 在线学习 目标检测与跟踪 分类器
下载PDF
基于红外热成像的电气设备组件识别研究 被引量:16
10
作者 曾军 王东杰 +2 位作者 范伟 刘滨滨 赵洪山 《红外技术》 CSCD 北大核心 2021年第7期679-687,共9页
常见的电力设备有变压器、开关柜、断路器等,这些设备都由多个组件构成。通过这类设备的红外热成像实现了对其组件的识别。基于红外热成像信息量较少的特点,采用多种算法融合。首先是基于Lab模型采用改进的K-means聚类和形态学的结合,... 常见的电力设备有变压器、开关柜、断路器等,这些设备都由多个组件构成。通过这类设备的红外热成像实现了对其组件的识别。基于红外热成像信息量较少的特点,采用多种算法融合。首先是基于Lab模型采用改进的K-means聚类和形态学的结合,提取红外图像中的高温区域,充分保证了效率和可靠性。其次采用改进的SURF(speeded-up robust features)和感知哈希算法的结合,确定被提取区域中的三相组件。SURF的作用是将已知的电气设备可见光图像和被提取区域中所有的图像进行对比,找出红外图像中特征点匹配最多的区域。将其和其他红外区域进行对比,通过感知哈希算法找到其他区域中匹配度最高的两个区域,以此定位出红外图像中的三相组件。此研究适用于大量红外图像数据的识别定位,为基于红外成像的电气设备故障信息提取提供思路。 展开更多
关键词 图像处理 红外热成像 K-MEANS SURF 感知哈希算法
下载PDF
基于运动筛选和3D卷积的视频早期烟雾检测 被引量:2
11
作者 高联欣 魏维 +1 位作者 胡泳植 冯宇浩 《计算机工程与应用》 CSCD 北大核心 2020年第17期266-272,共7页
针对基于视频的早期烟雾检测在复杂环境下的高误报和高漏检问题,提出了一种基于运动筛选疑似区域的方法并设计了一个输入为6帧图片的多尺度3D卷积神经网络(6M3DC)来进行视频烟雾检测的算法。将视频帧进行均值滤波后通过背景差分模型获... 针对基于视频的早期烟雾检测在复杂环境下的高误报和高漏检问题,提出了一种基于运动筛选疑似区域的方法并设计了一个输入为6帧图片的多尺度3D卷积神经网络(6M3DC)来进行视频烟雾检测的算法。将视频帧进行均值滤波后通过背景差分模型获取运动区域并计算获得区域所在块,通过颜色判断和均值HASH算法对运动块进行筛选提取疑似块并将不符合条件的块更新到背景图。通过组合连续6帧相同区域的疑似块输入多尺度3D卷积神经网络进行检测,将检测为烟雾的块标记,非烟雾块更新到背景图。实验结果表明,算法对缓慢运动的烟雾有一定的适应性,可以较好地在复杂环境下检测出烟雾。 展开更多
关键词 早期烟雾 颜色判断 均值HASH 多尺度3D卷积
下载PDF
基于卷积神经网络和二进制K-means的图像快速聚类 被引量:2
12
作者 柯圣财 李弼程 +2 位作者 唐永旺 吴志兵 万建平 《数据采集与处理》 CSCD 北大核心 2017年第5期970-979,共10页
当前主流的图像聚类方法采用的视觉特征缺乏自主学习能力,导致其图像表达能力不强,而且传统的聚类算法计算复杂度较高,聚类效率低,难以适应大数据环境。针对这些问题,本文提出了一种基于卷积神经网络和二进制K-means的图像快速聚类方法... 当前主流的图像聚类方法采用的视觉特征缺乏自主学习能力,导致其图像表达能力不强,而且传统的聚类算法计算复杂度较高,聚类效率低,难以适应大数据环境。针对这些问题,本文提出了一种基于卷积神经网络和二进制K-means的图像快速聚类方法。首先,利用卷积神经网络学习图像内容的内在隐含关系,得到图像高阶特征,增强特征的视觉表达能力和区分性;然后,利用哈希方法将高维图像特征映射为低维二进制哈希码,并通过对聚类中心构造多索引哈希表来加速寻找最近的聚类中心,以降低时间复杂度;最后,利用二进制K-means完成二进制哈希码的快速聚类。在ImageNet-1000图像集上的实验结果表明,本文方法能够有效地增强图像特征的表达能力、提高图像聚类效率、性能优于当前主流方法。 展开更多
关键词 深度学习 图像聚类 卷积神经网络 二进制K-means 多索引哈希
下载PDF
面向海量病毒样本家族聚类方法的研究
13
作者 赵跃华 林聚伟 《计算机工程与应用》 CSCD 2014年第18期118-121,共4页
计算机反病毒厂商每天接收成千上万的病毒样本,如何快速有效地将这些海量样本家族化是一个亟待解决的问题。提出了一种可伸缩性的聚类方法,面对输入海量的病毒样本向量化特征集,使用局部敏感哈希索引技术进行初次快速聚类,使用扩展K均... 计算机反病毒厂商每天接收成千上万的病毒样本,如何快速有效地将这些海量样本家族化是一个亟待解决的问题。提出了一种可伸缩性的聚类方法,面对输入海量的病毒样本向量化特征集,使用局部敏感哈希索引技术进行初次快速聚类,使用扩展K均值算法进行二次细致聚类。实验表明该聚类方法在有限牺牲准确度的情况下,大为提高了病毒聚类的时间效率。 展开更多
关键词 病毒家族 可伸缩性聚类 局部敏感哈希 扩展K均值
下载PDF
关于对哈希算法的研究与应用 被引量:4
14
作者 黄云轲 辛小龙 +1 位作者 李成龙 李聿民 《计算机光盘软件与应用》 2012年第3期201-201,199,共2页
随着科学技术的不断发展,许多新的算法在各个领域中有了进一步的应用,其中技术较为先进的哈希算法,以其独特的计算方式受到了广泛的应用。本文主要从哈希算法的定义、特点、原理、应用等方面展开了深入的研究,供大家讨论研究。
关键词 哈希算法 含义 原理 方式 应用
下载PDF
高光谱遥感影像完整性认证感知哈希算法 被引量:2
15
作者 王昊 张黎明 +1 位作者 张鑫港 刘明轩 《遥感信息》 CSCD 北大核心 2021年第3期85-92,共8页
针对高光谱遥感影像在传输及分发过程中影像内容完整性难以得到保障的问题,提出一种顾及光谱信息的高光谱影像内容完整性认证算法。鉴于高光谱影像中丰富的光谱信息,首先,对影像进行格网划分,对每个格网运用K-均值分类,并对分类结果进... 针对高光谱遥感影像在传输及分发过程中影像内容完整性难以得到保障的问题,提出一种顾及光谱信息的高光谱影像内容完整性认证算法。鉴于高光谱影像中丰富的光谱信息,首先,对影像进行格网划分,对每个格网运用K-均值分类,并对分类结果进行直方图统计,进而从直方图统计的结果中提取影像的光谱信息;然后,计算影像的高阶Zernike矩,提取格网影像的空间纹理信息;最后,结合光谱信息与空间纹理信息生成每个格网影像的感知哈希序列。分析结果表明,该算法可以实现对高光谱影像局部地物恶意篡改的定位,同时对常见的部分内容保持操作具有较好的鲁棒性,为高光谱影像的内容完整性认证提供了一种新的思路与方法,进一步保障了高光谱影像的实际使用价值。 展开更多
关键词 高光谱遥感影像 完整性认证 K-均值 ZERNIKE矩 感知哈希 篡改定位
下载PDF
基于仿射不变离散哈希的遥感图像多目标分类 被引量:6
16
作者 孔颉 孙权森 +2 位作者 徐晖 刘亚洲 纪则轩 《软件学报》 EI CSCD 北大核心 2019年第4期914-926,共13页
遥感图像的多目标分类是一个具有挑战性的课题.首先,由于数据的复杂性以及算法对存储的高需求,传统分类方法很难兼顾到分类的精度和速度;其次,遥感成像过程中产生的仿射变换,使得目标的快速解译难以实现.为此,提出一种基于仿射不变离散... 遥感图像的多目标分类是一个具有挑战性的课题.首先,由于数据的复杂性以及算法对存储的高需求,传统分类方法很难兼顾到分类的精度和速度;其次,遥感成像过程中产生的仿射变换,使得目标的快速解译难以实现.为此,提出一种基于仿射不变离散哈希(AIDH)的遥感图像多目标分类方法.该方法采用具有低存储、高效率优势的监督离散哈希框架,结合仿射不变优化因子,构造仿射不变离散哈希,通过将具有相同语义信息的仿射变换样本约束到相似的二值码空间实现分类精度的提高.实验结果表明,在NWPU VHR-10和RSDO-dataset两个数据集下,相比于经典的哈希方法和分类方法,所提方法在具备了高效性的同时,其精度也得到了保证. 展开更多
关键词 遥感 监督哈希 仿射不变性 多目标分类 平均分类精度
下载PDF
Hash查找法在KeilC51中的实现
17
作者 高玉 曹婷婷 《江西科学》 2005年第5期609-611,共3页
散列(hash)是一种重要的存储方法,也是一种常见的查找方法。它是指在记录的存储位置和它的关键字之间建立一个确定的对应关系。本文以射频卡门禁控制器为例,说明用射频卡卡号作为关键字,用Hash查找法确定此卡能否开门,并给出对应的Ke il... 散列(hash)是一种重要的存储方法,也是一种常见的查找方法。它是指在记录的存储位置和它的关键字之间建立一个确定的对应关系。本文以射频卡门禁控制器为例,说明用射频卡卡号作为关键字,用Hash查找法确定此卡能否开门,并给出对应的Ke ilC51程序。 展开更多
关键词 Hash查找法 射频卡门禁系统 查找方法 记录
下载PDF
水稻稻穗图像的分割方法研究 被引量:1
18
作者 黄琼 杨红云 肖小梅 《生物灾害科学》 2020年第1期90-95,共6页
针对成熟期稻田光照不均匀、复杂的土壤背景噪声以及稻叶颜色混淆问题,研究利用Otsu和K-means法分别对局部稻穗图像和稻田图像进行稻穗分割,并与最大熵、迭代阈值以及区域生长法的分割效果图进行哈希相似度对比。在进行局部稻穗图像分割... 针对成熟期稻田光照不均匀、复杂的土壤背景噪声以及稻叶颜色混淆问题,研究利用Otsu和K-means法分别对局部稻穗图像和稻田图像进行稻穗分割,并与最大熵、迭代阈值以及区域生长法的分割效果图进行哈希相似度对比。在进行局部稻穗图像分割时,K-means和其他4种算法相比,分割相似度可达90%;在进行稻田图像分割时,Otsu和其他4种算法相比,分割相似度可达90.94%。试验结果表明两种算法能实现稻穗有效提取,为后期稻穗品质评估和稻田产量预测研究提供可靠依据。 展开更多
关键词 水稻稻穗 图像分割 OTSU算法 K-MEANS算法 哈希算法
下载PDF
LSHBMRPK-means算法及其应用 被引量:1
19
作者 罗俊 李劲华 《计算机工程与应用》 CSCD 北大核心 2017年第21期62-67,共6页
针对传统的k-means聚类算法在处理大数据时算法时间复杂度极高和聚类效果不佳的问题,提出了LSHBMRPK-means算法,即基于局部敏感哈希函数的Map Reduce并行化的k-means聚类算法;针对推荐系统的可扩展性问题,将LSHBMRPK-means应用于基于聚... 针对传统的k-means聚类算法在处理大数据时算法时间复杂度极高和聚类效果不佳的问题,提出了LSHBMRPK-means算法,即基于局部敏感哈希函数的Map Reduce并行化的k-means聚类算法;针对推荐系统的可扩展性问题,将LSHBMRPK-means应用于基于聚类的协同过滤算法。此外,针对评分数据的稀疏性问题,使用LFM,即隐语义模型,对缺失值进行填充,进而提出了基于LFM的LSHBMRPK-means聚类算法。实验结果表明,LSHBMRPK-means聚类算法提高了聚类效率和质量,基于LFM的LSHBMRPK-means协同过滤算法具有较好的可扩展性,同时解决了因评分数据稀疏导致聚类质量不好的问题。 展开更多
关键词 大数据 K-MEANS 局部敏感哈希函数 MAP REDUCE 推荐算法
下载PDF
面向大型数据集的局部敏感哈希K−means算法 被引量:2
20
作者 魏峰 马龙 《工矿自动化》 CSCD 北大核心 2023年第3期53-62,共10页
大型数据集高效处理策略是煤矿安全监测智能化、采掘智能化等煤矿智能化建设的关键支撑。针对K−means算法面对大型数据集时聚类高效性及准确性不足的问题,提出了一种基于局部敏感哈希(LSH)的高效K−means聚类算法。基于LSH对抽样过程进... 大型数据集高效处理策略是煤矿安全监测智能化、采掘智能化等煤矿智能化建设的关键支撑。针对K−means算法面对大型数据集时聚类高效性及准确性不足的问题,提出了一种基于局部敏感哈希(LSH)的高效K−means聚类算法。基于LSH对抽样过程进行优化,提出了数据组构建算法LSH−G,将大型数据集合理划分为子数据组,并对数据集中的噪声点进行有效删除;基于LSH−G算法优化密度偏差抽样(DBS)算法中的子数据组划分过程,提出了数据组抽样算法LSH−GD,使样本集能更真实地反映原始数据集的分布规律;在此基础上,通过K−means算法对生成的样本集进行聚类,实现较低时间复杂度情况下从大型数据集中高效挖掘有效数据。实验结果表明:由10个AND操作与8个OR操作组成的级联组合为最优级联组合,得到的类中心误差平方和(SSEC)最小;在人工数据集上,与基于多层随机抽样(M−SRS)的K−means算法、基于DBS的K−means算法及基于网格密度偏差抽样(G−DBS)的K−means算法相比,基于LSH−GD的K−means算法在聚类准确性方面的平均提升幅度分别为56.63%、54.59%及25.34%,在聚类高效性方面的平均提升幅度分别为27.26%、16.81%及7.07%;在UCI标准数据集上,基于LSH−GD的K−means聚类算法获得的SSEC与CPU消耗时间(CPU−C)均为最优。 展开更多
关键词 智慧矿山 大型数据集 K−means聚类 局部敏感哈希 噪声点筛选 密度偏差抽样
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部