期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
27
篇文章
<
1
2
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于RS_Hash频繁项集的卫星载荷关联规则算法
1
作者
贾澎涛
温滋
《国外电子测量技术》
北大核心
2023年第2期9-15,共7页
遥测数据是反映卫星健康状态的重要依据,对遥测载荷数据进行关联性分析,在一定程度上能反映出卫星的整体运行情况的好坏。针对传统关联规则算法存在效率低下、占用内存过多的问题,提出一种基于RS_Hash频繁项集的卫星载荷关联规则算法。...
遥测数据是反映卫星健康状态的重要依据,对遥测载荷数据进行关联性分析,在一定程度上能反映出卫星的整体运行情况的好坏。针对传统关联规则算法存在效率低下、占用内存过多的问题,提出一种基于RS_Hash频繁项集的卫星载荷关联规则算法。首先对事务数据库使用动态随机抽样的方法获取样本数据,设计抽样误差和抽样停止规则来确定最优的样本容量;其次将抽取出的样本使用哈希桶来存储频繁项集,进而减少占用的内存,提高算法的运行效率;最后使用3个与载荷数据相似的公开数据集和卫星载荷数据集进行实验,结果表明,在公共数据集上取得了良好的效果,尤其是在具有大数据量级的卫星载荷数据集上效果明显,在不同事务长度和支持度的情况下,相较于Apriori、PCY、SON、FP-Growth、RCM_Apriori和Hash_Cumulate算法,RS_Hash算法在平均时间效率上分别提高了75.81%、49.10%、59.38%、50.22%、40.16%和39.22%。
展开更多
关键词
卫星载荷分析
关联规则
频繁项集
动态随机抽样算法
哈希桶
下载PDF
职称材料
一种避免数据偏斜的动态Hash连接方法
被引量:
1
2
作者
洪晓光
王新军
董继润
《软件学报》
EI
CSCD
北大核心
1997年第8期610-614,共5页
本文提出了一种新的动态Hash连接方法──DHJ(dynamichash join),以解决并行数据库连接操作中的数据偏斜现象.为避免目前某些算法提出的预处理中隐含的高额费用,该方法在划分阶段通过增添附加桶的方法来平衡输出,然后依据计算确...
本文提出了一种新的动态Hash连接方法──DHJ(dynamichash join),以解决并行数据库连接操作中的数据偏斜现象.为避免目前某些算法提出的预处理中隐含的高额费用,该方法在划分阶段通过增添附加桶的方法来平衡输出,然后依据计算确认哪些附加桶被映射到处理器上并确定处理器分配,在最后阶段完成连接.本文最后给出了该算法的性能分析.
展开更多
关键词
数据偏斜
动态
hash
连接法
并行数据库
下载PDF
职称材料
基于哈希桶和聚类的变半径邻域粗糙集模型
3
作者
李华
孟祥瑞
《江苏科技大学学报(自然科学版)》
CAS
2024年第4期100-107,共8页
邻域粗糙集是处理机器学习与数据挖掘中不确定性的数据分析工具.邻域粗糙集中邻域粒的大小往往受邻域半径的影响.针对现有的邻域粗糙集模型通常对每个样本设置相同的邻域半径,导致得到的邻域粒无法对每个样本进行准确地刻画的问题,基于...
邻域粗糙集是处理机器学习与数据挖掘中不确定性的数据分析工具.邻域粗糙集中邻域粒的大小往往受邻域半径的影响.针对现有的邻域粗糙集模型通常对每个样本设置相同的邻域半径,导致得到的邻域粒无法对每个样本进行准确地刻画的问题,基于样本数据的分布信息,首先对数据集进行聚类,并基于哈希桶对每个类的样本分布情况做出分析,然后为每个样本设置合适大小的邻域半径,使其能够更准确地刻画每个样本的信息,进而提出变半径邻域粗糙集模型.最后选取了8个UCI数据集进行实验,并分别与当前最常用的邻域粗糙集模型进行比较,理论分析与实验结果表明所提出的变半径邻域粗糙集模型具有更好的学习性能.
展开更多
关键词
变半径邻域粗糙集
哈希桶
聚类
样本分布
不确定性
下载PDF
职称材料
基于Hash表的数据库索引结构设计与实现
被引量:
3
4
作者
汪超
何丕廉
李志明
《微处理机》
2007年第4期53-56,共4页
索引结构的优劣对RDBMS的查询速度起着至关重要的作用,目前比较成熟的组织索引的数据结构有Hash表和B-Tree结构。基于Hash表给出了一种RDBMS索引以及存储结构的详细设计方案并加以实现。
关键词
数据库
存储
索引
哈希表
桶
下载PDF
职称材料
无人机集群 SDN 交换机转发表的设计与实现
被引量:
1
5
作者
张栋
徐任晖
+2 位作者
乔庐峰
续欣
鲁铭洋
《通信技术》
2023年第9期1107-1114,共8页
给出了一种适用于无人机集群的软件定义网络(Soft Design Network,SDN)交换节点的设计方案,实现了一种应用于该交换节点的流表(转发表)算法。该算法采用多级流表查找方式,每一级具有不同的匹配优先级。在匹配表项有冲突的情况下,流表级...
给出了一种适用于无人机集群的软件定义网络(Soft Design Network,SDN)交换节点的设计方案,实现了一种应用于该交换节点的流表(转发表)算法。该算法采用多级流表查找方式,每一级具有不同的匹配优先级。在匹配表项有冲突的情况下,流表级数越高,优先级越高。完整实现了流表(转发表)电路,电路具有表项查找、表项添加、表项删除功能。表项查找时,搜索键值长度最高支持128 bit,查找结果Action Data最高支持144 bit。为避免哈希冲突,这里采用多桶哈希查找算法。搜索键值和查找结果可根据用户实际需求修改,灵活性强,可满足不同用户不同业务对于SDN网络的需求。
展开更多
关键词
软件定义网络
流表
分段查找
多桶哈希
下载PDF
职称材料
哈希桶Variety-B树的数据流处理方法
被引量:
1
6
作者
王竹荣
伊珍珍
+2 位作者
黑新宏
冯华萍
费蓉
《西安理工大学学报》
CAS
北大核心
2017年第1期13-17,共5页
为方便对数据流数据的存储和查询,分析了Variety-B树结构存在的缺陷,设计一种改进的Variety-B树结构。通过在内存中开辟循环缓冲区,并在叶子结点采用哈希桶结构,以达到根据流数据信息动态分配内存空间。对哈希桶中数据存储引起的地址冲...
为方便对数据流数据的存储和查询,分析了Variety-B树结构存在的缺陷,设计一种改进的Variety-B树结构。通过在内存中开辟循环缓冲区,并在叶子结点采用哈希桶结构,以达到根据流数据信息动态分配内存空间。对哈希桶中数据存储引起的地址冲突设计一种线性探测哈希函数解决方法,及建立Variety-B树结构索引,可有效降低地址冲突,提高数据的检索效率。在此基础上,对历史数据流的存储和查询操作算法进行了设计和分析。实验测试结果表明,本文所提改进Variety-B树对历史数据流的存储和查询操作所消耗的计算机资源相对Variety-B树有所减少。
展开更多
关键词
数据流
Variety-B树
循环缓冲区
哈希桶
下载PDF
职称材料
适用于范围查询的列存储数据桶划分算法
被引量:
3
7
作者
李晔锋
乐嘉锦
王梅
《计算机研究与发展》
EI
CSCD
北大核心
2013年第3期594-601,共8页
范围查询是数据库中一项重要的操作.列存储数据库中,能否有效查找一个范围内的属性值,获取对应的行号集合,将极大影响元组重构的效率.与树型结构相比,Hash表对数据的精确查找具有更高的效率,但是范围查找的效率比较低.针对这种情况,提...
范围查询是数据库中一项重要的操作.列存储数据库中,能否有效查找一个范围内的属性值,获取对应的行号集合,将极大影响元组重构的效率.与树型结构相比,Hash表对数据的精确查找具有更高的效率,但是范围查找的效率比较低.针对这种情况,提出了一种改进的可用于范围查询的数据桶划分算法.为了能够更好地对算法进行描述,首先提出了可用于范围查询的Hash存储模型(rangedHash,RH),并给出了桶的值域和序列化的定义.其次针对列存储等"读优先"特性,在RH模型的基础上,提出一种改进的桶划分算法.该算法生成可序列化的哈希函数把属性值划分到桶中,能够同时提高属性值的范围查询效率和存储效率.最后,通过实验结果验证算法的有效性.
展开更多
关键词
列存储
范围查询
hash
表
可序列化
桶划分
下载PDF
职称材料
NoSQL数据库技术在嵌入式装置中的应用
被引量:
3
8
作者
范三龙
秦成虎
《工业仪表与自动化装置》
2020年第5期16-20,35,共6页
在互联网+创新背景下,用信息化技术的成果改造和提升传统的自动化设备,具有重要的前景。NoSQL数据库泛指非关系型数据库,是大数据时代的热点。该文在NoSQL数据库技术基础上,设计实现了一种适合在嵌入式装置中运行的实时数据库。从数据...
在互联网+创新背景下,用信息化技术的成果改造和提升传统的自动化设备,具有重要的前景。NoSQL数据库泛指非关系型数据库,是大数据时代的热点。该文在NoSQL数据库技术基础上,设计实现了一种适合在嵌入式装置中运行的实时数据库。从数据对象的描述,对象的存储和索引,对象的查找、遍历、增删改操作,消息总线中通知的注册和发送四个方面,介绍了数据库的组成,内存的使用,双哈希索引的构成,命令及消息传递机制等。该实时数据库可以完成数据对象的灵活定义和高效访问,进而实现各种自动化功能。
展开更多
关键词
NOSQL数据库
键值数据库
列存储
实时数据库
哈希桶
下载PDF
职称材料
并行数据库中JOIN运算的并行算法
被引量:
2
9
作者
黄明和
钟萃相
《计算机工程与科学》
CSCD
2006年第2期90-92,共3页
JOIN运算的并行算法一直是并行数据库领域中研究的热点问题,先后出现了一系列并行JOIN算法或改进算法,但它们都存在着通信效率较低、负载调度频繁等问题。本文针对这些问题,在分析比较前人工作的基础上对SABJ+算法与ABJ+算法加以改进,...
JOIN运算的并行算法一直是并行数据库领域中研究的热点问题,先后出现了一系列并行JOIN算法或改进算法,但它们都存在着通信效率较低、负载调度频繁等问题。本文针对这些问题,在分析比较前人工作的基础上对SABJ+算法与ABJ+算法加以改进,得到了效率更高的并行JOIN算法ABJ++。
展开更多
关键词
串行JOIN算法
并行JOIN算法
并行
hash
JOIN算法
分桶
下载PDF
职称材料
基于位置敏感哈希的海量文本数据查询算法研究
被引量:
1
10
作者
蒋巍
《科技通报》
北大核心
2013年第10期70-72,共3页
提出了一种基于位置敏感哈希算法的海量文本数据查询算法,通过位置敏感哈希算法将文本数据的特征向量映射到哈希桶中,从而有效地降低了计算复杂度并提高了数据检索的效率。首先,利用TF-IDF特征表示文本的特征向量,并根据给定的哈希函数...
提出了一种基于位置敏感哈希算法的海量文本数据查询算法,通过位置敏感哈希算法将文本数据的特征向量映射到哈希桶中,从而有效地降低了计算复杂度并提高了数据检索的效率。首先,利用TF-IDF特征表示文本的特征向量,并根据给定的哈希函数集把文本的特征向量映射至哈希桶;接下来,利用哈希表为给定的文本计算出与之对应的直方图,通过直方图距离计算文本的相似度;最后,通过计算目标文本集中的文本与待查询文本的相似度进行文本排序,排序分值高的文本作为相关文本返回给用户。实验结果表明,对比已有方法文本提出的算法在MAP以及查全率-查准率曲线两个测度上都获得了较好的性能。
展开更多
关键词
位置敏感哈希
海量文本数据
哈希桶
排序
下载PDF
职称材料
线对象邻接关系快速重构算法
11
作者
廖名学
范植华
何晓新
《计算机应用》
CSCD
北大核心
2008年第1期245-247,共3页
给定向量化坐标,计算n个线对象两两邻接关系,普通算法时间复杂度为O(n*n);理论最好时间复杂度为O(C),其中C是邻接关系的基数。基于散列桶,给出了建立线对象邻接关系的快速算法,其平均时间复杂度为O(n(1+1/r)),r为算...
给定向量化坐标,计算n个线对象两两邻接关系,普通算法时间复杂度为O(n*n);理论最好时间复杂度为O(C),其中C是邻接关系的基数。基于散列桶,给出了建立线对象邻接关系的快速算法,其平均时间复杂度为O(n(1+1/r)),r为算法分配的桶数量与n的比,空间复杂度为O(n)。证明了若不允许使用额外空间,则不可能使用排序算法解决该问题;给出了允许使用额外空间条件下的两遍排序算法,时间复杂度为O(n(1bn+1+2/r))。应用表明快速算法比普通算法速度提高1—3个数量级。
展开更多
关键词
线对象
邻接关系
桶排序
算法分析
下载PDF
职称材料
基于多表频繁项投票和桶映射链的快速检索方法
被引量:
5
12
作者
高毫林
彭天强
+1 位作者
李弼程
郭志刚
《电子与信息学报》
EI
CSCD
北大核心
2012年第11期2574-2581,共8页
为解决基于随机映射的高维向量快速检索方法位置敏感哈希存在的随机性强和内存消耗大两个问题,在E2LSH(Exact Euclidean Locality Sensitive Hashing)的基础上提出了基于多表频繁项投票和桶映射链的快速检索方法。该方法用检索结果构造...
为解决基于随机映射的高维向量快速检索方法位置敏感哈希存在的随机性强和内存消耗大两个问题,在E2LSH(Exact Euclidean Locality Sensitive Hashing)的基础上提出了基于多表频繁项投票和桶映射链的快速检索方法。该方法用检索结果构造基准索引矩阵,并对基准索引矩阵进行频繁项投票和校正得出最终索引来降低检索的随机性;桶映射链利用E2LSH的数据划分特性减少检索时读入内存的数据点的数目,以此来降低内存消耗。实验证明该方法能减弱检索的随机性,并有效地降低检索的内存消耗。这对于提高大规模信息检索尤其是图像检索的可行性有着较大的作用。
展开更多
关键词
信息检索
位置敏感哈希
随机性
内存消耗
频繁项投票
桶映射链
下载PDF
职称材料
基于均衡学习的增强哈希桶模型研究
13
作者
王小玲
鲁鹏
《光通信研究》
北大核心
2014年第3期30-32,51,共4页
在使用哈希查找表构造IEEE 802.1Q协议中VLAN(虚拟局域网)网桥定义的过滤数据库时,哈希桶常被用于解决多个关键字对应同一个存储地址而造成的"哈希冲突"。传统哈希桶通过唯一的哈希地址获取整个学习表的资源,效率较低。文章...
在使用哈希查找表构造IEEE 802.1Q协议中VLAN(虚拟局域网)网桥定义的过滤数据库时,哈希桶常被用于解决多个关键字对应同一个存储地址而造成的"哈希冲突"。传统哈希桶通过唯一的哈希地址获取整个学习表的资源,效率较低。文章提出了一种改进哈希表冲突的优化方法,通过双哈希桶和溢出桶来构造哈希表,并采用均衡学习的方式进行地址学习操作。该方法在双哈希桶溢出的情况下,将溢出条目暂存到溢出桶,并通知软件完成双哈希桶中冲突条目的释放和溢出桶中溢出条目的搬移操作。仿真实验结果表明,新的哈希算法可以有效减少哈希冲突的发生率,提高哈希表存储空间的利用率。
展开更多
关键词
哈希桶
哈希冲突
均衡学习
下载PDF
职称材料
基于敏捷分桶的频繁项目集生成新算法
14
作者
周启海
陈勇明
《计算机科学》
CSCD
北大核心
2007年第12期168-170,共3页
指出用于数据挖掘的频繁项目集生成的常规Hash算法存在两个主要缺点:1)难挑选合适的Hash函数,2)易导致Hash冲突。为了克服了这些缺点,提出了一种能动态适应频繁项目集生成实际需要的敏捷分桶新算法,该算法对任何项目集均有按需反应能力...
指出用于数据挖掘的频繁项目集生成的常规Hash算法存在两个主要缺点:1)难挑选合适的Hash函数,2)易导致Hash冲突。为了克服了这些缺点,提出了一种能动态适应频繁项目集生成实际需要的敏捷分桶新算法,该算法对任何项目集均有按需反应能力,且无需寻找任何Hash函数,更不会导致任何Hash冲突。同时给出了进一步改进和提高新算法效率的研究方向。
展开更多
关键词
数据挖掘
频繁项目集
hash
函数
hash
冲突
敏捷分桶
下载PDF
职称材料
配用电大数据多源集成及存储优化方法
被引量:
22
15
作者
王林童
赵腾
+2 位作者
张焰
苏运
田世明
《高电压技术》
EI
CAS
CSCD
北大核心
2018年第4期1131-1139,共9页
面对体量大、类型多、增长快的配用电大数据,如何利用大数据技术提升配用电相关业务的广度、深度和精度成为电力行业新的机遇和挑战。为解决配用电大数据多源集成和高效存储两方面核心问题,根据配用电大数据的组成及特征,通过生成标准...
面对体量大、类型多、增长快的配用电大数据,如何利用大数据技术提升配用电相关业务的广度、深度和精度成为电力行业新的机遇和挑战。为解决配用电大数据多源集成和高效存储两方面核心问题,根据配用电大数据的组成及特征,通过生成标准化元数据并构建相应数据字典的方法,实现了多源配用电数据规范化集成;在数据集成的基础上,基于Hadoop平台进行大数据存储优化方法研究,提出考虑配用电数据关联性的哈希分桶存储算法,实现了相关联数据的集中存储,从而提升后期数据查询及处理的效率并在数据存储优化的基础上,实现基于Map Reduce的多源配用电大数据并行关联查询。通过在Hadoop集群平台上进行测试表明,经过哈希分桶存储优化后的多源数据并行关联查询相比传统Hadoop方法查询时间显著缩短。
展开更多
关键词
配用电大数据
数据集成
HADOOP
哈希分桶存储
并行关联查询
下载PDF
职称材料
基于Hadoop的风力发电监测大数据存储优化及并行查询方法
被引量:
23
16
作者
王林童
赵腾
+1 位作者
张焰
苏运
《电测与仪表》
北大核心
2018年第11期1-6,共6页
随着风力发电的广泛发展以及智能化监测技术的推广应用,风力发电监测数据呈现出体量大、类型多、增长快的大数据特征。针对风力发电监测大数据高效存储和快速查询两方面核心问题,基于Hadoop平台进行大数据存储优化方法研究,提出考虑风...
随着风力发电的广泛发展以及智能化监测技术的推广应用,风力发电监测数据呈现出体量大、类型多、增长快的大数据特征。针对风力发电监测大数据高效存储和快速查询两方面核心问题,基于Hadoop平台进行大数据存储优化方法研究,提出考虑风力发电监测数据关联性的哈希分桶存储算法,实现了相关联数据的集中存储,从而提升后期数据查询及处理的效率。在数据存储优化的基础上,实现基于MapReduce的多源风力发电监测大数据并行关联查询。通过在Hadoop平台上进行测试表明,经过哈希分桶存储优化后的多源数据并行关联查询相比传统Hadoop方法查询时间显著缩短。
展开更多
关键词
大数据
风力发电监测
HADOOP
哈希分桶算法
下载PDF
职称材料
EasiFFRA:一种基于邻域粗糙集的属性快速约简算法
被引量:
7
17
作者
王念
彭政红
崔莉
《计算机研究与发展》
EI
CSCD
北大核心
2019年第12期2578-2588,共11页
从高维异构感知信息中提取有效特征是支撑物联网系统预测与识别的基础.物联网场景中通常包括多个多种感知节点,系统通常会从感知数据中提取大量特征,其中不乏部分无关和冗余特征.这些无关及冗余特征会降低系统的运行速度,引入冗余计算,...
从高维异构感知信息中提取有效特征是支撑物联网系统预测与识别的基础.物联网场景中通常包括多个多种感知节点,系统通常会从感知数据中提取大量特征,其中不乏部分无关和冗余特征.这些无关及冗余特征会降低系统的运行速度,引入冗余计算,更会影响后续的分类及预测等机器学习操作的性能.因而高效识别并提取低维有效的特征子集是物联网数据分析所面临的一大挑战.邻域粗糙集方法能够在保持数据集可分性的前提下,识别和去除无关及冗余特征子集,从而达到降维效果.但由于现有基于邻域粗糙集的特征约简算法的计算开销大、运行时间长,故而并未得到广泛应用.提出了一种基于邻域关系对称性及决策值过滤策略的特征快速约简算法EasiFFRA.EasiFFRA可通过改进的散列分桶方法加速正域样本计算,可检验并过滤冗余决策值样本,从而降低现有方法中由于重复距离评估所带来的冗余计算.实验结果表明:EasiFFRA在实际采集的水质数据集和多个不同样本量及维度的公开数据集中平均加快75.45%的特征约简时间,其约简结果和已有邻域粗糙集特征约简算法等效,可有效解决物联网数据分析中由冗余及无关特征导致的分类及预测精度下降问题,有重要应用价值.
展开更多
关键词
邻域粗糙集
特征约简
对称机制
过滤机制
散列分桶
下载PDF
职称材料
基于大数据技术风电机组容量可信度计算
被引量:
11
18
作者
候卫萍
蔺红
《电测与仪表》
北大核心
2020年第14期39-44,共6页
在大规模风电并网的前提下,风电容量可信度计算对电力系统可靠运行具有重要意义。论文基于电量不足期望(LOEE)可靠性指标,考虑风电场间时空相关性的影响因素,采用非序贯蒙特卡洛法对风电容量可信度进行计算。风电容量可信度的计算需要...
在大规模风电并网的前提下,风电容量可信度计算对电力系统可靠运行具有重要意义。论文基于电量不足期望(LOEE)可靠性指标,考虑风电场间时空相关性的影响因素,采用非序贯蒙特卡洛法对风电容量可信度进行计算。风电容量可信度的计算需要的数据有风速、风电出力、风电机组地理位置信息等数据,由于计算所需的数据量大、类型多、来源广等特点,提出基于Hadoop架构的大数据技术计算风电容量可信度,针对Hadoop架构存在的机架感知不平衡及存储数据间缺乏相关性问题,引入机架感知配置法和哈希桶存储算法对其进行改进,提高了数据存储及数据处理的效率,减少计算时间,通过实例验证文中所提方法的有效性。
展开更多
关键词
Hadoop架构
风电容量可信度
哈希桶存储
蒙特卡洛
大数据技术
下载PDF
职称材料
基于对象存储系统中属性管理的研究与实现
19
作者
王慧丽
冯丹
覃灵军
《计算机应用研究》
CSCD
北大核心
2007年第11期188-190,共3页
针对现有属性管理方法上的缺陷和不足,提出了一种新的属性管理方法——哈希桶。哈希桶方法对对象的属性进行集中管理,不仅降低了管理存储成本,更有效地提高了系统的吞吐率。经过仿真测试表明,哈希桶对象属性管理方法性能远优于现有的属...
针对现有属性管理方法上的缺陷和不足,提出了一种新的属性管理方法——哈希桶。哈希桶方法对对象的属性进行集中管理,不仅降低了管理存储成本,更有效地提高了系统的吞吐率。经过仿真测试表明,哈希桶对象属性管理方法性能远优于现有的属性管理方法。
展开更多
关键词
基于对象存储系统
对象属性
哈希桶
下载PDF
职称材料
基于多级索引的高维数据近似最近邻搜索
被引量:
4
20
作者
杨凤丽
李娜
刘仁芬
《计算机仿真》
北大核心
2022年第11期398-401,共4页
当前的高维数据最近邻搜索方法大多应用单级索引,导致近邻搜索稳定性较差,且时间开销较大。为此提出基于多级索引的高维数据近似最近邻搜索方法。利用二级距离敏感哈希算法(M2LSH)实现多级索引。将第一次哈希处理的高维数据输入哈希桶内...
当前的高维数据最近邻搜索方法大多应用单级索引,导致近邻搜索稳定性较差,且时间开销较大。为此提出基于多级索引的高维数据近似最近邻搜索方法。利用二级距离敏感哈希算法(M2LSH)实现多级索引。将第一次哈希处理的高维数据输入哈希桶内,使用二次哈希映射桶号,使其在一维空间中呈现。依据各桶内数据量完成临近哈希桶合并,将新哈希桶作为候选搜索集合,实现高维数据近似最近邻搜索。实验结果表明:不同相邻桶距离下,所提算法优化后的近似比率均可保持在1左右,搜索效果大幅度提升,且稳定性较好;将该算法的哈希函数数量和哈希桶宽度分别设置为12、3,能获得更优异的搜索效果,并极大地节省时间开销,说明多级索引是处理高维数据近似最近邻问题的有效方法。
展开更多
关键词
多级索引
高维数据
近似最近邻
距离敏感哈希
哈希桶
下载PDF
职称材料
题名
基于RS_Hash频繁项集的卫星载荷关联规则算法
1
作者
贾澎涛
温滋
机构
西安科技大学计算机科学与技术学院
出处
《国外电子测量技术》
北大核心
2023年第2期9-15,共7页
基金
西安市科技计划(2020KJRC0069)项目资助
文摘
遥测数据是反映卫星健康状态的重要依据,对遥测载荷数据进行关联性分析,在一定程度上能反映出卫星的整体运行情况的好坏。针对传统关联规则算法存在效率低下、占用内存过多的问题,提出一种基于RS_Hash频繁项集的卫星载荷关联规则算法。首先对事务数据库使用动态随机抽样的方法获取样本数据,设计抽样误差和抽样停止规则来确定最优的样本容量;其次将抽取出的样本使用哈希桶来存储频繁项集,进而减少占用的内存,提高算法的运行效率;最后使用3个与载荷数据相似的公开数据集和卫星载荷数据集进行实验,结果表明,在公共数据集上取得了良好的效果,尤其是在具有大数据量级的卫星载荷数据集上效果明显,在不同事务长度和支持度的情况下,相较于Apriori、PCY、SON、FP-Growth、RCM_Apriori和Hash_Cumulate算法,RS_Hash算法在平均时间效率上分别提高了75.81%、49.10%、59.38%、50.22%、40.16%和39.22%。
关键词
卫星载荷分析
关联规则
频繁项集
动态随机抽样算法
哈希桶
Keywords
satellite load analysis
association rules
frequent item sets
random sampling algorithm
hash bucket
s
分类号
TP301.6 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
一种避免数据偏斜的动态Hash连接方法
被引量:
1
2
作者
洪晓光
王新军
董继润
机构
山东大学计算机系
出处
《软件学报》
EI
CSCD
北大核心
1997年第8期610-614,共5页
基金
国家自然科学基金
文摘
本文提出了一种新的动态Hash连接方法──DHJ(dynamichash join),以解决并行数据库连接操作中的数据偏斜现象.为避免目前某些算法提出的预处理中隐含的高额费用,该方法在划分阶段通过增添附加桶的方法来平衡输出,然后依据计算确认哪些附加桶被映射到处理器上并确定处理器分配,在最后阶段完成连接.本文最后给出了该算法的性能分析.
关键词
数据偏斜
动态
hash
连接法
并行数据库
Keywords
Join, data skew, dynamic
hash
,
bucket
, balance output
分类号
TP311.13 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
基于哈希桶和聚类的变半径邻域粗糙集模型
3
作者
李华
孟祥瑞
机构
石家庄铁道大学数理系
出处
《江苏科技大学学报(自然科学版)》
CAS
2024年第4期100-107,共8页
基金
国家自然科学基金项目(61806133)。
文摘
邻域粗糙集是处理机器学习与数据挖掘中不确定性的数据分析工具.邻域粗糙集中邻域粒的大小往往受邻域半径的影响.针对现有的邻域粗糙集模型通常对每个样本设置相同的邻域半径,导致得到的邻域粒无法对每个样本进行准确地刻画的问题,基于样本数据的分布信息,首先对数据集进行聚类,并基于哈希桶对每个类的样本分布情况做出分析,然后为每个样本设置合适大小的邻域半径,使其能够更准确地刻画每个样本的信息,进而提出变半径邻域粗糙集模型.最后选取了8个UCI数据集进行实验,并分别与当前最常用的邻域粗糙集模型进行比较,理论分析与实验结果表明所提出的变半径邻域粗糙集模型具有更好的学习性能.
关键词
变半径邻域粗糙集
哈希桶
聚类
样本分布
不确定性
Keywords
variable neighborhood rough sets
hash bucket
clustering
sample distribution
uncertainty
分类号
TP301 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
基于Hash表的数据库索引结构设计与实现
被引量:
3
4
作者
汪超
何丕廉
李志明
机构
天津大学计算机科学与技术系
天津市计算机研究所
出处
《微处理机》
2007年第4期53-56,共4页
文摘
索引结构的优劣对RDBMS的查询速度起着至关重要的作用,目前比较成熟的组织索引的数据结构有Hash表和B-Tree结构。基于Hash表给出了一种RDBMS索引以及存储结构的详细设计方案并加以实现。
关键词
数据库
存储
索引
哈希表
桶
Keywords
Database
Storage
Index
hash
table
bucket
分类号
TP392 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
无人机集群 SDN 交换机转发表的设计与实现
被引量:
1
5
作者
张栋
徐任晖
乔庐峰
续欣
鲁铭洋
机构
中国人民解放军陆军工程大学
出处
《通信技术》
2023年第9期1107-1114,共8页
文摘
给出了一种适用于无人机集群的软件定义网络(Soft Design Network,SDN)交换节点的设计方案,实现了一种应用于该交换节点的流表(转发表)算法。该算法采用多级流表查找方式,每一级具有不同的匹配优先级。在匹配表项有冲突的情况下,流表级数越高,优先级越高。完整实现了流表(转发表)电路,电路具有表项查找、表项添加、表项删除功能。表项查找时,搜索键值长度最高支持128 bit,查找结果Action Data最高支持144 bit。为避免哈希冲突,这里采用多桶哈希查找算法。搜索键值和查找结果可根据用户实际需求修改,灵活性强,可满足不同用户不同业务对于SDN网络的需求。
关键词
软件定义网络
流表
分段查找
多桶哈希
Keywords
software-defined network
flow table
segmentation lookup
multi-
bucket
hash
分类号
TP332 [自动化与计算机技术—计算机系统结构]
TP393.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
哈希桶Variety-B树的数据流处理方法
被引量:
1
6
作者
王竹荣
伊珍珍
黑新宏
冯华萍
费蓉
机构
西安理工大学计算机科学与工程学院
出处
《西安理工大学学报》
CAS
北大核心
2017年第1期13-17,共5页
基金
国家自然科学基金资助项目(61273127
U1334211)
+1 种基金
陕西省重大科技统筹创新资助项目(2015KTZDGY01-04)
陕西省教育厅产业化专项资助项目(15JF024)
文摘
为方便对数据流数据的存储和查询,分析了Variety-B树结构存在的缺陷,设计一种改进的Variety-B树结构。通过在内存中开辟循环缓冲区,并在叶子结点采用哈希桶结构,以达到根据流数据信息动态分配内存空间。对哈希桶中数据存储引起的地址冲突设计一种线性探测哈希函数解决方法,及建立Variety-B树结构索引,可有效降低地址冲突,提高数据的检索效率。在此基础上,对历史数据流的存储和查询操作算法进行了设计和分析。实验测试结果表明,本文所提改进Variety-B树对历史数据流的存储和查询操作所消耗的计算机资源相对Variety-B树有所减少。
关键词
数据流
Variety-B树
循环缓冲区
哈希桶
Keywords
data stream
Variety-B Tree
circular buffer
hash bucket
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
适用于范围查询的列存储数据桶划分算法
被引量:
3
7
作者
李晔锋
乐嘉锦
王梅
机构
东华大学计算机科学与技术学院
出处
《计算机研究与发展》
EI
CSCD
北大核心
2013年第3期594-601,共8页
基金
"核高基"重大科技专项基金项目(2010ZX01042-001-003-004)
国家自然科学基金项目(61070031
+1 种基金
61070032)
上海市自然科学基金项目(11ZR1401200)
文摘
范围查询是数据库中一项重要的操作.列存储数据库中,能否有效查找一个范围内的属性值,获取对应的行号集合,将极大影响元组重构的效率.与树型结构相比,Hash表对数据的精确查找具有更高的效率,但是范围查找的效率比较低.针对这种情况,提出了一种改进的可用于范围查询的数据桶划分算法.为了能够更好地对算法进行描述,首先提出了可用于范围查询的Hash存储模型(rangedHash,RH),并给出了桶的值域和序列化的定义.其次针对列存储等"读优先"特性,在RH模型的基础上,提出一种改进的桶划分算法.该算法生成可序列化的哈希函数把属性值划分到桶中,能够同时提高属性值的范围查询效率和存储效率.最后,通过实验结果验证算法的有效性.
关键词
列存储
范围查询
hash
表
可序列化
桶划分
Keywords
column-store
range query
hash
table
serializable
bucket
partition
分类号
TP311.1 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
NoSQL数据库技术在嵌入式装置中的应用
被引量:
3
8
作者
范三龙
秦成虎
机构
国电南京自动化股份有限公司
出处
《工业仪表与自动化装置》
2020年第5期16-20,35,共6页
文摘
在互联网+创新背景下,用信息化技术的成果改造和提升传统的自动化设备,具有重要的前景。NoSQL数据库泛指非关系型数据库,是大数据时代的热点。该文在NoSQL数据库技术基础上,设计实现了一种适合在嵌入式装置中运行的实时数据库。从数据对象的描述,对象的存储和索引,对象的查找、遍历、增删改操作,消息总线中通知的注册和发送四个方面,介绍了数据库的组成,内存的使用,双哈希索引的构成,命令及消息传递机制等。该实时数据库可以完成数据对象的灵活定义和高效访问,进而实现各种自动化功能。
关键词
NOSQL数据库
键值数据库
列存储
实时数据库
哈希桶
Keywords
NoSQL database
key-value database
column storage
real-time database
hash bucket
分类号
TP273 [自动化与计算机技术—检测技术与自动化装置]
下载PDF
职称材料
题名
并行数据库中JOIN运算的并行算法
被引量:
2
9
作者
黄明和
钟萃相
机构
江西师范大学软件学院
出处
《计算机工程与科学》
CSCD
2006年第2期90-92,共3页
文摘
JOIN运算的并行算法一直是并行数据库领域中研究的热点问题,先后出现了一系列并行JOIN算法或改进算法,但它们都存在着通信效率较低、负载调度频繁等问题。本文针对这些问题,在分析比较前人工作的基础上对SABJ+算法与ABJ+算法加以改进,得到了效率更高的并行JOIN算法ABJ++。
关键词
串行JOIN算法
并行JOIN算法
并行
hash
JOIN算法
分桶
Keywords
serial JOIN algorithm
parallel JOIN algorithm
parallel
hash
JOIN algorithm
dividing
bucket
分类号
TP311.13 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
基于位置敏感哈希的海量文本数据查询算法研究
被引量:
1
10
作者
蒋巍
机构
哈尔滨金融学院
出处
《科技通报》
北大核心
2013年第10期70-72,共3页
基金
黑龙江省教育厅2013年度科学技术研究(面上)项目(12531089)
文摘
提出了一种基于位置敏感哈希算法的海量文本数据查询算法,通过位置敏感哈希算法将文本数据的特征向量映射到哈希桶中,从而有效地降低了计算复杂度并提高了数据检索的效率。首先,利用TF-IDF特征表示文本的特征向量,并根据给定的哈希函数集把文本的特征向量映射至哈希桶;接下来,利用哈希表为给定的文本计算出与之对应的直方图,通过直方图距离计算文本的相似度;最后,通过计算目标文本集中的文本与待查询文本的相似度进行文本排序,排序分值高的文本作为相关文本返回给用户。实验结果表明,对比已有方法文本提出的算法在MAP以及查全率-查准率曲线两个测度上都获得了较好的性能。
关键词
位置敏感哈希
海量文本数据
哈希桶
排序
Keywords
locality sensitive
hash
ing
massive text data
hash bucket
ranking
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
线对象邻接关系快速重构算法
11
作者
廖名学
范植华
何晓新
机构
中国科学院软件研究所
出处
《计算机应用》
CSCD
北大核心
2008年第1期245-247,共3页
文摘
给定向量化坐标,计算n个线对象两两邻接关系,普通算法时间复杂度为O(n*n);理论最好时间复杂度为O(C),其中C是邻接关系的基数。基于散列桶,给出了建立线对象邻接关系的快速算法,其平均时间复杂度为O(n(1+1/r)),r为算法分配的桶数量与n的比,空间复杂度为O(n)。证明了若不允许使用额外空间,则不可能使用排序算法解决该问题;给出了允许使用额外空间条件下的两遍排序算法,时间复杂度为O(n(1bn+1+2/r))。应用表明快速算法比普通算法速度提高1—3个数量级。
关键词
线对象
邻接关系
桶排序
算法分析
Keywords
line object
adjacency relation
hash
ed-
bucket
sorting
algorithm analysis
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
基于多表频繁项投票和桶映射链的快速检索方法
被引量:
5
12
作者
高毫林
彭天强
李弼程
郭志刚
机构
信息工程大学信息工程学院
河南工程学院计算机工程与科学系
出处
《电子与信息学报》
EI
CSCD
北大核心
2012年第11期2574-2581,共8页
基金
国家自然科学基金(60872142)资助课题
文摘
为解决基于随机映射的高维向量快速检索方法位置敏感哈希存在的随机性强和内存消耗大两个问题,在E2LSH(Exact Euclidean Locality Sensitive Hashing)的基础上提出了基于多表频繁项投票和桶映射链的快速检索方法。该方法用检索结果构造基准索引矩阵,并对基准索引矩阵进行频繁项投票和校正得出最终索引来降低检索的随机性;桶映射链利用E2LSH的数据划分特性减少检索时读入内存的数据点的数目,以此来降低内存消耗。实验证明该方法能减弱检索的随机性,并有效地降低检索的内存消耗。这对于提高大规模信息检索尤其是图像检索的可行性有着较大的作用。
关键词
信息检索
位置敏感哈希
随机性
内存消耗
频繁项投票
桶映射链
Keywords
Information retrieval
Locality Sensitive
hash
ing (LSH)
Randomicity
Memory cost
Frequent items voting
bucket
map chain
分类号
TN391 [电子电信—物理电子学]
下载PDF
职称材料
题名
基于均衡学习的增强哈希桶模型研究
13
作者
王小玲
鲁鹏
机构
武汉科技大学文法与经济学院
烽火通信科技股份有限公司
出处
《光通信研究》
北大核心
2014年第3期30-32,51,共4页
文摘
在使用哈希查找表构造IEEE 802.1Q协议中VLAN(虚拟局域网)网桥定义的过滤数据库时,哈希桶常被用于解决多个关键字对应同一个存储地址而造成的"哈希冲突"。传统哈希桶通过唯一的哈希地址获取整个学习表的资源,效率较低。文章提出了一种改进哈希表冲突的优化方法,通过双哈希桶和溢出桶来构造哈希表,并采用均衡学习的方式进行地址学习操作。该方法在双哈希桶溢出的情况下,将溢出条目暂存到溢出桶,并通知软件完成双哈希桶中冲突条目的释放和溢出桶中溢出条目的搬移操作。仿真实验结果表明,新的哈希算法可以有效减少哈希冲突的发生率,提高哈希表存储空间的利用率。
关键词
哈希桶
哈希冲突
均衡学习
Keywords
hash bucket
hash
collision
balance learning
分类号
TN911.1 [电子电信—通信与信息系统]
下载PDF
职称材料
题名
基于敏捷分桶的频繁项目集生成新算法
14
作者
周启海
陈勇明
机构
西南财经大学经济信息工程学院
西南财经大学统计学院
出处
《计算机科学》
CSCD
北大核心
2007年第12期168-170,共3页
文摘
指出用于数据挖掘的频繁项目集生成的常规Hash算法存在两个主要缺点:1)难挑选合适的Hash函数,2)易导致Hash冲突。为了克服了这些缺点,提出了一种能动态适应频繁项目集生成实际需要的敏捷分桶新算法,该算法对任何项目集均有按需反应能力,且无需寻找任何Hash函数,更不会导致任何Hash冲突。同时给出了进一步改进和提高新算法效率的研究方向。
关键词
数据挖掘
频繁项目集
hash
函数
hash
冲突
敏捷分桶
Keywords
Data mining, Frequent item sets,
hash
function,
hash
conflict, Separate agilely into
bucket
s
分类号
TP309.7 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
配用电大数据多源集成及存储优化方法
被引量:
22
15
作者
王林童
赵腾
张焰
苏运
田世明
机构
上海交通大学电气工程系
国网上海市电力公司电力科学研究院
中国电力科学研究院有限公司
出处
《高电压技术》
EI
CAS
CSCD
北大核心
2018年第4期1131-1139,共9页
基金
国家高技术研究发展计划(863计划)(2015AA050203)
国家电网公司科技项目(520900150037)~~
文摘
面对体量大、类型多、增长快的配用电大数据,如何利用大数据技术提升配用电相关业务的广度、深度和精度成为电力行业新的机遇和挑战。为解决配用电大数据多源集成和高效存储两方面核心问题,根据配用电大数据的组成及特征,通过生成标准化元数据并构建相应数据字典的方法,实现了多源配用电数据规范化集成;在数据集成的基础上,基于Hadoop平台进行大数据存储优化方法研究,提出考虑配用电数据关联性的哈希分桶存储算法,实现了相关联数据的集中存储,从而提升后期数据查询及处理的效率并在数据存储优化的基础上,实现基于Map Reduce的多源配用电大数据并行关联查询。通过在Hadoop集群平台上进行测试表明,经过哈希分桶存储优化后的多源数据并行关联查询相比传统Hadoop方法查询时间显著缩短。
关键词
配用电大数据
数据集成
HADOOP
哈希分桶存储
并行关联查询
Keywords
big data of power distribution and utilization
data integration
Hadoop
hash bucket
storage
parallel association query
分类号
TM76 [电气工程—电力系统及自动化]
下载PDF
职称材料
题名
基于Hadoop的风力发电监测大数据存储优化及并行查询方法
被引量:
23
16
作者
王林童
赵腾
张焰
苏运
机构
上海交通大学电气工程系
国网上海市电力公司电力科学研究院
出处
《电测与仪表》
北大核心
2018年第11期1-6,共6页
基金
国家高技术研究发展计划项目(863计划)(2015AA050203)
国家电网公司科技项目(520900150037)
文摘
随着风力发电的广泛发展以及智能化监测技术的推广应用,风力发电监测数据呈现出体量大、类型多、增长快的大数据特征。针对风力发电监测大数据高效存储和快速查询两方面核心问题,基于Hadoop平台进行大数据存储优化方法研究,提出考虑风力发电监测数据关联性的哈希分桶存储算法,实现了相关联数据的集中存储,从而提升后期数据查询及处理的效率。在数据存储优化的基础上,实现基于MapReduce的多源风力发电监测大数据并行关联查询。通过在Hadoop平台上进行测试表明,经过哈希分桶存储优化后的多源数据并行关联查询相比传统Hadoop方法查询时间显著缩短。
关键词
大数据
风力发电监测
HADOOP
哈希分桶算法
Keywords
big data
wind power monitoring
Hadoop
hash bucket
algorithm
分类号
TM721 [电气工程—电力系统及自动化]
下载PDF
职称材料
题名
EasiFFRA:一种基于邻域粗糙集的属性快速约简算法
被引量:
7
17
作者
王念
彭政红
崔莉
机构
中国科学院计算技术研究所
中国科学院大学
出处
《计算机研究与发展》
EI
CSCD
北大核心
2019年第12期2578-2588,共11页
基金
国家自然科学基金项目(61672498)
国家重点研发计划项目(2016YFC0302300)~~
文摘
从高维异构感知信息中提取有效特征是支撑物联网系统预测与识别的基础.物联网场景中通常包括多个多种感知节点,系统通常会从感知数据中提取大量特征,其中不乏部分无关和冗余特征.这些无关及冗余特征会降低系统的运行速度,引入冗余计算,更会影响后续的分类及预测等机器学习操作的性能.因而高效识别并提取低维有效的特征子集是物联网数据分析所面临的一大挑战.邻域粗糙集方法能够在保持数据集可分性的前提下,识别和去除无关及冗余特征子集,从而达到降维效果.但由于现有基于邻域粗糙集的特征约简算法的计算开销大、运行时间长,故而并未得到广泛应用.提出了一种基于邻域关系对称性及决策值过滤策略的特征快速约简算法EasiFFRA.EasiFFRA可通过改进的散列分桶方法加速正域样本计算,可检验并过滤冗余决策值样本,从而降低现有方法中由于重复距离评估所带来的冗余计算.实验结果表明:EasiFFRA在实际采集的水质数据集和多个不同样本量及维度的公开数据集中平均加快75.45%的特征约简时间,其约简结果和已有邻域粗糙集特征约简算法等效,可有效解决物联网数据分析中由冗余及无关特征导致的分类及预测精度下降问题,有重要应用价值.
关键词
邻域粗糙集
特征约简
对称机制
过滤机制
散列分桶
Keywords
neighborhood rough set
feature reduction
symmetry mechanism
filtration mechanism
hash bucket
s
分类号
TP391 [自动化与计算机技术—计算机应用技术]
TP18 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
基于大数据技术风电机组容量可信度计算
被引量:
11
18
作者
候卫萍
蔺红
机构
新疆大学电气工程学院
出处
《电测与仪表》
北大核心
2020年第14期39-44,共6页
基金
新疆维吾尔自治区自然科学基金项目(2017D01C029)。
文摘
在大规模风电并网的前提下,风电容量可信度计算对电力系统可靠运行具有重要意义。论文基于电量不足期望(LOEE)可靠性指标,考虑风电场间时空相关性的影响因素,采用非序贯蒙特卡洛法对风电容量可信度进行计算。风电容量可信度的计算需要的数据有风速、风电出力、风电机组地理位置信息等数据,由于计算所需的数据量大、类型多、来源广等特点,提出基于Hadoop架构的大数据技术计算风电容量可信度,针对Hadoop架构存在的机架感知不平衡及存储数据间缺乏相关性问题,引入机架感知配置法和哈希桶存储算法对其进行改进,提高了数据存储及数据处理的效率,减少计算时间,通过实例验证文中所提方法的有效性。
关键词
Hadoop架构
风电容量可信度
哈希桶存储
蒙特卡洛
大数据技术
Keywords
hadoop architecture
wind power capacity reliability
hash bucket
storage
Monte Carlo
big data technology
分类号
TM93 [电气工程—电力电子与电力传动]
下载PDF
职称材料
题名
基于对象存储系统中属性管理的研究与实现
19
作者
王慧丽
冯丹
覃灵军
机构
华中科技大学计算机科学与技术学院外存储教育部重点实验室
出处
《计算机应用研究》
CSCD
北大核心
2007年第11期188-190,共3页
基金
国家"973"计划资助项目(2004CB318201)
文摘
针对现有属性管理方法上的缺陷和不足,提出了一种新的属性管理方法——哈希桶。哈希桶方法对对象的属性进行集中管理,不仅降低了管理存储成本,更有效地提高了系统的吞吐率。经过仿真测试表明,哈希桶对象属性管理方法性能远优于现有的属性管理方法。
关键词
基于对象存储系统
对象属性
哈希桶
Keywords
object-based storage system(OBSS)
object attribute
hash bucket
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
基于多级索引的高维数据近似最近邻搜索
被引量:
4
20
作者
杨凤丽
李娜
刘仁芬
机构
石家庄铁道大学四方学院
出处
《计算机仿真》
北大核心
2022年第11期398-401,共4页
文摘
当前的高维数据最近邻搜索方法大多应用单级索引,导致近邻搜索稳定性较差,且时间开销较大。为此提出基于多级索引的高维数据近似最近邻搜索方法。利用二级距离敏感哈希算法(M2LSH)实现多级索引。将第一次哈希处理的高维数据输入哈希桶内,使用二次哈希映射桶号,使其在一维空间中呈现。依据各桶内数据量完成临近哈希桶合并,将新哈希桶作为候选搜索集合,实现高维数据近似最近邻搜索。实验结果表明:不同相邻桶距离下,所提算法优化后的近似比率均可保持在1左右,搜索效果大幅度提升,且稳定性较好;将该算法的哈希函数数量和哈希桶宽度分别设置为12、3,能获得更优异的搜索效果,并极大地节省时间开销,说明多级索引是处理高维数据近似最近邻问题的有效方法。
关键词
多级索引
高维数据
近似最近邻
距离敏感哈希
哈希桶
Keywords
Multi level index
High dimensional data
Approximate nearest neighbor
Distance sensitive
hash
hash bucket
分类号
TP311.3 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于RS_Hash频繁项集的卫星载荷关联规则算法
贾澎涛
温滋
《国外电子测量技术》
北大核心
2023
0
下载PDF
职称材料
2
一种避免数据偏斜的动态Hash连接方法
洪晓光
王新军
董继润
《软件学报》
EI
CSCD
北大核心
1997
1
下载PDF
职称材料
3
基于哈希桶和聚类的变半径邻域粗糙集模型
李华
孟祥瑞
《江苏科技大学学报(自然科学版)》
CAS
2024
0
下载PDF
职称材料
4
基于Hash表的数据库索引结构设计与实现
汪超
何丕廉
李志明
《微处理机》
2007
3
下载PDF
职称材料
5
无人机集群 SDN 交换机转发表的设计与实现
张栋
徐任晖
乔庐峰
续欣
鲁铭洋
《通信技术》
2023
1
下载PDF
职称材料
6
哈希桶Variety-B树的数据流处理方法
王竹荣
伊珍珍
黑新宏
冯华萍
费蓉
《西安理工大学学报》
CAS
北大核心
2017
1
下载PDF
职称材料
7
适用于范围查询的列存储数据桶划分算法
李晔锋
乐嘉锦
王梅
《计算机研究与发展》
EI
CSCD
北大核心
2013
3
下载PDF
职称材料
8
NoSQL数据库技术在嵌入式装置中的应用
范三龙
秦成虎
《工业仪表与自动化装置》
2020
3
下载PDF
职称材料
9
并行数据库中JOIN运算的并行算法
黄明和
钟萃相
《计算机工程与科学》
CSCD
2006
2
下载PDF
职称材料
10
基于位置敏感哈希的海量文本数据查询算法研究
蒋巍
《科技通报》
北大核心
2013
1
下载PDF
职称材料
11
线对象邻接关系快速重构算法
廖名学
范植华
何晓新
《计算机应用》
CSCD
北大核心
2008
0
下载PDF
职称材料
12
基于多表频繁项投票和桶映射链的快速检索方法
高毫林
彭天强
李弼程
郭志刚
《电子与信息学报》
EI
CSCD
北大核心
2012
5
下载PDF
职称材料
13
基于均衡学习的增强哈希桶模型研究
王小玲
鲁鹏
《光通信研究》
北大核心
2014
0
下载PDF
职称材料
14
基于敏捷分桶的频繁项目集生成新算法
周启海
陈勇明
《计算机科学》
CSCD
北大核心
2007
0
下载PDF
职称材料
15
配用电大数据多源集成及存储优化方法
王林童
赵腾
张焰
苏运
田世明
《高电压技术》
EI
CAS
CSCD
北大核心
2018
22
下载PDF
职称材料
16
基于Hadoop的风力发电监测大数据存储优化及并行查询方法
王林童
赵腾
张焰
苏运
《电测与仪表》
北大核心
2018
23
下载PDF
职称材料
17
EasiFFRA:一种基于邻域粗糙集的属性快速约简算法
王念
彭政红
崔莉
《计算机研究与发展》
EI
CSCD
北大核心
2019
7
下载PDF
职称材料
18
基于大数据技术风电机组容量可信度计算
候卫萍
蔺红
《电测与仪表》
北大核心
2020
11
下载PDF
职称材料
19
基于对象存储系统中属性管理的研究与实现
王慧丽
冯丹
覃灵军
《计算机应用研究》
CSCD
北大核心
2007
0
下载PDF
职称材料
20
基于多级索引的高维数据近似最近邻搜索
杨凤丽
李娜
刘仁芬
《计算机仿真》
北大核心
2022
4
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
2
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部