期刊文献+
共找到12篇文章
< 1 >
每页显示 20 50 100
基于Hash表的改进Apriori算法
1
作者 钟育彬 李健标 《广州大学学报(自然科学版)》 CAS 2018年第6期7-9,共3页
Apriori算法是一种经典的关联分析挖掘算法.经典Apriori算法计算效率偏低,并且需要多次扫描数据库.针对这些问题,文章提出了基于Hash表改进的Apriori算法.基于Hash表的改进Apriori算法计算时只需扫描对应频繁项集Hash表中对应的项,缩小... Apriori算法是一种经典的关联分析挖掘算法.经典Apriori算法计算效率偏低,并且需要多次扫描数据库.针对这些问题,文章提出了基于Hash表改进的Apriori算法.基于Hash表的改进Apriori算法计算时只需扫描对应频繁项集Hash表中对应的项,缩小了扫描范围,并且只需要扫描一次数据库.对比经典的Apriori算法,性能具有显著提高. 展开更多
关键词 APRIORI算法 最小支持度 频繁项集 hash
下载PDF
基于最小哈希的网络多路虚假数据清洗算法 被引量:1
2
作者 王影 李柯景 《计算机仿真》 北大核心 2023年第5期511-514,519,共5页
传统数据清洗方法未进行数据真实属性相似度衡量,存在网络多路虚假数据清洗效果不佳,于是提出最小哈希的网络多路虚假数据清洗算法。对网络多路数据进行整合并构建先验知识库,根据贝叶斯分类进行相关性模型特征归纳;基于编码所属类型实... 传统数据清洗方法未进行数据真实属性相似度衡量,存在网络多路虚假数据清洗效果不佳,于是提出最小哈希的网络多路虚假数据清洗算法。对网络多路数据进行整合并构建先验知识库,根据贝叶斯分类进行相关性模型特征归纳;基于编码所属类型实现后验概率编码分类,进行多路数据编码转换;将哈希等级较低的集合作为指纹信息,设置两个多路数据集合,使用最小哈希计算数据相似度;通过相似度衡量数据真实属性;构建前馈型神经网络数据清洗模型,推算网络模型样本训练偏差,同时初始化参变量与种群,运用轮盘赌方法获得匀称分布随机值,将各变量引入数据清洗模型反复执行选择、交叉、变异操作,实现高精度虚假数据清洗目标。仿真结果表明:与传统方法相比,所提方法具有更高的查全率,数据清洗效率也得到显著提升,为用户提供更加安全可靠的网络交流环境。 展开更多
关键词 最小哈希 虚假数据 数据清洗 编码转换 遗传神经网络
下载PDF
融合MHS与AIM-RT的谱聚类优化推荐算法 被引量:4
3
作者 邱宁佳 王宪勇 +1 位作者 王鹏 杨华民 《计算机应用研究》 CSCD 北大核心 2020年第11期3292-3296,共5页
传统协同过滤推荐算法存在时序性过低以及用户过多时数据稀疏相似用户计算复杂度高等问题。为此,提出融合最小哈希签名(MHS)与时序模型预测(AIM-RT)的谱聚类优化推荐算法。首先使用MHS与Levenshtein距离测度对用户—项目评分矩阵提取相... 传统协同过滤推荐算法存在时序性过低以及用户过多时数据稀疏相似用户计算复杂度高等问题。为此,提出融合最小哈希签名(MHS)与时序模型预测(AIM-RT)的谱聚类优化推荐算法。首先使用MHS与Levenshtein距离测度对用户—项目评分矩阵提取相似用户;然后利用时序模型进行权重拟合的AIM-RT预测算法预测评分补全相似用户稀疏矩阵;最后结合谱聚类进行相似用户优化,找到最优相似用户集合完成最终推荐。通过实验分析验证表明,所提推荐算法能够在计算复杂度、评分预测精度、数据缺失填补等方面提高整体推荐性能。 展开更多
关键词 推荐算法 最小哈希签名 时序模型 权重拟合 谱聚类
下载PDF
动车组运维效率关联规则挖掘优化算法 被引量:3
4
作者 张春 周静 《计算机研究与发展》 EI CSCD 北大核心 2017年第9期1958-1965,共8页
随着动车组运营时间和运营里程的增长,动车组运维系统积累了大量的数据.利用高效的关联规则挖掘算法从动车组运维数据中快速发现有用的信息,对于提高动车组关键部件运维效率具有重要意义.针对动车组运维数据的数据量巨大、价值密度低的... 随着动车组运营时间和运营里程的增长,动车组运维系统积累了大量的数据.利用高效的关联规则挖掘算法从动车组运维数据中快速发现有用的信息,对于提高动车组关键部件运维效率具有重要意义.针对动车组运维数据的数据量巨大、价值密度低的特点,设计一种基于近似最小完美Hash函数的AMPHP(approximate minimum perfect hashing and pruning)算法,相较于传统的直接Hash和修剪(direct hashing and pruning,DHP)算法,它可以过滤掉所有的非频繁项集,无需额外的数据库扫描.为了突破单机算法的性能限制,借鉴SON算法思想对AMPHP算法进行并行化改进,提出AMPHPSON算法,进一步提高算法性能.使用实际的动车组牵引电机运维数据进行测试分析,实验结果表明,AMPHP-SON算法具有很好的时间性能,且挖掘出的规则可以有效地指导动车组修程修制优化,从而达到提高动车组运维效率的目的. 展开更多
关键词 关联规则挖掘 DHP算法 近似最小完美hash函数 SON算法 动车组
下载PDF
谈专业竞赛对教学实践改革的促进作用 被引量:2
5
作者 程玉胜 程树林 庞淑芳 《计算机教育》 2009年第22期135-137,160,共4页
本文结合"数据结构"实践教学,探讨了高等教育大众化教育背景下计算机专业人才培养模式。通过介绍近年来我校参加的计算机专业竞赛,说明改革实践教学模式的必要性。
关键词 实践教学 竞赛 基数排序 最小生成树 哈希函数
下载PDF
实现Prim算法的新方法
6
作者 郑守春 《沈阳工业大学学报》 EI CAS 1990年第1期79-86,共8页
一种用链结和散列技术实现Prim算法的新方法,并把这种方法和传统的方法进行了比较。结果表 明:本方法的时间复杂度低于传统方法的时间复杂度,并且随着网络中顶点数的不断增加,本方法对比 传统方法提高的效率也在不断增加。在华立机上运... 一种用链结和散列技术实现Prim算法的新方法,并把这种方法和传统的方法进行了比较。结果表 明:本方法的时间复杂度低于传统方法的时间复杂度,并且随着网络中顶点数的不断增加,本方法对比 传统方法提高的效率也在不断增加。在华立机上运行的结果符合文中给出的算法分析。 展开更多
关键词 数据 结构 最小 链环 散列 PRIM算法
下载PDF
一种基于最小哈希的二值特征匹配方法 被引量:2
7
作者 郭倩 孙涵 《计算机与现代化》 2016年第6期73-78,共6页
特征匹配是图像识别中一个基本研究问题。常用的匹配方式一般是基于贪婪算法的线性扫描方式,但只适用于低维数据。当数据维数超过一定程度时,这些匹配方法的时间效率将会急剧下降,甚至不强于强力线性扫描方法。本文提出一种基于最小哈... 特征匹配是图像识别中一个基本研究问题。常用的匹配方式一般是基于贪婪算法的线性扫描方式,但只适用于低维数据。当数据维数超过一定程度时,这些匹配方法的时间效率将会急剧下降,甚至不强于强力线性扫描方法。本文提出一种基于最小哈希的二值特征匹配方法。通过最小哈希函数映射变换操作,将原始特征集合分成多个子集合,并将一个在超大集合下内查找相邻元素的问题转化为在一个很小的集合内查找相邻元素的问题,计算量有所下降。使用Jaccard距离度量的最小哈希函数能最大限度地保证原始数据中相似的向量对在哈希变换后依然相似。实验表明这种匹配方法应用在二值特征上时,可以获得比KD-Tree更好的匹配效果。 展开更多
关键词 最小哈希 二值特征 特征匹配
下载PDF
面向Top-k快速查询的层次化LSH索引方法
8
作者 罗雄才 高军 《计算机研究与发展》 EI CSCD 北大核心 2015年第S1期56-63,共8页
局部敏感哈希(locality sensitive hashing,LSH)用于在海量高维数据中检索相似的数据项,它能高效地返回相似度大于用户给定阈值的数据对.但是,由于需要设置固定阈值,LSH无法直接处理Top-k相似查询.传统LSH索引算法需要设置一系列阈值,... 局部敏感哈希(locality sensitive hashing,LSH)用于在海量高维数据中检索相似的数据项,它能高效地返回相似度大于用户给定阈值的数据对.但是,由于需要设置固定阈值,LSH无法直接处理Top-k相似查询.传统LSH索引算法需要设置一系列阈值,分别建立索引,时间和空间代价较大.提出了一种层次化的LSH索引算法,通过动态构建层次化相似度图,充分利用三角不等式,减少不必要的索引构建代价.具体来讲,首先通过高阈值构建相似度图,将高度相似的数据点抽象成"超点",再在"超点"上构建低阈值的相似度图.查询时,首先查询高阈值相似度图;数量不足时再查询低阈值相似度图.实验表明,相比传统LSH算法,本文方法在构建索引的时间和空间代价上减小一个数量级,查询更加高效. 展开更多
关键词 层次化局部敏感哈希 minhash TOP-K查询 相似度图 三角不等式
下载PDF
ES_SSE:一种文本重复检测方法
9
作者 杨荣 李兵 +2 位作者 王电化 吴谋 邓树文 《计算机应用与软件》 北大核心 2018年第7期286-289,333,共5页
对集合的相似性进行高效估计,在计算机的很多应用中都是要解决的一个核心问题。基于原始最小哈希算法,提出一种压缩二进制解决框架ES_SSE(Even Sketch for Set Similarity Estimation)来对集合间的杰卡德相似系数进行估计。对ES_SSE和b-... 对集合的相似性进行高效估计,在计算机的很多应用中都是要解决的一个核心问题。基于原始最小哈希算法,提出一种压缩二进制解决框架ES_SSE(Even Sketch for Set Similarity Estimation)来对集合间的杰卡德相似系数进行估计。对ES_SSE和b-bit进行了模型介绍,并详细描述了ES_SSE的构造原理;分析了Jaccard similarity估计所利用的理论模型基础,并建立了估计量模型;通过实验验证了ES_SSE的高效性能,当J值大于80%时,ES_SSE比b-bit的性能优势更加明显。 展开更多
关键词 相似性 哈希算法 杰卡德相似性 b位最小哈希 估计量
下载PDF
融合结构与属性相似性的加权图聚集算法
10
作者 邴睿 马慧芳 +1 位作者 刘宇航 余丽 《计算机工程与科学》 CSCD 北大核心 2019年第10期1777-1784,共8页
图聚集技术是将一个大规模图用简洁的小规模图来表示,同时保留原始图的结构和属性信息的技术。现有算法未同时考虑节点的属性信息与边的权重信息,导致图聚集后与原始图存在较大差异。因此,提出一种同时考虑节点属性信息与边权重信息的... 图聚集技术是将一个大规模图用简洁的小规模图来表示,同时保留原始图的结构和属性信息的技术。现有算法未同时考虑节点的属性信息与边的权重信息,导致图聚集后与原始图存在较大差异。因此,提出一种同时考虑节点属性信息与边权重信息的图聚集算法,使得聚集图既保留了节点属性相似度又保留了边权重信息。该算法首先定义了闭邻域结构相似度,通过一种剪枝策略来计算节点之间的结构相似度;其次使用最小哈希(MinHash)技术计算节点之间的属性相似度,并调节结构相似与属性相似所占的比例;最后,根据2方面相似度的大小对加权图进行聚集。实验表明了该算法可行且有效。 展开更多
关键词 图聚集 结构相似度 属性相似度 加权图 最小哈希
下载PDF
基于最小失真的视频水印算法
11
作者 赵生娜 《电脑与电信》 2021年第9期48-54,共7页
视频水印算法是在视频序列中隐藏有意义的水印信息,达到保护版权和内容认证的目的。首先利用视频帧直方图差分法对视频进行场景划分,并根据视频帧直方图差分统计差异提取出视频序列的关键帧;然后提出了一种基于图像小波系数最小失真代价... 视频水印算法是在视频序列中隐藏有意义的水印信息,达到保护版权和内容认证的目的。首先利用视频帧直方图差分法对视频进行场景划分,并根据视频帧直方图差分统计差异提取出视频序列的关键帧;然后提出了一种基于图像小波系数最小失真代价与Hash区块加密相结合的水印嵌入位置选取策略,确定最佳水印嵌入位置;最后,将水印信息嵌入到图像目标位置的DWT-SVD域中。实验结果显示,该算法具有良好的鲁棒性,更好地平衡了水印算法的不可感知性和鲁棒性。 展开更多
关键词 视频水印 直方图差分 最小失真代价 hash区块 DWT-SVD
下载PDF
一种基于局部敏感哈希的文本数据去重算法及其实现
12
作者 申峻宇 李东闻 +1 位作者 钟震宇 张玉志 《南开大学学报(自然科学版)》 CAS CSCD 北大核心 2023年第6期29-35,共7页
预训练语言模型的发展激发对网络数据的大规模需求,而网络数据往往具有较高的重复性和相似性,需要经过去重才能更好地被用于模型训练.目前的去重算法可以去除相似和相同的文本数据,但存在运算效率较低的问题,难以用于处理大规模文本数据... 预训练语言模型的发展激发对网络数据的大规模需求,而网络数据往往具有较高的重复性和相似性,需要经过去重才能更好地被用于模型训练.目前的去重算法可以去除相似和相同的文本数据,但存在运算效率较低的问题,难以用于处理大规模文本数据.本研究提出一种面向大规模文本数据的去重算法,采用先局部后整体的去重策略,极大提高了去重的运算效率.实验结果表明,算法在50 h内完成371 GB数据的去重处理,较已有算法极大地提高了去重效率. 展开更多
关键词 文本去重 最小哈希 局部敏感哈希
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部