期刊文献+
共找到831篇文章
< 1 2 42 >
每页显示 20 50 100
Numeric Identifier Transmission Algorithm Using Hash Function
1
作者 Vladyslav Kutsman 《Open Journal of Applied Sciences》 2023年第9期1581-1587,共7页
When developing programs or websites, it is very convenient to use relational databases, which contain powerful and convenient tools that allow to work with data very flexibly and get the necessary information in a ma... When developing programs or websites, it is very convenient to use relational databases, which contain powerful and convenient tools that allow to work with data very flexibly and get the necessary information in a matter of milliseconds. A relational database consists of tables and records in these tables, each table must have a primary key, in particular, it can be a number of BIGINT type, which is a unique index of a record in the table, which allows to fetch operation with maximum speed and O (1) complexity. After the operation of writing a row to the table of database, the program receives the row identifier ID in the form of a number, and in the future this ID can be used to obtain this record. In the case of a website, this could be the GET method of the http protocol with the entry ID in the request. But very often it happens that the transmission of an identifier in the clear form is not safe, both for business reasons and for security reasons of access to information. And in this case, it is necessary to create additional functionality for checking access rights and come up with a way to encode data in such a way that it would be impossible to determine the record identifier, and this, in turn, leads to the fact that the program code becomes much more complicated and also increases the amount of data, necessary to ensure the operation of the program. This article presents an algorithm that solves these problems “on the fly” without complicating the application logic and does not require resources to store additional information. Also, this algorithm is very reliable since it is based on the use of hash functions and synthesized as a result of many years of work related to writing complex systems that require an increased level of data security and program performance. 展开更多
关键词 CRYPTOGRAPHY Security CODING hash Functions algorithmS Fintech BANKING Golang POSTGRESQL
下载PDF
基于Simhash算法的题库查重系统的设计与实现
2
作者 熊良钰 邓伦丹 《科学技术创新》 2024年第9期91-94,共4页
Simhash算法是一种基于局部敏感哈希(LSH)的技术,以其快速的计算速度和高度的查重准确性而知名。该算法通过将文本特征转换为二进制码,进而通过计算这些二进制码之间的汉明距离来评估文本的相似度。在文本去重和重复文档检测等多个领域,... Simhash算法是一种基于局部敏感哈希(LSH)的技术,以其快速的计算速度和高度的查重准确性而知名。该算法通过将文本特征转换为二进制码,进而通过计算这些二进制码之间的汉明距离来评估文本的相似度。在文本去重和重复文档检测等多个领域,Simhash算法已经展现出了显著的效果。鉴于此,将Simhash算法应用于题库查重具有很高的可行性和实际应用价值。 展开更多
关键词 Simhash算法 汉明距离 题库查重系统 文本相似度计算 哈希函数
下载PDF
基于word-hashing的DGA僵尸网络深度检测模型 被引量:8
3
作者 赵科军 葛连升 +1 位作者 秦丰林 洪晓光 《东南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2017年第A01期30-33,共4页
针对使用域名生成算法(DGA)僵尸网络隐蔽性强,传统检测算法特征提取复杂的问题,提出一种无需提取具体特征的深度学习模型DGA域名检测方法.首先基于word-hashing将所有域名转用二元语法字符串表示,利用词袋模型把域名映射到高维向量空间... 针对使用域名生成算法(DGA)僵尸网络隐蔽性强,传统检测算法特征提取复杂的问题,提出一种无需提取具体特征的深度学习模型DGA域名检测方法.首先基于word-hashing将所有域名转用二元语法字符串表示,利用词袋模型把域名映射到高维向量空间.然后利用5层深度神经网络对转换为高维向量的域名进行训练分类检测.通过深度模型,能够从训练数据中发现不同层次抽象的隐藏模式和特征,而这些模式和特征使用传统的统计方法大多是无法发现的.实验中使用了10万条DGA域名和10万条合法域名作为样本,与基于自然语言特征分类算法进行对比实验.实验结果表明该深度模型对DGA域名检测准确率达到97.23%,比基于自然语言特征分类算法得到的检测准确率高3.7%. 展开更多
关键词 DGA 僵尸网络 wordhashing 深度学习
下载PDF
Trie Hashing结构平均路径长度分析
4
作者 王宏 熊西文 朱振文 《大连理工大学学报》 EI CAS CSCD 北大核心 1991年第5期507-514,共8页
针对 W.Litwin提出的 Trie Hashing结构的路径长度分析问题,研究并揭示 了该结构所具有的某些新的性质;建立了必要的分析前提.从而给出了 Trie Hashing 结构平均路径长度的分析方法。所得估计式仅与... 针对 W.Litwin提出的 Trie Hashing结构的路径长度分析问题,研究并揭示 了该结构所具有的某些新的性质;建立了必要的分析前提.从而给出了 Trie Hashing 结构平均路径长度的分析方法。所得估计式仅与外部结点数目有关,理论分析与模拟 实验的结果表明,对于 Trie Hashing 结构,文中的分析方法明显优于 Klein 和 wood的类似结果。 展开更多
关键词 T-H结构 算法分析
下载PDF
基于RS_Hash频繁项集的卫星载荷关联规则算法
5
作者 贾澎涛 温滋 《国外电子测量技术》 北大核心 2023年第2期9-15,共7页
遥测数据是反映卫星健康状态的重要依据,对遥测载荷数据进行关联性分析,在一定程度上能反映出卫星的整体运行情况的好坏。针对传统关联规则算法存在效率低下、占用内存过多的问题,提出一种基于RS_Hash频繁项集的卫星载荷关联规则算法。... 遥测数据是反映卫星健康状态的重要依据,对遥测载荷数据进行关联性分析,在一定程度上能反映出卫星的整体运行情况的好坏。针对传统关联规则算法存在效率低下、占用内存过多的问题,提出一种基于RS_Hash频繁项集的卫星载荷关联规则算法。首先对事务数据库使用动态随机抽样的方法获取样本数据,设计抽样误差和抽样停止规则来确定最优的样本容量;其次将抽取出的样本使用哈希桶来存储频繁项集,进而减少占用的内存,提高算法的运行效率;最后使用3个与载荷数据相似的公开数据集和卫星载荷数据集进行实验,结果表明,在公共数据集上取得了良好的效果,尤其是在具有大数据量级的卫星载荷数据集上效果明显,在不同事务长度和支持度的情况下,相较于Apriori、PCY、SON、FP-Growth、RCM_Apriori和Hash_Cumulate算法,RS_Hash算法在平均时间效率上分别提高了75.81%、49.10%、59.38%、50.22%、40.16%和39.22%。 展开更多
关键词 卫星载荷分析 关联规则 频繁项集 动态随机抽样算法 哈希桶
下载PDF
机群系统上基于Hashing的多目标串匹配并行算法
6
作者 范曾 钟诚 +1 位作者 莫倩芸 刘萍 《微电子学与计算机》 CSCD 北大核心 2007年第9期165-168,共4页
基于孙子定理构造均匀的Hash函数并继承Karp-Rabin模式匹配思想,利用"筛选"方法,给出一种机群系统上的多目标串匹配并行算法。通过预处理将字符串映射成惟一的一对整数值,采用比较一对整数值来取代逐个字符比较字符串的方法... 基于孙子定理构造均匀的Hash函数并继承Karp-Rabin模式匹配思想,利用"筛选"方法,给出一种机群系统上的多目标串匹配并行算法。通过预处理将字符串映射成惟一的一对整数值,采用比较一对整数值来取代逐个字符比较字符串的方法使得匹配过程快速且比较结果是确定的;"筛选"节省了比较时间。算法分析和实验结果表明该并行算法简明、高效和可扩展。 展开更多
关键词 多目标串匹配:词典匹配:并行算法:hashing:机群系统
下载PDF
Study on An Absolute Non-Collision Hash and Jumping Table IP Classification Algorithms
7
作者 SHANG Feng-jun 1,2 ,PAN Ying-jun 1 1. Key Laboratory of Opto-Electronic Technology and System of Ministry of Education/College of Opto-Electronic Engineering,Chongqing University, Chongqing 400044,China 2. College of Computer Science and Technology, Chongqing University of Posts and Telecommunications, Chongqing 400065,China 《Wuhan University Journal of Natural Sciences》 EI CAS 2004年第5期835-838,共4页
In order to classify packet, we propose a novel IP classification based the non-collision hash and jumping table trie-tree (NHJTTT) algorithm, which is based on noncollision hash Trie-tree and Lakshman and Stiliadis p... In order to classify packet, we propose a novel IP classification based the non-collision hash and jumping table trie-tree (NHJTTT) algorithm, which is based on noncollision hash Trie-tree and Lakshman and Stiliadis proposing a 2-dimensional classification algorithm (LS algorithm). The core of algorithm consists of two parts: structure the non-collision hash function, which is constructed mainly based on destination/source port and protocol type field so that the hash function can avoid space explosion problem; introduce jumping table Trie-tree based LS algorithm in order to reduce time complexity. The test results show that the classification rate of NHJTTT algorithm is up to 1 million packets per second and the maximum memory consumed is 9 MB for 10 000 rules. Key words IP classification - lookup algorithm - trie-tree - non-collision hash - jumping table CLC number TN 393.06 Foundation item: Supported by the Chongqing of Posts and Telecommunications Younger Teacher Fundation (A2003-03).Biography: SHANG Feng-jun (1972-), male, Ph.D. candidate, lecture, research direction: the smart instrument and network. 展开更多
关键词 IP classification lookup algorithm trie-tree non-collision hash jumping table
下载PDF
Hybrid Key Duplication Hashing Techniques for IP Address Lookup
8
作者 Rujiroj Tiengtavat Wei-Ming Lin 《International Journal of Communications, Network and System Sciences》 2011年第5期323-334,共12页
This In the past decade there has been an increasing need for designs to address the time and cost efficiency issues from various computer network applications such as general IP address lookup and specific network in... This In the past decade there has been an increasing need for designs to address the time and cost efficiency issues from various computer network applications such as general IP address lookup and specific network intrusion detection. Hashing techniques have been widely adopted for this purpose, among which XOR-operation-based hashing is one of most popular techniques due to its relatively small hash process delay. In most current commonly used XOR-hashing algorithms, each of the hash key bits is usually explicitly XORed only at most once in the hash process, which may limit the amount of potential randomness that can be introduced by the hashing process. In [1] a series of bit duplication techniques are proposed by systematically duplicating one row of key bits. This paper further looks into various ways in duplicating and reusing key bits to maximize randomness needed in the hashing process so as to enhance the overall performance further. Our simulation results show that, even with a slight increase in hardware requirement, a very significant reduction in the amount of hash collision can be obtained by the proposed technique. 展开更多
关键词 hash algorithm IP ADDRESS LOOKUP INTRUSION Detection
下载PDF
基于Hash和倒排项集的海上钻井平台隐患关.联分析
9
作者 易军 陈凯 +3 位作者 蔡昆 车承志 周伟 刘洪 《安全与环境学报》 CAS CSCD 北大核心 2023年第4期981-988,共8页
为了充分挖掘海上平台隐患案例中隐患属性与致因之间的关联性,提高对平台隐患风险预测的准确性和时效性,提出了一种基于Hash技术和倒排项集的关联规则挖掘模式。首先针对292条平台结构现场数据的每个隐患属性进行分析提取;其次在多支持... 为了充分挖掘海上平台隐患案例中隐患属性与致因之间的关联性,提高对平台隐患风险预测的准确性和时效性,提出了一种基于Hash技术和倒排项集的关联规则挖掘模式。首先针对292条平台结构现场数据的每个隐患属性进行分析提取;其次在多支持度下,按照多维、多层关联规则挖掘模式挖掘隐患设备、隐患位置、隐患现象等属性的关联规则;然后提出用信息增益来衡量关联规则的有效性;最后,根据挖掘结果分析并总结海上钻井平台隐患特征。结果表明:春季油水分离器常出现缺少保养的隐患,护管常出现未封堵的隐患;一般腐蚀和锈蚀的致因为操作维保不当、防护层剥落,以及防护装置锈蚀严重、脱焊、不符合规范,提高海上平台管理水平可减小现场隐患的发生概率。 展开更多
关键词 安全工程 海上钻井 多维关联规则 APRIORI算法 hash技术
下载PDF
Research and Implementation of Time Synchronous Dynamic Password Based on SM3 Hash Algorithm
10
作者 Dognery Sinaly Silue Wanggen Wan Muhammad Rizwan 《Open Journal of Applied Sciences》 2016年第13期893-902,共10页
With the rapid development of information technology, demand of network & information security has increased. People enjoy many benefits by virtue of information technology. At the same time network security has b... With the rapid development of information technology, demand of network & information security has increased. People enjoy many benefits by virtue of information technology. At the same time network security has become the important challenge, but network information security has become a top priority. In the field of authentication, dynamic password technology has gained users’ trust and favor because of its safety and ease of operation. Dynamic password, SHA (Secure Hash Algorithm) is widely used globally and acts as information security mechanism against potential threat. The cryptographic algorithm is an open research area, and development of these state-owned technology products helps secure encryption product and provides safeguard against threats. Dynamic password authentication technology is based on time synchronization, using the state-owned password algorithm. SM3 hash algorithm can meet the security needs of a variety of cryptographic applications for commercial cryptographic applications and verification of digital signatures, generation and verification of message authentication code. Dynamic password basically generates an unpredictable random numbers based on a combination of specialized algorithms. Each password can only be used once, and help provide high safety. Therefore, the dynamic password technology for network information security issues is of great significance. In our proposed algorithm, dynamic password is generated by SM3 Hash Algorithm using current time and the identity ID and it varies with time and changes randomly. Coupled with the SM3 hash algorithm security, dynamic password security properties can be further improved, thus it effectively improves network authentication security. 展开更多
关键词 Dynamic Password Authentication SM3 hash algorithm Network Authentication Security One Time Password
下载PDF
A Review of Image Steganography Based on Multiple Hashing Algorithm
11
作者 Abdullah Alenizi Mohammad Sajid Mohammadi +1 位作者 Ahmad A.Al-Hajji Arshiya Sajid Ansari 《Computers, Materials & Continua》 SCIE EI 2024年第8期2463-2494,共32页
Steganography is a technique for hiding secret messages while sending and receiving communications through a cover item.From ancient times to the present,the security of secret or vital information has always been a s... Steganography is a technique for hiding secret messages while sending and receiving communications through a cover item.From ancient times to the present,the security of secret or vital information has always been a significant problem.The development of secure communication methods that keep recipient-only data transmissions secret has always been an area of interest.Therefore,several approaches,including steganography,have been developed by researchers over time to enable safe data transit.In this review,we have discussed image steganography based on Discrete Cosine Transform(DCT)algorithm,etc.We have also discussed image steganography based on multiple hashing algorithms like the Rivest–Shamir–Adleman(RSA)method,the Blowfish technique,and the hash-least significant bit(LSB)approach.In this review,a novel method of hiding information in images has been developed with minimal variance in image bits,making our method secure and effective.A cryptography mechanism was also used in this strategy.Before encoding the data and embedding it into a carry image,this review verifies that it has been encrypted.Usually,embedded text in photos conveys crucial signals about the content.This review employs hash table encryption on the message before hiding it within the picture to provide a more secure method of data transport.If the message is ever intercepted by a third party,there are several ways to stop this operation.A second level of security process implementation involves encrypting and decrypting steganography images using different hashing algorithms. 展开更多
关键词 Image steganography multiple hashing algorithms hash-LSB approach RSA algorithm discrete cosine transform(DCT)algorithm blowfish algorithm
下载PDF
基于混沌理论与DNA动态编码的卫星图像加密算法 被引量:1
12
作者 肖嵩 陈哲 +2 位作者 杨亚涛 马英杰 杨腾 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第3期1128-1137,共10页
针对卫星图像在传输、存储过程中涉及的信息安全问题,该文提出一种新型的基于混沌理论与DNA动态编码的卫星图像加密算法。首先,提出一种改进型无限折叠混沌映射,拓宽了原有无限折叠混沌映射的混沌区间。之后,结合改进型Chebyshev混沌映... 针对卫星图像在传输、存储过程中涉及的信息安全问题,该文提出一种新型的基于混沌理论与DNA动态编码的卫星图像加密算法。首先,提出一种改进型无限折叠混沌映射,拓宽了原有无限折叠混沌映射的混沌区间。之后,结合改进型Chebyshev混沌映射与SHA-256哈希算法,生成加密算法的密钥流,提升算法的明文敏感性。然后,利用混沌系统的状态值对Hilbert局部置乱后的像素进行DNA编码,实现DNA动态编码,解决了DNA编码规则较少所带来的容易受到暴力攻击的弱点。最后,使用混沌序列完成进一步混沌加密,从而彻底混淆原始像素信息,增加加密算法的随机性与复杂性,得到密文图像。实验结果表明,该算法具有较好的加密效果和应对各种攻击的能力。 展开更多
关键词 卫星图像加密 混沌理论 DNA动态编码 哈希算法
下载PDF
基于Hash算法的无线网络安全态势评估方法
13
作者 刘亚鹏 《计算机应用文摘》 2023年第5期82-84,共3页
由于传统的无线网络安全状态评估技术不能正确评估网络安全状态,为此需要研究基于Hash算法的无线网络安全态势评估方法。利用无线网络传输与虚拟化技术,建立无线网络安全状态判断模型;通过消息队列问题的优化,改变有限域中的最高次数,... 由于传统的无线网络安全状态评估技术不能正确评估网络安全状态,为此需要研究基于Hash算法的无线网络安全态势评估方法。利用无线网络传输与虚拟化技术,建立无线网络安全状态判断模型;通过消息队列问题的优化,改变有限域中的最高次数,构建多变量Hash压缩函数;利用无线网络深度学习对层次归一化的处理,实现对无线网络安全态势的评估。测试结果表明,无线网络安全态势评估方法经过Hash算法调整后,平均精准度为91.55%,且反应时间只需要20.44 s,能够实现对无线网络安全状态的有效评价。 展开更多
关键词 hash算法 无线网络 安全态势 评估方法
下载PDF
基于区块链加密技术的云会计数据安全探究
14
作者 吴花平 刘自豪 《重庆理工大学学报(社会科学)》 CAS 2024年第2期96-105,共10页
云会计因投入成本低、数据处理高效和业务效率高等优势而受到用户的青睐,但储在云端的数据所面临的安全问题已经成为云会计发展亟待解决的问题之一。为应对云会计数据安全问题,构建了基于区块链加密技术的云会计数据安全模型。首先,通... 云会计因投入成本低、数据处理高效和业务效率高等优势而受到用户的青睐,但储在云端的数据所面临的安全问题已经成为云会计发展亟待解决的问题之一。为应对云会计数据安全问题,构建了基于区块链加密技术的云会计数据安全模型。首先,通过对云会计与区块链的回顾,明确云会计发展所面临的数据安全问题以及区块链技术与云会计融合发展的可行性;然后,引入非对称加密技术和哈希算法,以实现对云会计数据的加密安全存储和完整性检查;最后,通过分析得出区块链技术能够加强用户对其数据的控制、保障数据传输安全和增进用户与云会计服务提供商之间信任的结论。 展开更多
关键词 区块链 云会计 数据安全 非对称加密 哈希算法
下载PDF
基于图像检索技术的受载煤样裂隙演化规律
15
作者 张沛 《科学技术与工程》 北大核心 2024年第13期5344-5349,共6页
在煤岩试样破坏过程中进行计算机断层(computed tomography,CT)扫描测试,可实现煤岩试样内部裂隙结构可视化表征,但是在加载过程中,因试样位移变形会引起CT扫描层定位误差,进而影响试验结果准确性。为了解决这一问题,利用图像相似性检... 在煤岩试样破坏过程中进行计算机断层(computed tomography,CT)扫描测试,可实现煤岩试样内部裂隙结构可视化表征,但是在加载过程中,因试样位移变形会引起CT扫描层定位误差,进而影响试验结果准确性。为了解决这一问题,利用图像相似性检索技术,检索出受载试样在不同应力水平下的最相似的CT图像,从而更加准确地描述受载煤样裂隙演化规律。研究结果表明:在三轴压缩破坏过程中,试样应力应变曲线分为5个明显的阶段,即初始压密阶段、线弹性变形阶段、塑性屈服阶段、峰值破坏阶段以及残余变形阶段。基于感知哈希算法的图像检索技术能够准确识别并定位不同应力阶段相似度最高的CT图像,且CT图像相似度随着轴向荷载不断增大而逐渐降低。在整个三轴加载过程中,CT图像的相似度绝对差均值表现出两个明显的变化阶段:缓慢增加阶段和快速增加阶段。分形维数可以定量描述裂隙演化,受载样品破坏过程中分形维数主要经历了缓慢减小、缓慢增大和快速增大3个阶段。 展开更多
关键词 CT扫描 图像检索 裂隙动态演化 哈希算法 分形维数
下载PDF
卫星网络混合负载均衡策略下的多径流量分配算法
16
作者 魏德宾 王英杰 梁超 《计算机工程与设计》 北大核心 2024年第6期1654-1660,共7页
为均衡卫星网络流量分配,满足用户QoS需求,提出一种全局和局部结合的混合负载均衡策略下的多径流量分配算法(HLB-MTD)。根据QoS业务需求进行部分路径筛选,基于表的散列算法进行流量的初次分配;在初次分配的基础上针对突发拥塞进行局部调... 为均衡卫星网络流量分配,满足用户QoS需求,提出一种全局和局部结合的混合负载均衡策略下的多径流量分配算法(HLB-MTD)。根据QoS业务需求进行部分路径筛选,基于表的散列算法进行流量的初次分配;在初次分配的基础上针对突发拥塞进行局部调整,建立重映射目标函数,通过改进交叉和变异概率的遗传算法求出最优解;求得局部优化的,流到路径的映射策略。仿真结果表明,该算法可有效缓解卫星网络拥塞,实现流量均衡分配,在丢包率、平均排队时延、等指标上有更好的提升。 展开更多
关键词 卫星网络 流量分配 负载均衡 服务质量需求 目标优化 散列重分配 遗传算法
下载PDF
基于聚类和一致Hash的数据布局算法 被引量:16
17
作者 陈涛 肖侬 +1 位作者 刘芳 付长胜 《软件学报》 EI CSCD 北大核心 2010年第12期3175-3185,共11页
如何有效地对数据进行布局是大规模网络存储系统面临的重大挑战,需要一种能够自适应存储规模变化、公平有效的数据布局算法.提出的CCHDP(clustering-based and consistent hashing-aware data placement)算法将聚类算法与一致hash方法... 如何有效地对数据进行布局是大规模网络存储系统面临的重大挑战,需要一种能够自适应存储规模变化、公平有效的数据布局算法.提出的CCHDP(clustering-based and consistent hashing-aware data placement)算法将聚类算法与一致hash方法相结合,引入少量的虚拟设备,极大地减少了存储空间.理论和实验证明,CCHDP算法可以按照设备的权重公平地分布数据,自适应存储设备的增加和删除,在存储规模发生变化时迁移最少的数据量,并且可以快速地定位数据,对存储空间的消耗较少. 展开更多
关键词 数据布局 聚类算法 一致hash 公平 自适应
下载PDF
可扩展Hash方法的一种改进算法 被引量:3
18
作者 徐凤刚 许俊奎 潘清 《计算机工程与应用》 CSCD 北大核心 2006年第4期95-97,共3页
文章介绍了可扩展Hash方法,并提出了改进的缓存算法,该算法可以避免因为伪键分布异常而出现频繁的桶分裂及Hash表更新操作,从而提高空间和时间效率,有效地利用服务器资源。
关键词 hash 可扩展hash方法 缓存算法
下载PDF
基于hash运算的RFID认证协议分析和改进 被引量:13
19
作者 张兵 马新新 秦志光 《计算机应用研究》 CSCD 北大核心 2011年第11期4311-4314,共4页
针对已有基于hash运算的RFID认证协议所面临的安全问题,提出了一种新的适合低成本RFID的双向认证协议,并与已有的协议进行安全性分析和性能比较。结果表明该协议仅使用hash函数和异或操作,就达到机密性、完整性和防追踪性的安全目标,并... 针对已有基于hash运算的RFID认证协议所面临的安全问题,提出了一种新的适合低成本RFID的双向认证协议,并与已有的协议进行安全性分析和性能比较。结果表明该协议仅使用hash函数和异或操作,就达到机密性、完整性和防追踪性的安全目标,并运用时间戳作为标签查询标志,提高认证过程的执行性能。因此该协议与先前工作相比,更适合低成本的RFID系统。 展开更多
关键词 射频识别 安全协议 认证 哈希运算 协议的安全性
下载PDF
基于Hash函数取样的线性时间聚类方法LCHS 被引量:2
20
作者 元昌安 唐常杰 +3 位作者 张天庆 陈安龙 左劼 谢方军 《小型微型计算机系统》 CSCD 北大核心 2005年第8期1364-1368,共5页
作为数据挖掘中的经典算法,k-中心点算法存在效率低、对大数据集适应性差等严重不足.该文针对这一不足,提出并实现Hash分层模型LCHS(LinearClusteringBasedHashSampling),主要贡献包括:(1)将m维超立方体按等概率空间进行分桶,使得每层(... 作为数据挖掘中的经典算法,k-中心点算法存在效率低、对大数据集适应性差等严重不足.该文针对这一不足,提出并实现Hash分层模型LCHS(LinearClusteringBasedHashSampling),主要贡献包括:(1)将m维超立方体按等概率空间进行分桶,使得每层(即Hash桶)的数据个数相近,以较小的计算代价获得分层抽样的效果;(2)新算法保证了样本具有对总体数据的充分的统计代表性;(3)从理论上证明了新算法复杂度为O(N);(4)对比实验表明新算法在数据集的个数接近10000时,效率比传统算法提高2个数量级,数据集的个数接近8000时,聚类质量比CLARA算法提高55%. 展开更多
关键词 K-中心点 聚类分析 线性时间 hash函数 取样
下载PDF
上一页 1 2 42 下一页 到第
使用帮助 返回顶部