期刊文献+
共找到25篇文章
< 1 2 >
每页显示 20 50 100
基于Simhash算法的题库查重系统的设计与实现
1
作者 熊良钰 邓伦丹 《科学技术创新》 2024年第9期91-94,共4页
Simhash算法是一种基于局部敏感哈希(LSH)的技术,以其快速的计算速度和高度的查重准确性而知名。该算法通过将文本特征转换为二进制码,进而通过计算这些二进制码之间的汉明距离来评估文本的相似度。在文本去重和重复文档检测等多个领域,... Simhash算法是一种基于局部敏感哈希(LSH)的技术,以其快速的计算速度和高度的查重准确性而知名。该算法通过将文本特征转换为二进制码,进而通过计算这些二进制码之间的汉明距离来评估文本的相似度。在文本去重和重复文档检测等多个领域,Simhash算法已经展现出了显著的效果。鉴于此,将Simhash算法应用于题库查重具有很高的可行性和实际应用价值。 展开更多
关键词 simhash算法 汉明距离 题库查重系统 文本相似度计算 哈希函数
下载PDF
基于SimHash算法的主机网络嗅探攻击自主检测方法 被引量:1
2
作者 何珏 常安 +1 位作者 孙萌 黄怀霖 《电子设计工程》 2023年第13期79-82,88,共5页
目前提出的主机网络嗅探攻击自主检测方法转发包数据过高,导致嗅探攻击成本过低,难以在短时间内实现嗅探攻击检测。为了解决上述问题,以SimHash算法作为检测核心,提出了一种新的主机网络嗅探攻击自主检测方法。嗅探器在捕获主机网络系... 目前提出的主机网络嗅探攻击自主检测方法转发包数据过高,导致嗅探攻击成本过低,难以在短时间内实现嗅探攻击检测。为了解决上述问题,以SimHash算法作为检测核心,提出了一种新的主机网络嗅探攻击自主检测方法。嗅探器在捕获主机网络系统内通信信息时,利用通信链路的特点和算法,建立三个约束条件用于选择最佳通信链路的最佳路径,通过路径剔除确定主机内非法信息的通信路径,确保嗅探器获取通信链路信息的真实性。计算比特流向量序列,检测数据错误包,通过数据信息的切割提高嗅探攻击成本,实现了主机网络嗅探攻击自主检测。实验结果表明,基于SimHash算法的主机网络嗅探攻击自主检测方法能够提高嗅探攻击成本,在短时间内实现主机网络嗅探攻击自主检测。 展开更多
关键词 simhash算法 主机网络 嗅探攻击 自主检测
下载PDF
基于Simhash算法的重复数据删除技术的研究与改进 被引量:15
3
作者 陈春玲 陈琳 +1 位作者 熊晶 余瀚 《南京邮电大学学报(自然科学版)》 北大核心 2016年第3期85-91,共7页
为了在大规模文档去重中提高相似数据检测的精度,对基于Simhash算法的大规模文档去重技术进行深入研究。在原有算法的基础之上对Simhash签名值的计算过程作出改进,引入ICTCLAS分词技术,将TF-IDF技术作为计算权重的主要方法,同时将特征... 为了在大规模文档去重中提高相似数据检测的精度,对基于Simhash算法的大规模文档去重技术进行深入研究。在原有算法的基础之上对Simhash签名值的计算过程作出改进,引入ICTCLAS分词技术,将TF-IDF技术作为计算权重的主要方法,同时将特征值的词性与词长两大影响因素考虑其中。然后对产生的签名值进行汉明距离的比较,从而精确地判定出待比较者是否为相似数据。实验结果表明:改进的算法性能得到提高,并且总体优于Shingle算法和原Simhash算法。通过提高签名值的精度能够实现大规模文档中相似技术的精确检测,达到理想的去重效果。 展开更多
关键词 相似检测 simhash算法 TF-IDF技术 指纹计算 汉明距离
下载PDF
基于多元级差优良化遗传算法的环境拓扑结构任务调度
4
作者 王佳 顾文俊 +4 位作者 鞠炜刚 李玉维 张云龙 米传民 周志鹏 《计算机与现代化》 2024年第10期65-73,79,共10页
在国家深入推进“东数西算”工程的背景下,算力网络中心的环境部署调度面临许多挑战,如环境的数量、大小、拓扑结构复杂度、依赖约束和网络传输量等不确定因素。为了应对这些限制因素,提出一种多元级差优良化的遗传算法(Diverse Hierarc... 在国家深入推进“东数西算”工程的背景下,算力网络中心的环境部署调度面临许多挑战,如环境的数量、大小、拓扑结构复杂度、依赖约束和网络传输量等不确定因素。为了应对这些限制因素,提出一种多元级差优良化的遗传算法(Diverse Hierarchical Difference Optimization Genetic Algorithm,DHDO-GA)。该算法以任务执行跨度makespan和资源利用率最优化为目标,同时考虑资源的负载均衡。为了更好地引导整个种群向全局最优解快速聚拢,该算法根据适应度值和相似度将染色体分布在不同的层级,并将其抽象聚类成精英种群。仿真实验表明,DHDO-GA算法优于传统遗传算法和几种改进的遗传算法,在搜索能力、算法稳定性以及结果质量和可靠性方面具有更大的优势。 展开更多
关键词 环境拓扑结构 任务调度 依赖约束 遗传算法 精英种群 simhash
下载PDF
区块链下社交网络用户抄袭识别方案
5
作者 李莉 杨春艳 +1 位作者 朱江文 胡荣磊 《计算机应用》 CSCD 北大核心 2024年第1期242-251,共10页
针对社交网络中用户抄袭难以识别的问题,为保障原创作者权益并对具有抄袭行为的用户进行追责,提出了区块链下社交网络用户抄袭识别方案。针对现有区块链缺少通用溯源模型的问题,设计基于区块链的溯源信息管理模型来记录用户操作信息,为... 针对社交网络中用户抄袭难以识别的问题,为保障原创作者权益并对具有抄袭行为的用户进行追责,提出了区块链下社交网络用户抄袭识别方案。针对现有区块链缺少通用溯源模型的问题,设计基于区块链的溯源信息管理模型来记录用户操作信息,为文本相似度检测提供依据。在Merkle树和布隆过滤器结构的基础上,设计了新的索引结构BHMerkle,减少了区块构建和查询时的计算开销,实现了对交易的快速定位。同时提出多特征权重Simhash算法,提高了词权计算的准确性并提高签名值匹配阶段的效率,从而对具有抄袭行为的恶意用户进行识别,并通过奖惩机制遏制恶意行为的发生。抄袭识别方案在不同主题的新闻数据集上的平均准确率为94.8%,平均召回率为88.3%,相较于多维度Simhash算法和基于信息熵加权的Simhash(E-Simhash)算法,平均准确率分别提升了6.19、4.01个百分点,平均召回率分别提升了3.12、2.92个百分点。实验结果表明,所提方案在抄袭文本的查询及检测效率方面均有所提升,且在抄袭识别方面具有较高的准确性。 展开更多
关键词 区块链 抄袭识别 simhash算法 相似度检测 社交网络
下载PDF
Simhash算法在试题查重中的应用 被引量:1
6
作者 冉崇善 邵春霞 《软件导刊》 2018年第2期151-153,157,共4页
随着在线教育平台的兴起,为了解决大量试题带来的存储开支问题,试题查重技术应运而生。提出将改进的Simhash算法应用到试题查重中,首先根据结巴分词技术将试题文本进行切分,然后根据TF-IDF技术并结合词语的词性及词长算出关键词权重,以... 随着在线教育平台的兴起,为了解决大量试题带来的存储开支问题,试题查重技术应运而生。提出将改进的Simhash算法应用到试题查重中,首先根据结巴分词技术将试题文本进行切分,然后根据TF-IDF技术并结合词语的词性及词长算出关键词权重,以期达到对Simhash签名值的精确计算,最后通过带有索引功能的海明距离检测出相似试题。实验结果验证了此方案的可行性。 展开更多
关键词 试题查重 simhash算法 海明距离 签名值
下载PDF
基于灰狼算法的Simhash冗余数据检测算法 被引量:4
7
作者 阮嘉琨 蔡延光 +1 位作者 蔡颢 张丽 《东莞理工学院学报》 2020年第5期38-43,共6页
高速公路智能交通数据记录量大且易产生冗余数据,使交通数据质量降低,不利于对交通数据分析和进一步应用。由于SNM算法过于依赖关键字的选取,计算的时间复杂度高,易造成计算的浪费导致对冗余数据检测效果不佳;而Simhash算法存在关键词... 高速公路智能交通数据记录量大且易产生冗余数据,使交通数据质量降低,不利于对交通数据分析和进一步应用。由于SNM算法过于依赖关键字的选取,计算的时间复杂度高,易造成计算的浪费导致对冗余数据检测效果不佳;而Simhash算法存在关键词对应的权重选取困难问题。因此,提出了基于灰狼算法改进的Simhash算法,对关键词对应的权重选择进行优化。使用SNM算法、Simhash算法以及改进后的Simhash算法对高速公路智能交通冗余数据样本集进行仿真实验。分析结果表明改进后的Simhash算法检测高速公路交通冗余数据记录的准确率、召回率以及F-Measure都有所提升,检测效果更好。 展开更多
关键词 智能交通 高速公路 冗余数据检测 灰狼算法 simhash算法
下载PDF
基于SimHash算法的案件辅助判决系统研究 被引量:1
8
作者 李锐 游景扬 +2 位作者 刘稳 王锦 陈建峡 《湖北工业大学学报》 2017年第5期67-72,共6页
为提高法院工作效率和判案的公正性,开发了案件辅助判决系统。将裁判文书分为刑事、民事、执行、赔偿、行政5大案件类型,便于对判决书的处理,存储和查询。系统采用SimHash算法,对用户提交的判决书提取关键信息,查找出数据库中同类型判... 为提高法院工作效率和判案的公正性,开发了案件辅助判决系统。将裁判文书分为刑事、民事、执行、赔偿、行政5大案件类型,便于对判决书的处理,存储和查询。系统采用SimHash算法,对用户提交的判决书提取关键信息,查找出数据库中同类型判决书中相似度最高的判决书推荐给用户。 展开更多
关键词 裁判文书 simhash算法 辅助判决系统
下载PDF
基于Simhash算法的海量文本相似性检测方法研究 被引量:3
9
作者 任民山 蔡红霞 《计量与测试技术》 2018年第4期78-80,共3页
为了在知识文档搜索中更加精确的为用户推荐更多语义内容相似的文档。本文对基于Simhash算法的文档相似性计算技术进行深入研究,引入ICT-CLAS分词技术,将TF-IDF技术作为计算权重的主要方法,对原有的Simhash算法作出改进,采用海明距离对S... 为了在知识文档搜索中更加精确的为用户推荐更多语义内容相似的文档。本文对基于Simhash算法的文档相似性计算技术进行深入研究,引入ICT-CLAS分词技术,将TF-IDF技术作为计算权重的主要方法,对原有的Simhash算法作出改进,采用海明距离对Simhash指纹值进行相似性度量计算。最后以民机研制领域的工序数据为实验数据进行相关实验,实验结果表明:改进的方案性能得到提高,并且总体优于Shingle算法和原Simhash算法,能够实现大规模文档中相似性的精确检测。 展开更多
关键词 相似性计算 simhash算法 TF-IDF技术 海明距离 指纹值
下载PDF
基于改进Simhash的虚拟机镜像去重方法 被引量:4
10
作者 张灿阳 刘晓洁 《四川大学学报(自然科学版)》 CAS CSCD 北大核心 2020年第1期57-65,共9页
在云环境中,传统意义上的物理服务器正在逐渐被各式虚拟机所取代,云数据中心中托管的虚拟机镜像所占用的存储空间急剧增长,如何高效地管理这些镜像文件已成为云计算研究热点之一.由于虚拟机镜像内部存在大量空白重复数据块,这在一定程... 在云环境中,传统意义上的物理服务器正在逐渐被各式虚拟机所取代,云数据中心中托管的虚拟机镜像所占用的存储空间急剧增长,如何高效地管理这些镜像文件已成为云计算研究热点之一.由于虚拟机镜像内部存在大量空白重复数据块,这在一定程度上导致了镜像内部冗余率较高.其次,不同的虚拟机镜像可能运行了相同的操作系统和应用程序,使得镜像之间同样存在较多的重复数据.针对海量虚拟机镜像,传统的去重策略将产生巨大的时间开销,同时会消耗巨大的内存空间和CPU资源,影响数据中心的性能.提出一种基于改进Simhash算法的海量虚拟机镜像多级去重方法,将一个完整的镜像文件分割为操作系统镜像段和应用数据镜像段,同时提取各部分的特征值,利用DBSCAN(density-based spatial clustering of applications with noise)聚类算法完成对镜像段的分组,将相似度较高的镜像段聚为一类,从而将全局去重分解为规模较小且重复率较高的分组内部去重,实现了指纹索引数据完全存放于内存中的重复数据删除,大幅减少了磁盘I/O次数,达到缩短去重时间的目的. 展开更多
关键词 云计算 重复数据删除 改进simhash算法 虚拟机镜像
下载PDF
基于Simhash算法的自助胶片打印系统设计与实现
11
作者 周晟劼 袁骏毅 侯晋 《中国数字医学》 2018年第7期61-62,70,共3页
自助胶片打印系统是以RIS和PACS发布检查信息为数据源,以自助机为展示终端的应用系统。系统通过完整的缴费、打印、审核、分发闭环,实现患者的自助缴费、取片;并采用Simhash算法快速查找图像,确保系统和用户之间的流畅交互;程序的数据... 自助胶片打印系统是以RIS和PACS发布检查信息为数据源,以自助机为展示终端的应用系统。系统通过完整的缴费、打印、审核、分发闭环,实现患者的自助缴费、取片;并采用Simhash算法快速查找图像,确保系统和用户之间的流畅交互;程序的数据校验工作全自动完成,自助打印的过程中无需人为操作;异步通信的程序开发方式,支持多台自助机同时运行,操作简易。7*24小时不间断服务,减少工作量,加快操作效率,是门诊取片的理想方案。 展开更多
关键词 自助胶片打印系统 simhash算法 全自动 自引导式
下载PDF
基于SimHash算法的大数据网络安全态势的评估 被引量:3
12
作者 童伟传 《机械设计与制造工程》 2022年第5期125-129,共5页
在网络数据量日益增大及维度逐渐升高的背景下,为了更好地解决传统网络安全态势评估模型存储量小、执行率低的问题,构建了基于SimHash算法的安全态势评估模型。首先对大规模的网络进行划分,得到多个网络模块;然后预处理安全要素数据,将... 在网络数据量日益增大及维度逐渐升高的背景下,为了更好地解决传统网络安全态势评估模型存储量小、执行率低的问题,构建了基于SimHash算法的安全态势评估模型。首先对大规模的网络进行划分,得到多个网络模块;然后预处理安全要素数据,将处理结果存储在大数据平台中;最后利用SimHash算法进行节点安全态势评估,基于节点与模块权重获取模块和网络的实际安全态势数据信息。实验结果表明,算法可准确、实时评估网络安全态势,为大数据领域的网络安全态势评估提供了一种新的方法。 展开更多
关键词 simhash算法 大数据 网络安全
下载PDF
基于SimHash算法的Android恶意程序检测 被引量:1
13
作者 李红灵 詹翊 《计算机技术与发展》 2017年第10期121-125,共5页
针对当前Android应用程序良莠不齐,存在大量的恶意程序对个人隐私和信息安全构成严重威胁的现状,在分析基于MD5的传统特征代码检测技术的基础上,提出了利用SimHash算法,经过APK文件特征文本提取,特征文本数字指纹生成,数字指纹比对及比... 针对当前Android应用程序良莠不齐,存在大量的恶意程序对个人隐私和信息安全构成严重威胁的现状,在分析基于MD5的传统特征代码检测技术的基础上,提出了利用SimHash算法,经过APK文件特征文本提取,特征文本数字指纹生成,数字指纹比对及比对结果分析三个步骤,进行Android恶意程序检测的新方法。为实现APK文件特征文本化,引入恶意软件分析程序androlyze.py,同时,考虑到Android特征的有效性,经研究需要选取Android程序的权限及调用映射、广播接收器、服务等核心信息组合成对应APK文件的复合特征文本,将复合特征文本转换为字符串后利用程序进行海明距离计算,由海明距离判断待测试APK文件的安全性。通过实验进行实例分析,并将得到的检测效果与360杀毒软件做比较,发现基于SimHash算法的恶意程序检测方法,检测率高于360。 展开更多
关键词 simhash算法 Android恶意程序检测 复合特征文本 相似性比较
下载PDF
文本相似度计算的Simhash算法的实现与改进 被引量:5
14
作者 顾志祥 谢龙恩 杜雨 《信息通信》 2020年第1期27-29,共3页
在中文信息处理中,文本相似度的计算广泛应用于信息检索、机器翻译、自动问答系统、文本挖掘等领域,是一个非常基础而关键的问题,长期以来一直是人们研究的热点和难点。因此,文章的主要研究内容是如何用Simhash算法来实现对文本相似度... 在中文信息处理中,文本相似度的计算广泛应用于信息检索、机器翻译、自动问答系统、文本挖掘等领域,是一个非常基础而关键的问题,长期以来一直是人们研究的热点和难点。因此,文章的主要研究内容是如何用Simhash算法来实现对文本相似度的计算;进而在已实现的基础上,通过阅读大量相关文献,对该算法步骤中的加权部分做了改进;最后,通过对改进前后算法进行大量的实验数据对比分析,从而验证了改进后算法的有效性和合理性。 展开更多
关键词 simhash算法 文本相似度 算法改进
下载PDF
基于多维数字化方法的智能垃圾短信检测与实现
15
作者 王玉玲 刘晓鸣 王尧永 《邮电设计技术》 2023年第1期15-20,共6页
随着垃圾短信发送模型不断变化,传统的基于发送频次与内容的检测方法已经不能满足新型垃圾短信检测的需要。在治理垃圾短信的实践过程中,创新性使用了基于短信发送位置(城市)不易变化的特征作为垃圾短信的检测依据,并使用Simhash算法、... 随着垃圾短信发送模型不断变化,传统的基于发送频次与内容的检测方法已经不能满足新型垃圾短信检测的需要。在治理垃圾短信的实践过程中,创新性使用了基于短信发送位置(城市)不易变化的特征作为垃圾短信的检测依据,并使用Simhash算法、改进的朴素贝叶斯算法等新方法对待检短信进行智能判断,有效提高了垃圾短信检测查全率、查准率,实现对垃圾短信的精准拦截,降低了垃圾短信举报率。 展开更多
关键词 垃圾短信 数字签名 simhash算法 朴素贝叶斯算法
下载PDF
中文短文本去重方法研究 被引量:4
16
作者 高翔 李兵 《计算机工程与应用》 CSCD 2014年第16期192-197,共6页
针对中文短文本冗余问题,提出了有效的去重算法框架。考虑到短文本海量性和简短性的特点,以及中文与英文之间的区别,引入了Bloom Filter、Trie树以及SimHash算法。算法框架的第一阶段由Bloom Filter或Trie树进行完全去重,第二阶段由SimH... 针对中文短文本冗余问题,提出了有效的去重算法框架。考虑到短文本海量性和简短性的特点,以及中文与英文之间的区别,引入了Bloom Filter、Trie树以及SimHash算法。算法框架的第一阶段由Bloom Filter或Trie树进行完全去重,第二阶段由SimHash算法进行相似去重。设计了该算法框架的各项参数,并通过仿真实验证实了该算法框架的可行性及合理性。 展开更多
关键词 文本去重 中文短文本 TRIE树 simhash算法
下载PDF
Code Transform Model Producing High-Performance Program 被引量:1
17
作者 Bao Rong Chang Hsiu-Fen Tsai Po-Wen Su 《Computer Modeling in Engineering & Sciences》 SCIE EI 2021年第10期253-277,共25页
This paper introduces a novel transform method to produce the newly generated programs through code transform model called the second generation of Generative Pre-trained Transformer(GPT-2)reasonably,improving the pro... This paper introduces a novel transform method to produce the newly generated programs through code transform model called the second generation of Generative Pre-trained Transformer(GPT-2)reasonably,improving the program execution performance significantly.Besides,a theoretical estimation in statistics has given the minimum number of generated programs as required,which guarantees to find the best one within them.The proposed approach can help the voice assistant machine resolve the problem of inefficient execution of application code.In addition to GPT-2,this study develops the variational Simhash algorithm to check the code similarity between sample program and newly generated program,and conceives the piecewise longest common subsequence algorithm to examine the execution’s conformity from the two programs mentioned above.The code similarity check deducts the redundant generated programs,and the output conformity check finds the best-performing generative program.In addition to texts,the proposed approach can also prove the other media,including images,sounds,and movies.As a result,the newly generated program outperforms the sample program significantly because the number of code lines reduces 27.21%,and the program execution time shortens 24.62%. 展开更多
关键词 Newly generated programs GPT-2 predetermined generative programs variational simhash algorithm piecewise longest common subsequence
下载PDF
基于特征迭代的短文本去重算法 被引量:4
18
作者 曹海 孙婧 史喜斌 《计算机工程》 CAS CSCD 北大核心 2015年第12期54-57,63,共5页
由于短文本具有词频单一、结构简单等特点,基于传统特征选取方法的文本去重算法不适合短文本。为此,提出一种适合短文本特点的去重算法,利用SimHash算法产生短文本的指纹,使用共享最近邻算法对指纹进行聚类,根据聚类结果增删初始特征,... 由于短文本具有词频单一、结构简单等特点,基于传统特征选取方法的文本去重算法不适合短文本。为此,提出一种适合短文本特点的去重算法,利用SimHash算法产生短文本的指纹,使用共享最近邻算法对指纹进行聚类,根据聚类结果增删初始特征,迭代直至收敛,从而实现短文本的去重检测。在真实数据集上的实验结果表明,与现有的文本去重算法相比,该算法对于短文本具有更好的去重效果。 展开更多
关键词 simhash算法 共享最近邻 迭代 特征选择 短文本 去重
下载PDF
面向高速网络流量的恶意镜像网站识别方法 被引量:5
19
作者 张蕾 张鹏 +2 位作者 孙伟 杨兴东 邢丽超 《通信学报》 EI CSCD 北大核心 2019年第7期87-94,共8页
针对网络环境中造成危害的信息通过镜像网站进行传播从而绕过检查的问题,提出了面向高速网络流量的恶意镜像网站识别方法。首先,从流量中提取碎片化数据并且还原网页源码,同时加入标准化处理来提高识别准确率;然后,将网页源码分块,利用... 针对网络环境中造成危害的信息通过镜像网站进行传播从而绕过检查的问题,提出了面向高速网络流量的恶意镜像网站识别方法。首先,从流量中提取碎片化数据并且还原网页源码,同时加入标准化处理来提高识别准确率;然后,将网页源码分块,利用相似度散列算法对每个网页源码分块计算散列值,得到网页源码的相似度散列值,同时引入海明距离来计算网页源码之间的相似性;最后,截取网页快照,提取其 SIFT 特征点,通过聚类分析和映射处理得到网页快照的感知散列值,通过感知散列值计算网页相似性。在真实流量下的实验表明,所提方法的准确率为 93.42%,召回率为 90.20%,F 值为 0.92,处理时延为 20 μs。通过所提方法,在高速网络流量下可以有效地检测恶意镜像网页。 展开更多
关键词 恶意镜像网站 相似度散列算法 网页相似性
下载PDF
一种基于浏览器的CSRF攻击检测方法 被引量:1
20
作者 张靖羽 扈红超 霍树民 《信息工程大学学报》 2021年第2期169-174,共6页
互联网的安全形势日益严重,CSRF漏洞是最严重的Web漏洞之一,如何检测CSRF攻击成为业内热点。目前的CSRF检测技术主要通过验证字段例如Form表单字段、验证Same Origin等传统方式,但字段容易被攻击者更改,从而成功绕过CSRF检测。在验证字... 互联网的安全形势日益严重,CSRF漏洞是最严重的Web漏洞之一,如何检测CSRF攻击成为业内热点。目前的CSRF检测技术主要通过验证字段例如Form表单字段、验证Same Origin等传统方式,但字段容易被攻击者更改,从而成功绕过CSRF检测。在验证字段的基础上,通过进一步分析网页内容,提出一种基于浏览器的CSRF检测方法,首先通过HTTP请求分析初步判断,再进一步分析网页内容检测CSRF攻击,告警提示用户。通过基于Chrome浏览器的扩展插件技术实现所提出的检测方法,并通过实验进行验证与分析。 展开更多
关键词 WEB应用 跨站请求伪造攻击 HTTP请求 simhash算法 CHROME浏览器
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部