期刊文献+
共找到28篇文章
< 1 2 >
每页显示 20 50 100
基于Simhash算法的题库查重系统的设计与实现
1
作者 熊良钰 邓伦丹 《科学技术创新》 2024年第9期91-94,共4页
Simhash算法是一种基于局部敏感哈希(LSH)的技术,以其快速的计算速度和高度的查重准确性而知名。该算法通过将文本特征转换为二进制码,进而通过计算这些二进制码之间的汉明距离来评估文本的相似度。在文本去重和重复文档检测等多个领域,... Simhash算法是一种基于局部敏感哈希(LSH)的技术,以其快速的计算速度和高度的查重准确性而知名。该算法通过将文本特征转换为二进制码,进而通过计算这些二进制码之间的汉明距离来评估文本的相似度。在文本去重和重复文档检测等多个领域,Simhash算法已经展现出了显著的效果。鉴于此,将Simhash算法应用于题库查重具有很高的可行性和实际应用价值。 展开更多
关键词 simhash算法 汉明距离 题库查重系统 文本相似度计算 哈希函数
下载PDF
基于SimHash算法的主机网络嗅探攻击自主检测方法 被引量:1
2
作者 何珏 常安 +1 位作者 孙萌 黄怀霖 《电子设计工程》 2023年第13期79-82,88,共5页
目前提出的主机网络嗅探攻击自主检测方法转发包数据过高,导致嗅探攻击成本过低,难以在短时间内实现嗅探攻击检测。为了解决上述问题,以SimHash算法作为检测核心,提出了一种新的主机网络嗅探攻击自主检测方法。嗅探器在捕获主机网络系... 目前提出的主机网络嗅探攻击自主检测方法转发包数据过高,导致嗅探攻击成本过低,难以在短时间内实现嗅探攻击检测。为了解决上述问题,以SimHash算法作为检测核心,提出了一种新的主机网络嗅探攻击自主检测方法。嗅探器在捕获主机网络系统内通信信息时,利用通信链路的特点和算法,建立三个约束条件用于选择最佳通信链路的最佳路径,通过路径剔除确定主机内非法信息的通信路径,确保嗅探器获取通信链路信息的真实性。计算比特流向量序列,检测数据错误包,通过数据信息的切割提高嗅探攻击成本,实现了主机网络嗅探攻击自主检测。实验结果表明,基于SimHash算法的主机网络嗅探攻击自主检测方法能够提高嗅探攻击成本,在短时间内实现主机网络嗅探攻击自主检测。 展开更多
关键词 simhash算法 主机网络 嗅探攻击 自主检测
下载PDF
基于Simhash算法的重复数据删除技术的研究与改进 被引量:15
3
作者 陈春玲 陈琳 +1 位作者 熊晶 余瀚 《南京邮电大学学报(自然科学版)》 北大核心 2016年第3期85-91,共7页
为了在大规模文档去重中提高相似数据检测的精度,对基于Simhash算法的大规模文档去重技术进行深入研究。在原有算法的基础之上对Simhash签名值的计算过程作出改进,引入ICTCLAS分词技术,将TF-IDF技术作为计算权重的主要方法,同时将特征... 为了在大规模文档去重中提高相似数据检测的精度,对基于Simhash算法的大规模文档去重技术进行深入研究。在原有算法的基础之上对Simhash签名值的计算过程作出改进,引入ICTCLAS分词技术,将TF-IDF技术作为计算权重的主要方法,同时将特征值的词性与词长两大影响因素考虑其中。然后对产生的签名值进行汉明距离的比较,从而精确地判定出待比较者是否为相似数据。实验结果表明:改进的算法性能得到提高,并且总体优于Shingle算法和原Simhash算法。通过提高签名值的精度能够实现大规模文档中相似技术的精确检测,达到理想的去重效果。 展开更多
关键词 相似检测 simhash算法 TF-IDF技术 指纹计算 汉明距离
下载PDF
基于改进的Simhash算法的相似文档识别技术 被引量:3
4
作者 张兴兰 何丹丹 《计算机科学与应用》 2020年第2期371-378,共8页
[目的/意义]:为了实现在海量文本中更加高效准确检测出相似文本。[方法]:本文对基于Simhash算法的相似文档识别技术进行研究改进,对Simhash签名值的计算方法作出改进,分词阶段使用ICTCLAS分词系统,文本特征词的权重计算方法采用TF-IDF技... [目的/意义]:为了实现在海量文本中更加高效准确检测出相似文本。[方法]:本文对基于Simhash算法的相似文档识别技术进行研究改进,对Simhash签名值的计算方法作出改进,分词阶段使用ICTCLAS分词系统,文本特征词的权重计算方法采用TF-IDF技术,同时将特征词的词性、词长、是否为标志词与是否被包含在标题中几大方面作为权重计算的考虑因素。最后使用汉明距离对文档签名值进行比较,从海量文档中精确地找出相似文档。[结论]:通过改进TF-IDF权重,使得改进的Simhash算法在相似文档识别准确率上优于其他算法。 展开更多
关键词 相似文档检测 simhash算法 TF-IDF算法 指纹计算 汉明距离
下载PDF
Simhash算法在试题查重中的应用 被引量:1
5
作者 冉崇善 邵春霞 《软件导刊》 2018年第2期151-153,157,共4页
随着在线教育平台的兴起,为了解决大量试题带来的存储开支问题,试题查重技术应运而生。提出将改进的Simhash算法应用到试题查重中,首先根据结巴分词技术将试题文本进行切分,然后根据TF-IDF技术并结合词语的词性及词长算出关键词权重,以... 随着在线教育平台的兴起,为了解决大量试题带来的存储开支问题,试题查重技术应运而生。提出将改进的Simhash算法应用到试题查重中,首先根据结巴分词技术将试题文本进行切分,然后根据TF-IDF技术并结合词语的词性及词长算出关键词权重,以期达到对Simhash签名值的精确计算,最后通过带有索引功能的海明距离检测出相似试题。实验结果验证了此方案的可行性。 展开更多
关键词 试题查重 simhash算法 海明距离 签名值
下载PDF
基于BM25-IWF特征提取的改进Simhash算法
6
作者 黄迎春 王港 《移动信息》 2021年第5期7-10,共4页
传统的Simhash 网页去重是基于词频文档逆频率(TF-IDF)提取特征词的算法,存在会将部分停用词权重放大、文章长度影响特征词的权重以及同类语料库中特征词的权重被稀释的问题。基于此,文章提出了一种基于惩罚因子词语逆频率(BM25-IWF)的S... 传统的Simhash 网页去重是基于词频文档逆频率(TF-IDF)提取特征词的算法,存在会将部分停用词权重放大、文章长度影响特征词的权重以及同类语料库中特征词的权重被稀释的问题。基于此,文章提出了一种基于惩罚因子词语逆频率(BM25-IWF)的Simhash算法,计算权重时,加入惩罚因子限制词频数值过大,减小文档长度对权重的影响,然后使用词语逆频率来解决同类语料库中特征词的权重被稀释的问题。从哈工大语料库中随机挑选1000篇文档,改进的Simhash算法进行相似度判断的平均精确率达94.82%,平均召回率达90.69%。相较于传统的Simhash算法,改进算法的精确率和召回率更高,更能实现网页的精准去重。 展开更多
关键词 网页去重 simhash算法 BM25-IWF 特征提取
下载PDF
基于Simhash算法的文本查重系统的设计与实现 被引量:2
7
作者 张晨阳 段国云 文春生 《湖南科技学院学报》 2021年第5期51-54,共4页
为解决文本数据的个性化查重问题,提出基于Simhash算法的文本查重的方法,设计并实现了系统原型。首先,阐述了文本相似度模型和计算算法;其次,根据需求规划设计了系统整体实现架构并详细描述其设计过程;再次,描述了查重算法和查重功能模... 为解决文本数据的个性化查重问题,提出基于Simhash算法的文本查重的方法,设计并实现了系统原型。首先,阐述了文本相似度模型和计算算法;其次,根据需求规划设计了系统整体实现架构并详细描述其设计过程;再次,描述了查重算法和查重功能模块实现的详细流程;最后,对系统原型进行功能测试和算法相似度计算准确性测试。实验证明:在小规模文本文档样本中,系统能较好的实现文本相似度的计算和特征库的个性化定制,可集成并适用于小规模企业办公系统等平台的文本相似性查重环境。 展开更多
关键词 simhash算法 文本相似度 余弦相似度 文本查重 Flask框架
下载PDF
基于SimHash算法的案件辅助判决系统研究 被引量:1
8
作者 李锐 游景扬 +2 位作者 刘稳 王锦 陈建峡 《湖北工业大学学报》 2017年第5期67-72,共6页
为提高法院工作效率和判案的公正性,开发了案件辅助判决系统。将裁判文书分为刑事、民事、执行、赔偿、行政5大案件类型,便于对判决书的处理,存储和查询。系统采用SimHash算法,对用户提交的判决书提取关键信息,查找出数据库中同类型判... 为提高法院工作效率和判案的公正性,开发了案件辅助判决系统。将裁判文书分为刑事、民事、执行、赔偿、行政5大案件类型,便于对判决书的处理,存储和查询。系统采用SimHash算法,对用户提交的判决书提取关键信息,查找出数据库中同类型判决书中相似度最高的判决书推荐给用户。 展开更多
关键词 裁判文书 simhash算法 辅助判决系统
下载PDF
基于Simhash算法的海量文本相似性检测方法研究 被引量:3
9
作者 任民山 蔡红霞 《计量与测试技术》 2018年第4期78-80,共3页
为了在知识文档搜索中更加精确的为用户推荐更多语义内容相似的文档。本文对基于Simhash算法的文档相似性计算技术进行深入研究,引入ICT-CLAS分词技术,将TF-IDF技术作为计算权重的主要方法,对原有的Simhash算法作出改进,采用海明距离对S... 为了在知识文档搜索中更加精确的为用户推荐更多语义内容相似的文档。本文对基于Simhash算法的文档相似性计算技术进行深入研究,引入ICT-CLAS分词技术,将TF-IDF技术作为计算权重的主要方法,对原有的Simhash算法作出改进,采用海明距离对Simhash指纹值进行相似性度量计算。最后以民机研制领域的工序数据为实验数据进行相关实验,实验结果表明:改进的方案性能得到提高,并且总体优于Shingle算法和原Simhash算法,能够实现大规模文档中相似性的精确检测。 展开更多
关键词 相似性计算 simhash算法 TF-IDF技术 海明距离 指纹值
下载PDF
基于Simhash算法的自助胶片打印系统设计与实现
10
作者 周晟劼 袁骏毅 侯晋 《中国数字医学》 2018年第7期61-62,70,共3页
自助胶片打印系统是以RIS和PACS发布检查信息为数据源,以自助机为展示终端的应用系统。系统通过完整的缴费、打印、审核、分发闭环,实现患者的自助缴费、取片;并采用Simhash算法快速查找图像,确保系统和用户之间的流畅交互;程序的数据... 自助胶片打印系统是以RIS和PACS发布检查信息为数据源,以自助机为展示终端的应用系统。系统通过完整的缴费、打印、审核、分发闭环,实现患者的自助缴费、取片;并采用Simhash算法快速查找图像,确保系统和用户之间的流畅交互;程序的数据校验工作全自动完成,自助打印的过程中无需人为操作;异步通信的程序开发方式,支持多台自助机同时运行,操作简易。7*24小时不间断服务,减少工作量,加快操作效率,是门诊取片的理想方案。 展开更多
关键词 自助胶片打印系统 simhash算法 全自动 自引导式
下载PDF
基于SimHash算法的大数据网络安全态势的评估 被引量:3
11
作者 童伟传 《机械设计与制造工程》 2022年第5期125-129,共5页
在网络数据量日益增大及维度逐渐升高的背景下,为了更好地解决传统网络安全态势评估模型存储量小、执行率低的问题,构建了基于SimHash算法的安全态势评估模型。首先对大规模的网络进行划分,得到多个网络模块;然后预处理安全要素数据,将... 在网络数据量日益增大及维度逐渐升高的背景下,为了更好地解决传统网络安全态势评估模型存储量小、执行率低的问题,构建了基于SimHash算法的安全态势评估模型。首先对大规模的网络进行划分,得到多个网络模块;然后预处理安全要素数据,将处理结果存储在大数据平台中;最后利用SimHash算法进行节点安全态势评估,基于节点与模块权重获取模块和网络的实际安全态势数据信息。实验结果表明,算法可准确、实时评估网络安全态势,为大数据领域的网络安全态势评估提供了一种新的方法。 展开更多
关键词 simhash算法 大数据 网络安全
下载PDF
基于SimHash算法的Android恶意程序检测 被引量:1
12
作者 李红灵 詹翊 《计算机技术与发展》 2017年第10期121-125,共5页
针对当前Android应用程序良莠不齐,存在大量的恶意程序对个人隐私和信息安全构成严重威胁的现状,在分析基于MD5的传统特征代码检测技术的基础上,提出了利用SimHash算法,经过APK文件特征文本提取,特征文本数字指纹生成,数字指纹比对及比... 针对当前Android应用程序良莠不齐,存在大量的恶意程序对个人隐私和信息安全构成严重威胁的现状,在分析基于MD5的传统特征代码检测技术的基础上,提出了利用SimHash算法,经过APK文件特征文本提取,特征文本数字指纹生成,数字指纹比对及比对结果分析三个步骤,进行Android恶意程序检测的新方法。为实现APK文件特征文本化,引入恶意软件分析程序androlyze.py,同时,考虑到Android特征的有效性,经研究需要选取Android程序的权限及调用映射、广播接收器、服务等核心信息组合成对应APK文件的复合特征文本,将复合特征文本转换为字符串后利用程序进行海明距离计算,由海明距离判断待测试APK文件的安全性。通过实验进行实例分析,并将得到的检测效果与360杀毒软件做比较,发现基于SimHash算法的恶意程序检测方法,检测率高于360。 展开更多
关键词 simhash算法 Android恶意程序检测 复合特征文本 相似性比较
下载PDF
文本相似度计算的Simhash算法的实现与改进 被引量:5
13
作者 顾志祥 谢龙恩 杜雨 《信息通信》 2020年第1期27-29,共3页
在中文信息处理中,文本相似度的计算广泛应用于信息检索、机器翻译、自动问答系统、文本挖掘等领域,是一个非常基础而关键的问题,长期以来一直是人们研究的热点和难点。因此,文章的主要研究内容是如何用Simhash算法来实现对文本相似度... 在中文信息处理中,文本相似度的计算广泛应用于信息检索、机器翻译、自动问答系统、文本挖掘等领域,是一个非常基础而关键的问题,长期以来一直是人们研究的热点和难点。因此,文章的主要研究内容是如何用Simhash算法来实现对文本相似度的计算;进而在已实现的基础上,通过阅读大量相关文献,对该算法步骤中的加权部分做了改进;最后,通过对改进前后算法进行大量的实验数据对比分析,从而验证了改进后算法的有效性和合理性。 展开更多
关键词 simhash算法 文本相似度 算法改进
下载PDF
基于SimHash算法的Android恶意程序检测 被引量:1
14
作者 高子翰 叶明 《中国新通信》 2018年第19期86-87,共2页
不断更新发展的智能手机极大的便利了人们的生活,但也使更多的安全隐患存在,各种恶性攻击行为不仅威胁了用户的隐私安全,甚至造成经济损失。当前智能手机市场中,Android系统占据较大比重,基于此,本文在SimHash算法的基础上,提出了一种An... 不断更新发展的智能手机极大的便利了人们的生活,但也使更多的安全隐患存在,各种恶性攻击行为不仅威胁了用户的隐私安全,甚至造成经济损失。当前智能手机市场中,Android系统占据较大比重,基于此,本文在SimHash算法的基础上,提出了一种Android恶意程序检测方法,经过提取APK文件特征文本,完成恶意程序的检测,实例实验结果显示,能够有效的检测出Android系统的恶意程序。 展开更多
关键词 simhash算法 ANDROID系统 恶意程序 检测
下载PDF
基于Simhash算法的职业教育大数据研究
15
作者 李华君 聂富红 《中国多媒体与网络教学学报(电子版)》 2019年第32期215-216,共2页
近几年的研究发现,职业院校的学生普遍存在的困扰是就业问题,职业院校也存在如何调整学校的专业建设的问题,省市级领导不能清楚的了解职业院校的具体情况,山西省职业教育大数据分析与决策平台有效的对这一现实问题进行了分析和解决。本... 近几年的研究发现,职业院校的学生普遍存在的困扰是就业问题,职业院校也存在如何调整学校的专业建设的问题,省市级领导不能清楚的了解职业院校的具体情况,山西省职业教育大数据分析与决策平台有效的对这一现实问题进行了分析和解决。本文就职业院校的各项数据进行采集,逐步形成常态化数据采集机制的过程中遇到大量的国家、各个省、以及教育部文件中存在着很多相似的指标,从而对重复文本进行去重,最后从有用的文本中提炼支撑平台的指标库,通过真正有用的指标进行对比,给平台提供更加可靠的数据。 展开更多
关键词 职业院校 文件重复 simhash算法 海明距离
原文传递
基于灰狼算法的Simhash冗余数据检测算法 被引量:4
16
作者 阮嘉琨 蔡延光 +1 位作者 蔡颢 张丽 《东莞理工学院学报》 2020年第5期38-43,共6页
高速公路智能交通数据记录量大且易产生冗余数据,使交通数据质量降低,不利于对交通数据分析和进一步应用。由于SNM算法过于依赖关键字的选取,计算的时间复杂度高,易造成计算的浪费导致对冗余数据检测效果不佳;而Simhash算法存在关键词... 高速公路智能交通数据记录量大且易产生冗余数据,使交通数据质量降低,不利于对交通数据分析和进一步应用。由于SNM算法过于依赖关键字的选取,计算的时间复杂度高,易造成计算的浪费导致对冗余数据检测效果不佳;而Simhash算法存在关键词对应的权重选取困难问题。因此,提出了基于灰狼算法改进的Simhash算法,对关键词对应的权重选择进行优化。使用SNM算法、Simhash算法以及改进后的Simhash算法对高速公路智能交通冗余数据样本集进行仿真实验。分析结果表明改进后的Simhash算法检测高速公路交通冗余数据记录的准确率、召回率以及F-Measure都有所提升,检测效果更好。 展开更多
关键词 智能交通 高速公路 冗余数据检测 灰狼算法 simhash算法
下载PDF
基于SimHash的文本相似检测算法研究 被引量:3
17
作者 陈汝龙 《信息记录材料》 2020年第7期86-87,共2页
SimHash算法被广泛应用于文本相似性检测去重中,它为打击学术不端行为做出了突出的贡献。本文首先对SimHash算法的理论进行了简单阐述,其次对SimHash算法去重的过程进行了解析,最后从无法保证短文本的计算准确率、算法运行效率低、权重... SimHash算法被广泛应用于文本相似性检测去重中,它为打击学术不端行为做出了突出的贡献。本文首先对SimHash算法的理论进行了简单阐述,其次对SimHash算法去重的过程进行了解析,最后从无法保证短文本的计算准确率、算法运行效率低、权重的确定方式难以确定等三个方面阐述了SimHash算法在文本检测去重中存在的问题。 展开更多
关键词 simhash算法 文本相似检测 海明距离 相似性计算
下载PDF
一种结合TF-IDF和Simhash的科技项目文本相似性度量方法 被引量:4
18
作者 孙北宁 吕维新 +1 位作者 曾俊 肖衡 《电子技术应用》 2023年第6期89-93,共5页
为了提高科技项目文本相似性度量的准确性和性能,将TF-IDF和Simhash相结合,提出了一种新的科技项目文本相似性度量方法。首先,该方法对科技项目文本进行预处理得到词项集合,再使用TF-IDF计算词项集合中每个词项的权重值,并选取具有较高... 为了提高科技项目文本相似性度量的准确性和性能,将TF-IDF和Simhash相结合,提出了一种新的科技项目文本相似性度量方法。首先,该方法对科技项目文本进行预处理得到词项集合,再使用TF-IDF计算词项集合中每个词项的权重值,并选取具有较高权重值的重要词项;其次,使用Simhash把重要词项映射为固定长度的二进制串,并求和得到文本的Simhash签名;最后,使用汉明距离计算两个Simhash签名间的相似性。实验结果表明,所提方法在查准率、召回率和F度量值方面优于传统的Simhash算法和TF-IDF方法。 展开更多
关键词 科技项目文本 文本相似度 TF-IDF simhash算法
下载PDF
区块链下社交网络用户抄袭识别方案
19
作者 李莉 杨春艳 +1 位作者 朱江文 胡荣磊 《计算机应用》 CSCD 北大核心 2024年第1期242-251,共10页
针对社交网络中用户抄袭难以识别的问题,为保障原创作者权益并对具有抄袭行为的用户进行追责,提出了区块链下社交网络用户抄袭识别方案。针对现有区块链缺少通用溯源模型的问题,设计基于区块链的溯源信息管理模型来记录用户操作信息,为... 针对社交网络中用户抄袭难以识别的问题,为保障原创作者权益并对具有抄袭行为的用户进行追责,提出了区块链下社交网络用户抄袭识别方案。针对现有区块链缺少通用溯源模型的问题,设计基于区块链的溯源信息管理模型来记录用户操作信息,为文本相似度检测提供依据。在Merkle树和布隆过滤器结构的基础上,设计了新的索引结构BHMerkle,减少了区块构建和查询时的计算开销,实现了对交易的快速定位。同时提出多特征权重Simhash算法,提高了词权计算的准确性并提高签名值匹配阶段的效率,从而对具有抄袭行为的恶意用户进行识别,并通过奖惩机制遏制恶意行为的发生。抄袭识别方案在不同主题的新闻数据集上的平均准确率为94.8%,平均召回率为88.3%,相较于多维度Simhash算法和基于信息熵加权的Simhash(E-Simhash)算法,平均准确率分别提升了6.19、4.01个百分点,平均召回率分别提升了3.12、2.92个百分点。实验结果表明,所提方案在抄袭文本的查询及检测效率方面均有所提升,且在抄袭识别方面具有较高的准确性。 展开更多
关键词 区块链 抄袭识别 simhash算法 相似度检测 社交网络
下载PDF
基于特征迭代的短文本去重算法 被引量:4
20
作者 曹海 孙婧 史喜斌 《计算机工程》 CAS CSCD 北大核心 2015年第12期54-57,63,共5页
由于短文本具有词频单一、结构简单等特点,基于传统特征选取方法的文本去重算法不适合短文本。为此,提出一种适合短文本特点的去重算法,利用SimHash算法产生短文本的指纹,使用共享最近邻算法对指纹进行聚类,根据聚类结果增删初始特征,... 由于短文本具有词频单一、结构简单等特点,基于传统特征选取方法的文本去重算法不适合短文本。为此,提出一种适合短文本特点的去重算法,利用SimHash算法产生短文本的指纹,使用共享最近邻算法对指纹进行聚类,根据聚类结果增删初始特征,迭代直至收敛,从而实现短文本的去重检测。在真实数据集上的实验结果表明,与现有的文本去重算法相比,该算法对于短文本具有更好的去重效果。 展开更多
关键词 simhash算法 共享最近邻 迭代 特征选择 短文本 去重
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部