期刊文献+
共找到16篇文章
< 1 >
每页显示 20 50 100
基于Levenshtein distance算法的句子相似度计算 被引量:12
1
作者 吉胜军 《电脑知识与技术》 2009年第3X期2177-2178,共2页
基于Levenshtein distance(LD)算法,以计算句子相似度为切入点,通过实验分析对自然语言处理过程中如何计算两个句子的相似度进行研究。实验证明在度量两个句子相似度的计算方法中Levenshtein distance(LD)算法是度量两个句子相似度的有... 基于Levenshtein distance(LD)算法,以计算句子相似度为切入点,通过实验分析对自然语言处理过程中如何计算两个句子的相似度进行研究。实验证明在度量两个句子相似度的计算方法中Levenshtein distance(LD)算法是度量两个句子相似度的有力算法或工具,有助于在拼写检查、雷同试卷分析等程序开发过程中编写出更加高效的代码。 展开更多
关键词 levenshtein distance(ld) 自然语言处理 句子相似度
下载PDF
基于LD算法的SQL注入攻击过滤方法研究 被引量:2
2
作者 李应博 张斌 《计算机应用研究》 CSCD 北大核心 2020年第9期2793-2796,共4页
如何有效过滤SQL注入攻击是当前Web安全领域亟需解决的关键问题之一。结合关键字过滤与序列比对过滤技术,提出一种基于LD算法的SQL注入攻击过滤(SQLIAF)方法。首先利用黑名单技术,从IP角度对非法用户进行过滤,进而缩小用于过滤的流量规... 如何有效过滤SQL注入攻击是当前Web安全领域亟需解决的关键问题之一。结合关键字过滤与序列比对过滤技术,提出一种基于LD算法的SQL注入攻击过滤(SQLIAF)方法。首先利用黑名单技术,从IP角度对非法用户进行过滤,进而缩小用于过滤的流量规模。其次对用户输入进行关键字检测:若不含关键字,利用LD算法序列比对的方法对非法输入进行过滤;若包含关键字则区分用户请求方式,采用直接加入黑名单的方式或利用LD算法进行处理,以解决传统关键字过滤方法对正常请求的误报问题。实验结果表明,与传统关键字过滤方法和规则匹配过滤方法相比,该方法能有效过滤SQL注入攻击,且误报率及漏报率更低、过滤速度更快。 展开更多
关键词 SQL注入攻击 关键字过滤 ld算法 黑名单过滤
下载PDF
一种基于熵的文本相似性计算方法 被引量:13
3
作者 李圣文 凌微 +1 位作者 龚君芳 周长征 《计算机应用研究》 CSCD 北大核心 2016年第3期665-668,共4页
文本比较是求解两个文本间相似度的过程,文本间的相似度越高代表两个文本越趋于类似。传统的相似度算法主要从字符的角度度量文本的相似性,忽略了文本内多个共同文本串对于文本相似度的影响。针对此问题提出一种基于熵的相似度求解方法... 文本比较是求解两个文本间相似度的过程,文本间的相似度越高代表两个文本越趋于类似。传统的相似度算法主要从字符的角度度量文本的相似性,忽略了文本内多个共同文本串对于文本相似度的影响。针对此问题提出一种基于熵的相似度求解方法,在对文本间字符信息的提取基础上,建立共同子文本串度量维度,然后采用熵的方法进行相似度度量。实验表明,该方法具有更平滑的相似度曲线,从而验证了算法的有效性和准确性。 展开更多
关键词 文本相似性 字符串匹配 编辑距离算法 最长公共子序列
下载PDF
基于异或编辑距离算法的航班号相似度研究 被引量:2
4
作者 孔金凤 王煜 《湘潭大学自然科学学报》 CAS 北大核心 2015年第2期116-120,共5页
航班号是执行运输航空任务航空器的主用识别标志,但相似航班号会严重影响管制运行效率和航空安全.目前,相似航班号的判断主要依赖管制员的管制经验,对其尚无相关定量研究方法.该文在用于文本相似度定量比较的编辑距离算法基础上,提出了... 航班号是执行运输航空任务航空器的主用识别标志,但相似航班号会严重影响管制运行效率和航空安全.目前,相似航班号的判断主要依赖管制员的管制经验,对其尚无相关定量研究方法.该文在用于文本相似度定量比较的编辑距离算法基础上,提出了航班号相似度计算的异或编辑距离算法,并利用北京区域管制中心的实际运行数据验证了该算法的可行性.根据该方法计算了国内主要航空公司的平均相似度,相关结果可为航班号的分配提供定量参考. 展开更多
关键词 航班号 相似度 异或编辑距离 ld算法
下载PDF
汉语方言自动聚类与分区及相关计算方法 被引量:4
5
作者 江荻 《暨南学报(哲学社会科学版)》 CSSCI 北大核心 2022年第3期10-23,共14页
本文回顾了学界对汉语方言之间相互关系的三种计量方法:特征统计、词源统计和词汇相似度计量,指出这三种计量方法采用的是非整体的、语音和词汇上受限的考察方法。文章阐述了一种更适用的计算模型,即Levenshtein Distance算法(莱文斯坦... 本文回顾了学界对汉语方言之间相互关系的三种计量方法:特征统计、词源统计和词汇相似度计量,指出这三种计量方法采用的是非整体的、语音和词汇上受限的考察方法。文章阐述了一种更适用的计算模型,即Levenshtein Distance算法(莱文斯坦距离,或称编辑距离),该方法对语言或方言之间线性字符串的语音相似性和词汇对应性具有协调功能,并蕴含特征比对和词源概率效用。本文自动分区实验汇集了南方吴、闽、粤、湘、客、赣、徽、淮8个分区的78个方言,官话方言有东北、北京、冀鲁、胶辽、中原、兰银、西南108个方言,共计186个汉语方言点。每个方言收集了斯瓦迪士100个基本词,并对方言之间展开相似性计算。计算结果与传统分区基本一致,但更为精准。 展开更多
关键词 汉语方言 聚类算法 莱文斯坦距离 自动分区
下载PDF
科研基金数据加工方法研究 被引量:1
6
作者 赵胜钢 陈颖 《医学信息学杂志》 CAS 2014年第6期38-43,共6页
分析原始基金数据的特点,依据知识发现的基本原理,对科研基金数据进行拆分、清洗、分类与甄别,建立起基金分类体系,再利用该体系对科研基金数据进行标注。通过"聚类-完善分类体系-标注"的循环,完成对科研基金数据的加工。
关键词 知识发现 数据挖掘 聚类分析 levenshtein distance算法
下载PDF
基于改进编辑距离的字符串相似度求解算法 被引量:72
7
作者 姜华 韩安琪 +2 位作者 王美佳 王峥 吴雲玲 《计算机工程》 CAS CSCD 2014年第1期222-227,共6页
编辑距离(LD)算法在求解两个字符串的相似问题时只考虑了编辑操作次数,未考虑字符串之间的公共子串对相似度的影响。为此,提出一种基于改进编辑距离的字符串相似度求解算法,对字符串相似度度量公式及Levenshtein矩阵计算方法进行改进。... 编辑距离(LD)算法在求解两个字符串的相似问题时只考虑了编辑操作次数,未考虑字符串之间的公共子串对相似度的影响。为此,提出一种基于改进编辑距离的字符串相似度求解算法,对字符串相似度度量公式及Levenshtein矩阵计算方法进行改进。在计算编辑距离时,以原有矩阵求出两字符串的最长公共子串及所有LD回溯路径。选取一个单词作为源串,一组与源串不同程度相似的单词为目标串,将改进的相似度度量公式与现有的字符串相似度计算方法进行比较,改进公式减少了进入胜者表的目标串数,相似度的样本极差和标准差分别为0.331和0.150。实验结果表明,改进算法在不改变空间复杂度的情况下,计算字符串相似度的准确性更高,且查询方式更灵活。 展开更多
关键词 编辑距离 ld算法 回溯路径 最长公共子串 相似度 模糊查询
下载PDF
谈C语言上机考试的自动评分
8
作者 刘庆海 刘光凤 +1 位作者 杨德艳 梁倩 《电脑知识与技术》 2012年第9X期6517-6519,共3页
在程序设计课的上机考试系统中,如何实现自动评分是最为关键的部分。该文对不同题型给出了不同的评分方法,其中编程题的评分,采用学生答案和标准答案之间的编辑距离作为评分依据,将LD算法用于考试系统的自动评分,并给出用VB6.0实现的函... 在程序设计课的上机考试系统中,如何实现自动评分是最为关键的部分。该文对不同题型给出了不同的评分方法,其中编程题的评分,采用学生答案和标准答案之间的编辑距离作为评分依据,将LD算法用于考试系统的自动评分,并给出用VB6.0实现的函数代码。 展开更多
关键词 自动评分 考试系统 VB6.0 ld算法
下载PDF
基于改进编辑距离算法的保护装置测试模板开发 被引量:3
9
作者 林道鸿 吴强 +3 位作者 邵雷 万信书 陈中 李东升 《广东电力》 2018年第10期36-43,共8页
继电保护测试子模板实例化过程需要人工将实际参数赋给相应的数据接口,存在匹配繁琐、效率不高、准确性差的问题。为此,研究了一种改进编辑距离(improved lenvenshtein distance,ILD)算法来实现测试子模板实例化过程中数据匹配与数值传... 继电保护测试子模板实例化过程需要人工将实际参数赋给相应的数据接口,存在匹配繁琐、效率不高、准确性差的问题。为此,研究了一种改进编辑距离(improved lenvenshtein distance,ILD)算法来实现测试子模板实例化过程中数据匹配与数值传递的自动化和智能化。首先改进整词二分词典结构,即改进正向最大匹配(forward maximum matching,FMM)算法对字符串进行分词预处理,减少1/2的匹配复杂度;其次提出长度和后缀结合的双重过滤-验证机制,减小多字符串匹配时目标字符串搜索空间的大小;然后在编辑距离(lenvenshtein distance,LD)计算时以子串为单位取代逐字符,改进LD算法,提高字符串匹配效率;最后通过测试算例验证改进FMM算法在字符串分词处理上的高效性和正确性,实现在测试子模板实例化过程中数据匹配与数值传递的自动化与智能化。 展开更多
关键词 继电保护 自动测试 FMM算法 Ild算法 编辑距离 双重过滤验证机制
下载PDF
基于改进句子相似度算法的释义识别研究 被引量:11
10
作者 陈俊月 郝文宁 +3 位作者 张紫萱 唐新德 康睿智 莫斐 《计算机工程》 CAS CSCD 北大核心 2020年第9期76-82,共7页
针对现有句子相似度算法无法处理同义词、准确率低和复杂度高等不足,结合词向量技术改进Levenshtein相似度算法和Jaccard系数,提出一种新的句子相似度算法用于释义识别,并对多种句子相似度算法的优劣进行分析,设计多相似度特征组合的应... 针对现有句子相似度算法无法处理同义词、准确率低和复杂度高等不足,结合词向量技术改进Levenshtein相似度算法和Jaccard系数,提出一种新的句子相似度算法用于释义识别,并对多种句子相似度算法的优劣进行分析,设计多相似度特征组合的应用模式。基于MRPC释义识别数据集的实验结果表明,使用该算法的释义识别模型准确率与F1值分别达到74.4%和83.1%,与使用TF-IDF算法、词袋算法等传统算法的模型相比识别性能更优。 展开更多
关键词 句子相似度 Jaccard系数 levenshtein距离 词向量 释义识别 多特征组合
下载PDF
面向新型电力系统的智能变电站虚回路自动校验技术研究 被引量:14
11
作者 叶远波 李端超 +2 位作者 谢民 王志华 毛玉荣 《电测与仪表》 北大核心 2022年第7期91-99,共9页
针对新型电力系统智能高效的需求,提出了一种基于改进Levenshtein距离模糊匹配算法的智能变电站虚回路自动校验技术,基于改进Levenshtein距离模糊匹配算法实现不规范虚端子模型到规范虚端子模型的映射建立标准端子库,解决变电站配置文... 针对新型电力系统智能高效的需求,提出了一种基于改进Levenshtein距离模糊匹配算法的智能变电站虚回路自动校验技术,基于改进Levenshtein距离模糊匹配算法实现不规范虚端子模型到规范虚端子模型的映射建立标准端子库,解决变电站配置文件模型不规范问题。引入Word2Vector相似性改进编辑操作权重设置提高算法的准确性。依据建立的标准端子库与已通过校验的SCD文件建立虚回路校验模板,基于标准化的校验模板实现虚回路自动校验。通过算例验证了所提方法可提升智能变电站虚回路校验智能化水平和效率。 展开更多
关键词 虚回路校验 Levenshrein距离 模糊匹配算法 标准端子库 自动校验
下载PDF
短文本聚合在元器件供方匹配中的应用与研究 被引量:1
12
作者 魏自强 班元郎 +1 位作者 徐伟 王文玺 《计算机技术与发展》 2022年第7期216-220,共5页
航天采购部门采购合格供方的元器件是保证航天用元器件可靠性的方法之一。确定供方是否在合格供方目录中,是航天元器件采购流程中的一个重要步骤。但由于航天各院所系统中对供方定义标准不一致,常以供方公司的别称、简称代替供方名称,... 航天采购部门采购合格供方的元器件是保证航天用元器件可靠性的方法之一。确定供方是否在合格供方目录中,是航天元器件采购流程中的一个重要步骤。但由于航天各院所系统中对供方定义标准不一致,常以供方公司的别称、简称代替供方名称,这导致同一供方出现多种不同名称,这给如何匹配合格供方带来了挑战。针对航天各院所系统中的供方数据的特征,提出了一种结合Jaro-Winkle算法和Levenshtein算法的融合算法。该算法通过引入调整阈值及系数,将字符的位序、字符替换、添加、删除操作等因素纳入到供方名称的短文本相似度计算中,提高供方名称的短文本匹配准确率。通过在航天元器件合格供方匹配流程中的应用,该算法有效提高了供方的匹配准确率。 展开更多
关键词 Jaro-Winkler算法 levenshtein距离 短文本聚合模型 数据特征 供方匹配
下载PDF
基于约束的字符串相似度研究与应用
13
作者 刘月锟 《智能计算机与应用》 2019年第3期180-183,共4页
为了提高计算字符串相似度的准确度,分析了字符串相似度计算中准确度难以提高的原因,研究了当前编辑距离计算中存在的问题,对编辑距离计算中替换操作代价进行修订,使编辑距离的计算更加符合实际应用,提出了相似字符串转换的不可逆,说明... 为了提高计算字符串相似度的准确度,分析了字符串相似度计算中准确度难以提高的原因,研究了当前编辑距离计算中存在的问题,对编辑距离计算中替换操作代价进行修订,使编辑距离的计算更加符合实际应用,提出了相似字符串转换的不可逆,说明孤立的字符串难以做到精确匹配,挖掘与字符串密切相关的属性,提出了具有约束的字符串定义,在此基础上改进了莱文斯坦算法,通过对实例数据分析,验证了该方法在基于关系型数据库的应用系统中的有效性。 展开更多
关键词 编辑距离 字符串相似度 莱文斯坦算法 约束字符串 转换不可逆
下载PDF
LEDA:一种基于Levenshtein距离的DNA序列拼接算法 被引量:7
14
作者 崔竞松 薛慧 +1 位作者 王兰兰 郭迟 《武汉大学学报(理学版)》 CAS CSCD 北大核心 2022年第3期271-278,共8页
针对DNA双端测序产生的两条序列Read1和Read2,提出了一种基于Levenshtein距离的DNA序列拼接算法。根据Read1与Read2末端重叠部分的编辑距离,寻找所有可能正确的序列片段,拼接成完整的DNA序列。该算法将通常用于字符串比对的编辑距离运用... 针对DNA双端测序产生的两条序列Read1和Read2,提出了一种基于Levenshtein距离的DNA序列拼接算法。根据Read1与Read2末端重叠部分的编辑距离,寻找所有可能正确的序列片段,拼接成完整的DNA序列。该算法将通常用于字符串比对的编辑距离运用到DNA序列的拼接问题中,将DNA序列拼接问题转换成为可能发生插入、删除以及替换操作的字符串比对问题,算法简单,解决了其他拼接算法使用时有诸多限制条件的问题。拼接正确率高达99%,相比于其他拼接算法O(N^(2))的时间复杂度,时间复杂度仅为O(n·2x),其中N为reads长度,n为overlap长度,x为Read1与Read2末端重叠部分的最小编辑距离,拼接高效,具有良好的技术优势。 展开更多
关键词 DNA测序技术 levenshtein距离 拼接算法
原文传递
基于网络蜘蛛和LD算法的钓鱼网站检测技术 被引量:2
15
作者 刘少彬 彭慧波 +1 位作者 蔺华庆 王全红 《自动化与仪器仪表》 2015年第6期165-166,共2页
随着互联网技术的快速发展,钓鱼网站已经成为威胁到互联网稳定的因素。本次设计中,首先,以真实URL链接为基准,利用网络蜘蛛来抓取与此相似或相近的URL链接,作为疑似钓鱼网站;其次,通过LD算法对正确网站和疑似网页的HTML源码进行相似度比... 随着互联网技术的快速发展,钓鱼网站已经成为威胁到互联网稳定的因素。本次设计中,首先,以真实URL链接为基准,利用网络蜘蛛来抓取与此相似或相近的URL链接,作为疑似钓鱼网站;其次,通过LD算法对正确网站和疑似网页的HTML源码进行相似度比对,一旦相似度达到阈值,就认定可疑网站为钓鱼网站;最后,基于分析结果建立钓鱼网站的黑名单和白名单。经测试,该技术能够根据用户输入的URL自动进行钓鱼网站的检测,达到了预期的目标。 展开更多
关键词 钓鱼网站 网络蜘蛛 ld算法 黑名单 白名单
原文传递
基于统计和特征相结合的查询纠错方法研究 被引量:3
16
作者 段建勇 关晓龙 《现代图书情报技术》 CSSCI 2016年第2期34-42,共9页
【目的】提高搜索引擎查询纠错过程中的准确率和召回率,改善用户的检索体验。【方法】提出一种基于统计和特征相结合的查询纠错模型,建立混淆集生成模型,将用户输入的查询关键字生成其对应的混淆集;建立混淆集排序模型,对混淆集中的词... 【目的】提高搜索引擎查询纠错过程中的准确率和召回率,改善用户的检索体验。【方法】提出一种基于统计和特征相结合的查询纠错模型,建立混淆集生成模型,将用户输入的查询关键字生成其对应的混淆集;建立混淆集排序模型,对混淆集中的词条进行排序,选出混淆集中最佳的词条与用户输入的查询关键字对照,以此达到查错纠错的目的。【结果】实验结果证明该模型在搜索引擎查询时具有较好的效果,测试集在110k时的准确率和召回率分别达到92.2%和95%,相对于N-gram纠错模型准确率和召回率分别提高13.6%和8.3%。【局限】该模型中混淆集的生成规则有限、模型的训练需要大量的计算。【结论】本模型能够提高搜索引擎查询的准确率及效率,改善用户的检索体验。 展开更多
关键词 查询纠错 混淆集 N-GRAM模型 N-gram相似度 编辑距离 点击词频
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部