期刊文献+
共找到79篇文章
< 1 2 4 >
每页显示 20 50 100
基于Levenshtein distance算法的句子相似度计算 被引量:12
1
作者 吉胜军 《电脑知识与技术》 2009年第3X期2177-2178,共2页
基于Levenshtein distance(LD)算法,以计算句子相似度为切入点,通过实验分析对自然语言处理过程中如何计算两个句子的相似度进行研究。实验证明在度量两个句子相似度的计算方法中Levenshtein distance(LD)算法是度量两个句子相似度的有... 基于Levenshtein distance(LD)算法,以计算句子相似度为切入点,通过实验分析对自然语言处理过程中如何计算两个句子的相似度进行研究。实验证明在度量两个句子相似度的计算方法中Levenshtein distance(LD)算法是度量两个句子相似度的有力算法或工具,有助于在拼写检查、雷同试卷分析等程序开发过程中编写出更加高效的代码。 展开更多
关键词 levenshtein distance(ld) 自然语言处理 句子相似度
下载PDF
基于Levenshtein距离和时间切面的拓扑识别算法研究
2
作者 严永辉 李新家 +2 位作者 陈霄 马云龙 郑海雁 《电力信息与通信技术》 2024年第11期67-74,共8页
低压配电网拓扑缺乏维护,准确度低,难以支撑各种高级应用的实现。为此,文章提出一种基于Levenshtein距离和时间切面的拓扑识别算法。首先分析配电网拓扑架构,提出使用电流事件特征进行拓扑识别研究。其次描述了电流事件的提取方法,使用... 低压配电网拓扑缺乏维护,准确度低,难以支撑各种高级应用的实现。为此,文章提出一种基于Levenshtein距离和时间切面的拓扑识别算法。首先分析配电网拓扑架构,提出使用电流事件特征进行拓扑识别研究。其次描述了电流事件的提取方法,使用改进滑动窗的累积和(cumulative sum control chart,CUSUM)事件检测算法进行电流事件提取。接着描述了采用Levenshtein距离算法和时间切面方法对箱变电流序列和用户表箱采集设备电流序列进行比对,提出使用序列匹配度描述台区户变拓扑的相关程度。最后基于现场台区数据进行计算分析,验证了该方法的可行性和准确性。 展开更多
关键词 levenshtein距离 时间切面 电流序列 序列匹配度 拓扑识别
下载PDF
基于Levenshtein距离的流程检索方法 被引量:6
3
作者 曹斌 尹建伟 陈慧蕊 《计算机集成制造系统》 EI CSCD 北大核心 2012年第8期1766-1773,共8页
为提高大规模流程库的检索效率,提出一种新的流程检索方法。该方法采用最小深度优先搜索编码对流程图模型进行规范化标志,并基于Levenshtein距离计算最小深度优先搜索编码获得相似度值,提高了流程图匹配时相似度计算的效率。通过对原型... 为提高大规模流程库的检索效率,提出一种新的流程检索方法。该方法采用最小深度优先搜索编码对流程图模型进行规范化标志,并基于Levenshtein距离计算最小深度优先搜索编码获得相似度值,提高了流程图匹配时相似度计算的效率。通过对原型系统进行实验评估,证明了所提方法在检索效率方面高于图编辑距离,且在返回的检索结果中,相似度最高的前5个结果基本与图编辑距离一致,保证了方法的准确性。 展开更多
关键词 流程检索 流程相似度计算 深度优先搜索 levenshtein距离
下载PDF
一种层次Levenshtein距离的无指纹校准的室内定位方法 被引量:4
4
作者 何富贵 杨铮 +2 位作者 吴陈沭 赵姝 周先存 《智能系统学报》 CSCD 北大核心 2017年第3期422-429,共8页
随着移动计算领域的兴起,基于位置的服务越来越受青睐。目前各种室内定位的方法层出不穷,由于室内广泛部署了无线基础设施,基于WiFi指纹信息的室内定位技术是其主流方法。设备异构和室内环境变化是影响定位精度的主要因素。本文针对以... 随着移动计算领域的兴起,基于位置的服务越来越受青睐。目前各种室内定位的方法层出不穷,由于室内广泛部署了无线基础设施,基于WiFi指纹信息的室内定位技术是其主流方法。设备异构和室内环境变化是影响定位精度的主要因素。本文针对以上两个问题,提出一种层次Levenshtein距离(HLD)的WiFi指纹距离计算算法,实现异构设备的指纹无校准比对。将不同移动设备采集的RSSI信息转化为AP序列,根据AP对应的RSSI值的差异性计算其层次能级,结合Levenshtein距离计算WiFi指纹之间的距离。对于需定位的WiFi指纹RSSI信息,利用HLD算法获取K个近邻,采用WKNN算法进行预测定位。实验中,为了验证算法的鲁棒性和有效性,在3种不同类型的室内环境中采用5种不同的移动设备来采集WiFi的RSSI信息,其定位的平均精度达1.5 m。 展开更多
关键词 室内定位 WiFi指纹 设备异构 无指纹校准 levenshtein距离
下载PDF
基于莱文斯坦距离的易混淆药品目录自动生成算法及软件实现
5
作者 陈杨 淡重辉 +3 位作者 何瑶 阮一 陈肖 郑晓媛 《中国药房》 CAS 北大核心 2024年第15期1899-1904,共6页
目的构建一种高效的易混淆药品目录自动生成算法,并在此基础上开发一种易混淆药品目录管理系统,以此提升对易混淆药品目录的管理效率。方法本研究以莱文斯坦距离算法为理论基础,深入研究易混淆药品组的自动识别机制以及相似性阈值筛选方... 目的构建一种高效的易混淆药品目录自动生成算法,并在此基础上开发一种易混淆药品目录管理系统,以此提升对易混淆药品目录的管理效率。方法本研究以莱文斯坦距离算法为理论基础,深入研究易混淆药品组的自动识别机制以及相似性阈值筛选方法,进而构建易混淆药品目录自动生成算法。在系统开发层面,本研究采用Visual Basic.NET作为编程语言,结合SQL Server 2008 R2 Express数据库管理平台,设计开发易混淆药品目录管理系统。结果相似性阈值δ是易混淆药品目录自动生成算法的关键参数,随着δ的逐渐增大,易混淆药品的总数逐渐减少,而易混淆药品组数则呈现先上升后下降的变化规律。在实际应用中,可根据药品的通用名或品种名构建易混淆药品目录,对应的相似性阈值可取0.75和0.83。此外,本课题组开发的易混淆药品目录管理系统将原本耗时约1周的目录建立时间缩短至不到1 h,极大地提升了工作效率。结论本研究构建的易混淆药品目录自动生成算法高效快速,为易混淆药品管理提供了强有力的技术支撑。开发的易混淆药品目录管理系统极大地减轻了目录建立和维护的时间成本,提高了对易混淆药品目录的管理效率。 展开更多
关键词 易混淆药品 莱文斯坦距离 药品目录 相似性阈值
下载PDF
Levenshtein距离在编程题自动评阅中的应用研究 被引量:7
6
作者 周汉平 《计算机应用与软件》 CSCD 2011年第5期209-212,共4页
目前对编程题的自动评阅技术多建立在程序能正常运行的基础上。实践表明,这样的评价基础并不适用初学计算机程序语言的学生,大量的答题由于很小的编译错误而被判为零分。如何对一个无法正常运行的程序文本给出一个正确度的评价,这个课... 目前对编程题的自动评阅技术多建立在程序能正常运行的基础上。实践表明,这样的评价基础并不适用初学计算机程序语言的学生,大量的答题由于很小的编译错误而被判为零分。如何对一个无法正常运行的程序文本给出一个正确度的评价,这个课题的研究在国内外还未见有特别有效的方法。把文本相似度和程序相似度的研究成果应用于对程序文本正确度的评价上是一种新的探索。通过构造由样本程序生成的目标程序集,结合使用衡量文本相似度的Levenshtein距离,给出一个程序正确度评价方法。希望在程序文本的正确性评价方法的研究方面能有所突破。 展开更多
关键词 莱文斯坦距离 文本相似度 相似度度量 自动阅卷
下载PDF
一种新型的基于Levenshtein距离层次聚类的时序操作优化方法 被引量:6
7
作者 朱坚 杨博 +2 位作者 王永健 唐晓婕 李宏光 《化工学报》 EI CAS CSCD 北大核心 2019年第2期581-589,共9页
现代流程工业过程中,DCS采集并存储了大量的操作时序数据,若能将其中有价值的操作经验和操作信息提取出来,则可大大提高操作系统的性能。然而,操作经验概念较为模糊,无法具体量化。因此,将具有时序特征的操作数据符号化,使操作经验以区... 现代流程工业过程中,DCS采集并存储了大量的操作时序数据,若能将其中有价值的操作经验和操作信息提取出来,则可大大提高操作系统的性能。然而,操作经验概念较为模糊,无法具体量化。因此,将具有时序特征的操作数据符号化,使操作经验以区块化形式表示,并提出一种基于Levenshtein距离的时序层次凝聚聚类算法,通过对操纵变量的历史时序操作数据进行相似性搜索,进而获得多种相似的操作模式,并将每种类型的操作模式对应的过程变量进行性能分析,从而得到并保存实际工作过程中所需的操作经验,以达到生产过程操作优化的目的。为了验证所提出方法,将其用于连续组分精馏操作过程,实验结果表明所提出的基于Levenshtein距离层次聚类的操作优化方法的有效性。 展开更多
关键词 时间序列 levenshtein距离 层次聚类 操作优化 精馏
下载PDF
基于LD算法的SQL注入攻击过滤方法研究 被引量:2
8
作者 李应博 张斌 《计算机应用研究》 CSCD 北大核心 2020年第9期2793-2796,共4页
如何有效过滤SQL注入攻击是当前Web安全领域亟需解决的关键问题之一。结合关键字过滤与序列比对过滤技术,提出一种基于LD算法的SQL注入攻击过滤(SQLIAF)方法。首先利用黑名单技术,从IP角度对非法用户进行过滤,进而缩小用于过滤的流量规... 如何有效过滤SQL注入攻击是当前Web安全领域亟需解决的关键问题之一。结合关键字过滤与序列比对过滤技术,提出一种基于LD算法的SQL注入攻击过滤(SQLIAF)方法。首先利用黑名单技术,从IP角度对非法用户进行过滤,进而缩小用于过滤的流量规模。其次对用户输入进行关键字检测:若不含关键字,利用LD算法序列比对的方法对非法输入进行过滤;若包含关键字则区分用户请求方式,采用直接加入黑名单的方式或利用LD算法进行处理,以解决传统关键字过滤方法对正常请求的误报问题。实验结果表明,与传统关键字过滤方法和规则匹配过滤方法相比,该方法能有效过滤SQL注入攻击,且误报率及漏报率更低、过滤速度更快。 展开更多
关键词 SQL注入攻击 关键字过滤 ld算法 黑名单过滤
下载PDF
Levenshtein算法优化及在题库判重中的应用 被引量:1
9
作者 张衡 陈良育 《华东师范大学学报(自然科学版)》 CAS CSCD 北大核心 2018年第5期154-163,共10页
为了解决Levenshtein距离算法在长文本和大规模匹配效率的不足,本文针对Levenshtein距离算法提出一种提前终止的优化策略.首先根据Levenshtein距离矩阵中元素内在的联系,归纳总结出一个递推关系式.再依据此递推关系式,提出一种提前终止... 为了解决Levenshtein距离算法在长文本和大规模匹配效率的不足,本文针对Levenshtein距离算法提出一种提前终止的优化策略.首先根据Levenshtein距离矩阵中元素内在的联系,归纳总结出一个递推关系式.再依据此递推关系式,提出一种提前终止策略,可提前判断两个文本是否满足预先设定的相似度阈值.经过多个学科题库判重实验的佐证,本文的提前终止策略能显著减少计算时间. 展开更多
关键词 题库匹配 文本相似度 levenshtein编辑距离
下载PDF
基于Levenshtein距离的Word操作题自动评分算法 被引量:1
10
作者 罗泉 刘芝 《现代计算机》 2020年第32期90-93,共4页
针对学生基于素材完成操作练习的场景,提出一种基于Levenshtein距离的Word操作题自动评分算法。该算法通过测量学生作品文档分别到素材、标准答案的距离来计算分值。实验结果表明,该算法在执行速度、Precision、Recall、F1-Score等指标... 针对学生基于素材完成操作练习的场景,提出一种基于Levenshtein距离的Word操作题自动评分算法。该算法通过测量学生作品文档分别到素材、标准答案的距离来计算分值。实验结果表明,该算法在执行速度、Precision、Recall、F1-Score等指标均有所提升,能运用于日常操作练习评分。 展开更多
关键词 自动评分 levenshtein距离 WORD操作题
下载PDF
基于编辑距离的字符串相似度算法研究 被引量:3
11
作者 张胜楠 《现代计算机》 2023年第14期23-26,32,共5页
基于编辑距离(LD)求解字符串相似度的算法非常经典,但其在普适性和精确性方面略有不足,基于最长公共子串(LCCS)和最长公共子序列(LCS)对其改进,使计算结果更有区分性、普适性和精确性。另外在计算相似度时,对LD和LCS的求解算法从数据结... 基于编辑距离(LD)求解字符串相似度的算法非常经典,但其在普适性和精确性方面略有不足,基于最长公共子串(LCCS)和最长公共子序列(LCS)对其改进,使计算结果更有区分性、普适性和精确性。另外在计算相似度时,对LD和LCS的求解算法从数据结构的角度进行了优化,在数量级上降低了算法空间复杂度。对实验结果进行了对比分析,证明其可行性和正确性。 展开更多
关键词 相似度计算 编辑距离 最长公共子序列 最长公共子串
下载PDF
Identifying G-protein Coupled Receptors Using Weighted Levenshtein Distance and Nearest Neighbor Method 被引量:1
12
作者 Jian-Hua Xu 《Genomics, Proteomics & Bioinformatics》 SCIE CAS CSCD 2005年第4期252-257,共6页
G-protein coupled receptors (GPCRs) are a class of seven-helix transmembrane proteins that have been used in bioinformatics as the targets to facilitate drug discovery for human diseases. Although thousands of GPCR ... G-protein coupled receptors (GPCRs) are a class of seven-helix transmembrane proteins that have been used in bioinformatics as the targets to facilitate drug discovery for human diseases. Although thousands of GPCR sequences have been collected, the ligand specificity of many GPCRs is still unknown and only one crystal structure of the rhodopsin-like family has been solved. Therefore, identifying GPCR types only from sequence data has become an important research issue. In this study, a novel technique for identifying GPCR types based on the weighted Levenshtein distance between two receptor sequences and the nearest neighbor method (NNM) is introduced, which can deal with receptor sequences with different lengths directly. In our experiments for classifying four classes (acetylcholine, adrenoceptor, dopamine, and serotonin) of the rhodopsin-like family of GPCRs, the error rates from the leave-one-out procedure and the leave-half-out procedure were 0.62% and 1.24%, respectively. These results are prior to those of the covariant discriminant algorithm, the support vector machine method, and the NNM with Euclidean distance. 展开更多
关键词 GPCR weighted levenshtein distance nearest neighbor method
原文传递
融合语义和位置信息的兴趣点实体匹配方法
13
作者 孙晓霞 《地理空间信息》 2023年第5期22-24,共3页
兴趣点是反映城市建设的重要地理空间框架数据,及时快速更新兴趣点具有重要意义。提出了一种融合语义和位置信息的兴趣点实体匹配方法,可从互联网数据中获取新增的数据,提高了兴趣点实体的时效性,减少了人工检查的工作量。实验结果表明... 兴趣点是反映城市建设的重要地理空间框架数据,及时快速更新兴趣点具有重要意义。提出了一种融合语义和位置信息的兴趣点实体匹配方法,可从互联网数据中获取新增的数据,提高了兴趣点实体的时效性,减少了人工检查的工作量。实验结果表明,该方法可快速更新兴趣点实体,降低生产成本,提高生产效率,提升多源数据的应用价值。 展开更多
关键词 兴趣点实体 城市地理空间框架 Jaccard距离 levenshtein距离
下载PDF
运用Excel模糊匹配物资实现精准对量的三种方法比较
14
作者 程韬 《工程造价管理》 2023年第5期81-87,共7页
由于设计、建设、施工、第三方咨询单位在数据生成工具选用和称谓习惯的不同,以及可能的拼写错误,同一种物资会出现不同的名称叫法。加上工程物资规格种类繁多,人工梳理或是一般性的菜单操作难以胜任快速高效的查找与对量工作。为此,有... 由于设计、建设、施工、第三方咨询单位在数据生成工具选用和称谓习惯的不同,以及可能的拼写错误,同一种物资会出现不同的名称叫法。加上工程物资规格种类繁多,人工梳理或是一般性的菜单操作难以胜任快速高效的查找与对量工作。为此,有必要研究更为有效的解决方案。模糊匹配算法可以处理一系列数据歧义,例如字符颠倒、缩略语、单字或词组拼写错误、不规范的标点符号等,获得最接近的匹配结果。鉴于Excel在数据呈现与处理方面的广泛运用基础,在其强大的数据清洗、排序检索功能以及二次开发能力的加持下,能较为便利地实现字符串的模糊匹配。一般而言,模糊匹配可以使用Excel组合公式、内嵌的Power Query查询或是基于VBA代码的编辑距离法实现。以上三种方法有各自的优点和局限性,其中前两者虽易于上手但制约略多,VBA编程法强大但较难以掌握。文章通过对三种方法思路及关键步骤的阐述,结合图表范例演示,以更好地展示各自的适用情形。 展开更多
关键词 EXCEL 模糊匹配 POWER QUERY 编辑距离
下载PDF
一种改进的编辑距离算法及其在数据处理中的应用 被引量:51
15
作者 赵作鹏 尹志民 +2 位作者 王潜平 许新征 江海峰 《计算机应用》 CSCD 北大核心 2009年第2期424-426,共3页
基于数据处理的需要,在分析原有编辑距离算法的基础上,通过拓展交换操作减少编辑操作的数量。与仅对计算点之前相邻位置字符间的交换操作相比,通过对计算点前后非相邻位置字符间的交换操作改进该算法,能够得到更理想化的编辑距离。将改... 基于数据处理的需要,在分析原有编辑距离算法的基础上,通过拓展交换操作减少编辑操作的数量。与仅对计算点之前相邻位置字符间的交换操作相比,通过对计算点前后非相邻位置字符间的交换操作改进该算法,能够得到更理想化的编辑距离。将改进的编辑距离算法应用于煤矿隐患数据的处理,提高了隐患数据分类分级的有效性和执行效率。 展开更多
关键词 编辑距离 字符串相似匹配 数据处理
下载PDF
基于Token编辑距离检测克隆代码 被引量:13
16
作者 张久杰 王春晖 +2 位作者 张丽萍 侯敏 刘东升 《计算机应用》 CSCD 北大核心 2015年第12期3536-3543,共8页
针对当前Type-3克隆代码检测工具较少、效率偏低等问题,提出了一种基于Token的能有效检测Type-3克隆代码的检测方法。该方法同时能有效检测Type-1和Type-2克隆代码。首先将源代码Token化得到特定代码粒度的Token串,其次将所有Token串的... 针对当前Type-3克隆代码检测工具较少、效率偏低等问题,提出了一种基于Token的能有效检测Type-3克隆代码的检测方法。该方法同时能有效检测Type-1和Type-2克隆代码。首先将源代码Token化得到特定代码粒度的Token串,其次将所有Token串的定长子串进行映射,在对映射信息进行查询的基础上,利用编辑距离算法确定克隆对,然后通过并查集算法快速构建克隆群,最终反馈克隆代码信息。实现了原型工具FClones,利用基于代码突变的框架对工具进行了评价,并与领域内较优秀的两款工具Ni Cad及Sim Cad进行了对比。实验结果表明,FClones在检测三类克隆代码时查全率均不低于95%,查准率均不低于98%,能更好地检测Type-3克隆代码。 展开更多
关键词 克隆代码 克隆检测 编辑距离 Type-3 TOKEN
下载PDF
一种基于熵的文本相似性计算方法 被引量:13
17
作者 李圣文 凌微 +1 位作者 龚君芳 周长征 《计算机应用研究》 CSCD 北大核心 2016年第3期665-668,共4页
文本比较是求解两个文本间相似度的过程,文本间的相似度越高代表两个文本越趋于类似。传统的相似度算法主要从字符的角度度量文本的相似性,忽略了文本内多个共同文本串对于文本相似度的影响。针对此问题提出一种基于熵的相似度求解方法... 文本比较是求解两个文本间相似度的过程,文本间的相似度越高代表两个文本越趋于类似。传统的相似度算法主要从字符的角度度量文本的相似性,忽略了文本内多个共同文本串对于文本相似度的影响。针对此问题提出一种基于熵的相似度求解方法,在对文本间字符信息的提取基础上,建立共同子文本串度量维度,然后采用熵的方法进行相似度度量。实验表明,该方法具有更平滑的相似度曲线,从而验证了算法的有效性和准确性。 展开更多
关键词 文本相似性 字符串匹配 编辑距离算法 最长公共子序列
下载PDF
一种改进的RSSI指纹库定位算法 被引量:9
18
作者 霍欢 杨沪沪 +2 位作者 郑德原 刘亮 张薇 《计算机应用研究》 CSCD 北大核心 2017年第9期2786-2790,共5页
为了提高室内定位的精度,进行了信号强度RSSI之间的相关性的分析,提出了ID-WRKL算法。该算法将RSSI排序转换成AP指纹序列对并建立离线指纹库,其稳定性可以减小定位误差;再通过在线AP的选择,过滤噪点AP对定位估计的影响,减少计算量;最后... 为了提高室内定位的精度,进行了信号强度RSSI之间的相关性的分析,提出了ID-WRKL算法。该算法将RSSI排序转换成AP指纹序列对并建立离线指纹库,其稳定性可以减小定位误差;再通过在线AP的选择,过滤噪点AP对定位估计的影响,减少计算量;最后根据Levenshtein距离得到最近邻的度量。在基于Map Reduce框架下的两个集合间的K-AP(P,Q)最近邻查询法基础上进行位置估计,提高了定位的精度。大量的对比传统KNN定位法的实验表明该算法的定位更精确,速度更快。 展开更多
关键词 RSSI 指纹库 levenshtein距离 K-AP(P Q)
下载PDF
改进的编辑距离计算及其在自动评分中的应用 被引量:5
19
作者 廖宏建 杨玉宝 唐连章 《广州大学学报(自然科学版)》 CAS 2012年第4期79-83,共5页
在计算机无纸化考试中,自动评分的设计与实现是最重要也是最难的一个环节.编辑距离算法通过统计替换、删除、插入、交换操作来计算两文本间相似程度,应用到文本匹配类的自动评分中具有较高的信度.在分析默写题评分需求的基础上,对编辑... 在计算机无纸化考试中,自动评分的设计与实现是最重要也是最难的一个环节.编辑距离算法通过统计替换、删除、插入、交换操作来计算两文本间相似程度,应用到文本匹配类的自动评分中具有较高的信度.在分析默写题评分需求的基础上,对编辑距离算法做出了相应的改进,提高了相似度计算的精度,并通过回溯的方法,实现了评分过程的反馈.实际应用的数据表明,该方法在汉字评分中具有普适性. 展开更多
关键词 自动评分 编辑距离 文本匹配 相似度计算 回溯
下载PDF
基于编辑距离相似度的文本校验技术研究与应用 被引量:12
20
作者 何锋 谷锁林 陈彦辉 《飞行器测控学报》 CSCD 2015年第4期389-394,共6页
树形结构的文本配置在分布式的测控数据处理软件中使用广泛,它的正确性对数据处理而言至关重要。为了实现树形结构的文本配置自动检查和纠错,通过引入LD(Levenshtein Distance)编辑距离算法,把字符串的编辑操作推广到多叉树之间。在此... 树形结构的文本配置在分布式的测控数据处理软件中使用广泛,它的正确性对数据处理而言至关重要。为了实现树形结构的文本配置自动检查和纠错,通过引入LD(Levenshtein Distance)编辑距离算法,把字符串的编辑操作推广到多叉树之间。在此基础上定义了多叉树之间的编辑距离,建立了衡量多叉树之间相似度的方法,设计了基于模糊匹配的文本配置自动校对流程,解决了精确匹配时由字符的多义性导致的查全率失真和误判的问题。根据实验结果,查全率和查准率分别达到了87.5%和100%,有效提高了基于树形结构的文本配置自动校验时的可靠性。 展开更多
关键词 字符串相似度 树编辑距离 模糊匹配 文本校验
下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部