期刊文献+
共找到79篇文章
< 1 2 4 >
每页显示 20 50 100
基于Levenshtein distance算法的句子相似度计算 被引量:13
1
作者 吉胜军 《电脑知识与技术》 2009年第3X期2177-2178,共2页
基于Levenshtein distance(LD)算法,以计算句子相似度为切入点,通过实验分析对自然语言处理过程中如何计算两个句子的相似度进行研究。实验证明在度量两个句子相似度的计算方法中Levenshtein distance(LD)算法是度量两个句子相似度的有... 基于Levenshtein distance(LD)算法,以计算句子相似度为切入点,通过实验分析对自然语言处理过程中如何计算两个句子的相似度进行研究。实验证明在度量两个句子相似度的计算方法中Levenshtein distance(LD)算法是度量两个句子相似度的有力算法或工具,有助于在拼写检查、雷同试卷分析等程序开发过程中编写出更加高效的代码。 展开更多
关键词 levenshtein distance(ld) 自然语言处理 句子相似度
下载PDF
基于Levenshtein距离和时间切面的拓扑识别算法研究
2
作者 严永辉 李新家 +2 位作者 陈霄 马云龙 郑海雁 《电力信息与通信技术》 2024年第11期67-74,共8页
低压配电网拓扑缺乏维护,准确度低,难以支撑各种高级应用的实现。为此,文章提出一种基于Levenshtein距离和时间切面的拓扑识别算法。首先分析配电网拓扑架构,提出使用电流事件特征进行拓扑识别研究。其次描述了电流事件的提取方法,使用... 低压配电网拓扑缺乏维护,准确度低,难以支撑各种高级应用的实现。为此,文章提出一种基于Levenshtein距离和时间切面的拓扑识别算法。首先分析配电网拓扑架构,提出使用电流事件特征进行拓扑识别研究。其次描述了电流事件的提取方法,使用改进滑动窗的累积和(cumulative sum control chart,CUSUM)事件检测算法进行电流事件提取。接着描述了采用Levenshtein距离算法和时间切面方法对箱变电流序列和用户表箱采集设备电流序列进行比对,提出使用序列匹配度描述台区户变拓扑的相关程度。最后基于现场台区数据进行计算分析,验证了该方法的可行性和准确性。 展开更多
关键词 levenshtein距离 时间切面 电流序列 序列匹配度 拓扑识别
下载PDF
基于Levenshtein距离的流程检索方法 被引量:6
3
作者 曹斌 尹建伟 陈慧蕊 《计算机集成制造系统》 EI CSCD 北大核心 2012年第8期1766-1773,共8页
为提高大规模流程库的检索效率,提出一种新的流程检索方法。该方法采用最小深度优先搜索编码对流程图模型进行规范化标志,并基于Levenshtein距离计算最小深度优先搜索编码获得相似度值,提高了流程图匹配时相似度计算的效率。通过对原型... 为提高大规模流程库的检索效率,提出一种新的流程检索方法。该方法采用最小深度优先搜索编码对流程图模型进行规范化标志,并基于Levenshtein距离计算最小深度优先搜索编码获得相似度值,提高了流程图匹配时相似度计算的效率。通过对原型系统进行实验评估,证明了所提方法在检索效率方面高于图编辑距离,且在返回的检索结果中,相似度最高的前5个结果基本与图编辑距离一致,保证了方法的准确性。 展开更多
关键词 流程检索 流程相似度计算 深度优先搜索 levenshtein距离
下载PDF
一种层次Levenshtein距离的无指纹校准的室内定位方法 被引量:4
4
作者 何富贵 杨铮 +2 位作者 吴陈沭 赵姝 周先存 《智能系统学报》 CSCD 北大核心 2017年第3期422-429,共8页
随着移动计算领域的兴起,基于位置的服务越来越受青睐。目前各种室内定位的方法层出不穷,由于室内广泛部署了无线基础设施,基于WiFi指纹信息的室内定位技术是其主流方法。设备异构和室内环境变化是影响定位精度的主要因素。本文针对以... 随着移动计算领域的兴起,基于位置的服务越来越受青睐。目前各种室内定位的方法层出不穷,由于室内广泛部署了无线基础设施,基于WiFi指纹信息的室内定位技术是其主流方法。设备异构和室内环境变化是影响定位精度的主要因素。本文针对以上两个问题,提出一种层次Levenshtein距离(HLD)的WiFi指纹距离计算算法,实现异构设备的指纹无校准比对。将不同移动设备采集的RSSI信息转化为AP序列,根据AP对应的RSSI值的差异性计算其层次能级,结合Levenshtein距离计算WiFi指纹之间的距离。对于需定位的WiFi指纹RSSI信息,利用HLD算法获取K个近邻,采用WKNN算法进行预测定位。实验中,为了验证算法的鲁棒性和有效性,在3种不同类型的室内环境中采用5种不同的移动设备来采集WiFi的RSSI信息,其定位的平均精度达1.5 m。 展开更多
关键词 室内定位 WiFi指纹 设备异构 无指纹校准 levenshtein距离
下载PDF
Levenshtein距离在编程题自动评阅中的应用研究 被引量:7
5
作者 周汉平 《计算机应用与软件》 CSCD 2011年第5期209-212,共4页
目前对编程题的自动评阅技术多建立在程序能正常运行的基础上。实践表明,这样的评价基础并不适用初学计算机程序语言的学生,大量的答题由于很小的编译错误而被判为零分。如何对一个无法正常运行的程序文本给出一个正确度的评价,这个课... 目前对编程题的自动评阅技术多建立在程序能正常运行的基础上。实践表明,这样的评价基础并不适用初学计算机程序语言的学生,大量的答题由于很小的编译错误而被判为零分。如何对一个无法正常运行的程序文本给出一个正确度的评价,这个课题的研究在国内外还未见有特别有效的方法。把文本相似度和程序相似度的研究成果应用于对程序文本正确度的评价上是一种新的探索。通过构造由样本程序生成的目标程序集,结合使用衡量文本相似度的Levenshtein距离,给出一个程序正确度评价方法。希望在程序文本的正确性评价方法的研究方面能有所突破。 展开更多
关键词 莱文斯坦距离 文本相似度 相似度度量 自动阅卷
下载PDF
一种新型的基于Levenshtein距离层次聚类的时序操作优化方法 被引量:6
6
作者 朱坚 杨博 +2 位作者 王永健 唐晓婕 李宏光 《化工学报》 EI CAS CSCD 北大核心 2019年第2期581-589,共9页
现代流程工业过程中,DCS采集并存储了大量的操作时序数据,若能将其中有价值的操作经验和操作信息提取出来,则可大大提高操作系统的性能。然而,操作经验概念较为模糊,无法具体量化。因此,将具有时序特征的操作数据符号化,使操作经验以区... 现代流程工业过程中,DCS采集并存储了大量的操作时序数据,若能将其中有价值的操作经验和操作信息提取出来,则可大大提高操作系统的性能。然而,操作经验概念较为模糊,无法具体量化。因此,将具有时序特征的操作数据符号化,使操作经验以区块化形式表示,并提出一种基于Levenshtein距离的时序层次凝聚聚类算法,通过对操纵变量的历史时序操作数据进行相似性搜索,进而获得多种相似的操作模式,并将每种类型的操作模式对应的过程变量进行性能分析,从而得到并保存实际工作过程中所需的操作经验,以达到生产过程操作优化的目的。为了验证所提出方法,将其用于连续组分精馏操作过程,实验结果表明所提出的基于Levenshtein距离层次聚类的操作优化方法的有效性。 展开更多
关键词 时间序列 levenshtein距离 层次聚类 操作优化 精馏
下载PDF
基于LD算法的SQL注入攻击过滤方法研究 被引量:3
7
作者 李应博 张斌 《计算机应用研究》 CSCD 北大核心 2020年第9期2793-2796,共4页
如何有效过滤SQL注入攻击是当前Web安全领域亟需解决的关键问题之一。结合关键字过滤与序列比对过滤技术,提出一种基于LD算法的SQL注入攻击过滤(SQLIAF)方法。首先利用黑名单技术,从IP角度对非法用户进行过滤,进而缩小用于过滤的流量规... 如何有效过滤SQL注入攻击是当前Web安全领域亟需解决的关键问题之一。结合关键字过滤与序列比对过滤技术,提出一种基于LD算法的SQL注入攻击过滤(SQLIAF)方法。首先利用黑名单技术,从IP角度对非法用户进行过滤,进而缩小用于过滤的流量规模。其次对用户输入进行关键字检测:若不含关键字,利用LD算法序列比对的方法对非法输入进行过滤;若包含关键字则区分用户请求方式,采用直接加入黑名单的方式或利用LD算法进行处理,以解决传统关键字过滤方法对正常请求的误报问题。实验结果表明,与传统关键字过滤方法和规则匹配过滤方法相比,该方法能有效过滤SQL注入攻击,且误报率及漏报率更低、过滤速度更快。 展开更多
关键词 SQL注入攻击 关键字过滤 ld算法 黑名单过滤
下载PDF
Levenshtein算法优化及在题库判重中的应用 被引量:1
8
作者 张衡 陈良育 《华东师范大学学报(自然科学版)》 CAS CSCD 北大核心 2018年第5期154-163,共10页
为了解决Levenshtein距离算法在长文本和大规模匹配效率的不足,本文针对Levenshtein距离算法提出一种提前终止的优化策略.首先根据Levenshtein距离矩阵中元素内在的联系,归纳总结出一个递推关系式.再依据此递推关系式,提出一种提前终止... 为了解决Levenshtein距离算法在长文本和大规模匹配效率的不足,本文针对Levenshtein距离算法提出一种提前终止的优化策略.首先根据Levenshtein距离矩阵中元素内在的联系,归纳总结出一个递推关系式.再依据此递推关系式,提出一种提前终止策略,可提前判断两个文本是否满足预先设定的相似度阈值.经过多个学科题库判重实验的佐证,本文的提前终止策略能显著减少计算时间. 展开更多
关键词 题库匹配 文本相似度 levenshtein编辑距离
下载PDF
基于Levenshtein距离的Word操作题自动评分算法 被引量:1
9
作者 罗泉 刘芝 《现代计算机》 2020年第32期90-93,共4页
针对学生基于素材完成操作练习的场景,提出一种基于Levenshtein距离的Word操作题自动评分算法。该算法通过测量学生作品文档分别到素材、标准答案的距离来计算分值。实验结果表明,该算法在执行速度、Precision、Recall、F1-Score等指标... 针对学生基于素材完成操作练习的场景,提出一种基于Levenshtein距离的Word操作题自动评分算法。该算法通过测量学生作品文档分别到素材、标准答案的距离来计算分值。实验结果表明,该算法在执行速度、Precision、Recall、F1-Score等指标均有所提升,能运用于日常操作练习评分。 展开更多
关键词 自动评分 levenshtein距离 WORD操作题
下载PDF
基于莱文斯坦距离的易混淆药品目录自动生成算法及软件实现
10
作者 陈杨 淡重辉 +3 位作者 何瑶 阮一 陈肖 郑晓媛 《中国药房》 CAS 北大核心 2024年第15期1899-1904,共6页
目的构建一种高效的易混淆药品目录自动生成算法,并在此基础上开发一种易混淆药品目录管理系统,以此提升对易混淆药品目录的管理效率。方法本研究以莱文斯坦距离算法为理论基础,深入研究易混淆药品组的自动识别机制以及相似性阈值筛选方... 目的构建一种高效的易混淆药品目录自动生成算法,并在此基础上开发一种易混淆药品目录管理系统,以此提升对易混淆药品目录的管理效率。方法本研究以莱文斯坦距离算法为理论基础,深入研究易混淆药品组的自动识别机制以及相似性阈值筛选方法,进而构建易混淆药品目录自动生成算法。在系统开发层面,本研究采用Visual Basic.NET作为编程语言,结合SQL Server 2008 R2 Express数据库管理平台,设计开发易混淆药品目录管理系统。结果相似性阈值δ是易混淆药品目录自动生成算法的关键参数,随着δ的逐渐增大,易混淆药品的总数逐渐减少,而易混淆药品组数则呈现先上升后下降的变化规律。在实际应用中,可根据药品的通用名或品种名构建易混淆药品目录,对应的相似性阈值可取0.75和0.83。此外,本课题组开发的易混淆药品目录管理系统将原本耗时约1周的目录建立时间缩短至不到1 h,极大地提升了工作效率。结论本研究构建的易混淆药品目录自动生成算法高效快速,为易混淆药品管理提供了强有力的技术支撑。开发的易混淆药品目录管理系统极大地减轻了目录建立和维护的时间成本,提高了对易混淆药品目录的管理效率。 展开更多
关键词 易混淆药品 莱文斯坦距离 药品目录 相似性阈值
下载PDF
Identifying G-protein Coupled Receptors Using Weighted Levenshtein Distance and Nearest Neighbor Method 被引量:1
11
作者 Jian-Hua Xu 《Genomics, Proteomics & Bioinformatics》 SCIE CAS CSCD 2005年第4期252-257,共6页
G-protein coupled receptors (GPCRs) are a class of seven-helix transmembrane proteins that have been used in bioinformatics as the targets to facilitate drug discovery for human diseases. Although thousands of GPCR ... G-protein coupled receptors (GPCRs) are a class of seven-helix transmembrane proteins that have been used in bioinformatics as the targets to facilitate drug discovery for human diseases. Although thousands of GPCR sequences have been collected, the ligand specificity of many GPCRs is still unknown and only one crystal structure of the rhodopsin-like family has been solved. Therefore, identifying GPCR types only from sequence data has become an important research issue. In this study, a novel technique for identifying GPCR types based on the weighted Levenshtein distance between two receptor sequences and the nearest neighbor method (NNM) is introduced, which can deal with receptor sequences with different lengths directly. In our experiments for classifying four classes (acetylcholine, adrenoceptor, dopamine, and serotonin) of the rhodopsin-like family of GPCRs, the error rates from the leave-one-out procedure and the leave-half-out procedure were 0.62% and 1.24%, respectively. These results are prior to those of the covariant discriminant algorithm, the support vector machine method, and the NNM with Euclidean distance. 展开更多
关键词 GPCR weighted levenshtein distance nearest neighbor method
原文传递
一种改进的编辑距离算法及其在数据处理中的应用 被引量:51
12
作者 赵作鹏 尹志民 +2 位作者 王潜平 许新征 江海峰 《计算机应用》 CSCD 北大核心 2009年第2期424-426,共3页
基于数据处理的需要,在分析原有编辑距离算法的基础上,通过拓展交换操作减少编辑操作的数量。与仅对计算点之前相邻位置字符间的交换操作相比,通过对计算点前后非相邻位置字符间的交换操作改进该算法,能够得到更理想化的编辑距离。将改... 基于数据处理的需要,在分析原有编辑距离算法的基础上,通过拓展交换操作减少编辑操作的数量。与仅对计算点之前相邻位置字符间的交换操作相比,通过对计算点前后非相邻位置字符间的交换操作改进该算法,能够得到更理想化的编辑距离。将改进的编辑距离算法应用于煤矿隐患数据的处理,提高了隐患数据分类分级的有效性和执行效率。 展开更多
关键词 编辑距离 字符串相似匹配 数据处理
下载PDF
基于Token编辑距离检测克隆代码 被引量:13
13
作者 张久杰 王春晖 +2 位作者 张丽萍 侯敏 刘东升 《计算机应用》 CSCD 北大核心 2015年第12期3536-3543,共8页
针对当前Type-3克隆代码检测工具较少、效率偏低等问题,提出了一种基于Token的能有效检测Type-3克隆代码的检测方法。该方法同时能有效检测Type-1和Type-2克隆代码。首先将源代码Token化得到特定代码粒度的Token串,其次将所有Token串的... 针对当前Type-3克隆代码检测工具较少、效率偏低等问题,提出了一种基于Token的能有效检测Type-3克隆代码的检测方法。该方法同时能有效检测Type-1和Type-2克隆代码。首先将源代码Token化得到特定代码粒度的Token串,其次将所有Token串的定长子串进行映射,在对映射信息进行查询的基础上,利用编辑距离算法确定克隆对,然后通过并查集算法快速构建克隆群,最终反馈克隆代码信息。实现了原型工具FClones,利用基于代码突变的框架对工具进行了评价,并与领域内较优秀的两款工具Ni Cad及Sim Cad进行了对比。实验结果表明,FClones在检测三类克隆代码时查全率均不低于95%,查准率均不低于98%,能更好地检测Type-3克隆代码。 展开更多
关键词 克隆代码 克隆检测 编辑距离 Type-3 TOKEN
下载PDF
一种基于熵的文本相似性计算方法 被引量:13
14
作者 李圣文 凌微 +1 位作者 龚君芳 周长征 《计算机应用研究》 CSCD 北大核心 2016年第3期665-668,共4页
文本比较是求解两个文本间相似度的过程,文本间的相似度越高代表两个文本越趋于类似。传统的相似度算法主要从字符的角度度量文本的相似性,忽略了文本内多个共同文本串对于文本相似度的影响。针对此问题提出一种基于熵的相似度求解方法... 文本比较是求解两个文本间相似度的过程,文本间的相似度越高代表两个文本越趋于类似。传统的相似度算法主要从字符的角度度量文本的相似性,忽略了文本内多个共同文本串对于文本相似度的影响。针对此问题提出一种基于熵的相似度求解方法,在对文本间字符信息的提取基础上,建立共同子文本串度量维度,然后采用熵的方法进行相似度度量。实验表明,该方法具有更平滑的相似度曲线,从而验证了算法的有效性和准确性。 展开更多
关键词 文本相似性 字符串匹配 编辑距离算法 最长公共子序列
下载PDF
一种改进的RSSI指纹库定位算法 被引量:9
15
作者 霍欢 杨沪沪 +2 位作者 郑德原 刘亮 张薇 《计算机应用研究》 CSCD 北大核心 2017年第9期2786-2790,共5页
为了提高室内定位的精度,进行了信号强度RSSI之间的相关性的分析,提出了ID-WRKL算法。该算法将RSSI排序转换成AP指纹序列对并建立离线指纹库,其稳定性可以减小定位误差;再通过在线AP的选择,过滤噪点AP对定位估计的影响,减少计算量;最后... 为了提高室内定位的精度,进行了信号强度RSSI之间的相关性的分析,提出了ID-WRKL算法。该算法将RSSI排序转换成AP指纹序列对并建立离线指纹库,其稳定性可以减小定位误差;再通过在线AP的选择,过滤噪点AP对定位估计的影响,减少计算量;最后根据Levenshtein距离得到最近邻的度量。在基于Map Reduce框架下的两个集合间的K-AP(P,Q)最近邻查询法基础上进行位置估计,提高了定位的精度。大量的对比传统KNN定位法的实验表明该算法的定位更精确,速度更快。 展开更多
关键词 RSSI 指纹库 levenshtein距离 K-AP(P Q)
下载PDF
改进的编辑距离计算及其在自动评分中的应用 被引量:5
16
作者 廖宏建 杨玉宝 唐连章 《广州大学学报(自然科学版)》 CAS 2012年第4期79-83,共5页
在计算机无纸化考试中,自动评分的设计与实现是最重要也是最难的一个环节.编辑距离算法通过统计替换、删除、插入、交换操作来计算两文本间相似程度,应用到文本匹配类的自动评分中具有较高的信度.在分析默写题评分需求的基础上,对编辑... 在计算机无纸化考试中,自动评分的设计与实现是最重要也是最难的一个环节.编辑距离算法通过统计替换、删除、插入、交换操作来计算两文本间相似程度,应用到文本匹配类的自动评分中具有较高的信度.在分析默写题评分需求的基础上,对编辑距离算法做出了相应的改进,提高了相似度计算的精度,并通过回溯的方法,实现了评分过程的反馈.实际应用的数据表明,该方法在汉字评分中具有普适性. 展开更多
关键词 自动评分 编辑距离 文本匹配 相似度计算 回溯
下载PDF
基于编辑距离相似度的文本校验技术研究与应用 被引量:12
17
作者 何锋 谷锁林 陈彦辉 《飞行器测控学报》 CSCD 2015年第4期389-394,共6页
树形结构的文本配置在分布式的测控数据处理软件中使用广泛,它的正确性对数据处理而言至关重要。为了实现树形结构的文本配置自动检查和纠错,通过引入LD(Levenshtein Distance)编辑距离算法,把字符串的编辑操作推广到多叉树之间。在此... 树形结构的文本配置在分布式的测控数据处理软件中使用广泛,它的正确性对数据处理而言至关重要。为了实现树形结构的文本配置自动检查和纠错,通过引入LD(Levenshtein Distance)编辑距离算法,把字符串的编辑操作推广到多叉树之间。在此基础上定义了多叉树之间的编辑距离,建立了衡量多叉树之间相似度的方法,设计了基于模糊匹配的文本配置自动校对流程,解决了精确匹配时由字符的多义性导致的查全率失真和误判的问题。根据实验结果,查全率和查准率分别达到了87.5%和100%,有效提高了基于树形结构的文本配置自动校验时的可靠性。 展开更多
关键词 字符串相似度 树编辑距离 模糊匹配 文本校验
下载PDF
基于异或编辑距离算法的航班号相似度研究 被引量:2
18
作者 孔金凤 王煜 《湘潭大学自然科学学报》 CAS 北大核心 2015年第2期116-120,共5页
航班号是执行运输航空任务航空器的主用识别标志,但相似航班号会严重影响管制运行效率和航空安全.目前,相似航班号的判断主要依赖管制员的管制经验,对其尚无相关定量研究方法.该文在用于文本相似度定量比较的编辑距离算法基础上,提出了... 航班号是执行运输航空任务航空器的主用识别标志,但相似航班号会严重影响管制运行效率和航空安全.目前,相似航班号的判断主要依赖管制员的管制经验,对其尚无相关定量研究方法.该文在用于文本相似度定量比较的编辑距离算法基础上,提出了航班号相似度计算的异或编辑距离算法,并利用北京区域管制中心的实际运行数据验证了该算法的可行性.根据该方法计算了国内主要航空公司的平均相似度,相关结果可为航班号的分配提供定量参考. 展开更多
关键词 航班号 相似度 异或编辑距离 ld算法
下载PDF
一种基于内容规则的网页去噪算法 被引量:4
19
作者 王建冬 王继民 田飞佳 《现代图书情报技术》 CSSCI 北大核心 2008年第3期51-54,共4页
提出一种基于内容规则的网页净化算法。包含两部分,先提出一种同层表间的比较迭代算法,通过迭代的方式对于网页中的噪声内容进行层层剥离。为进一步判断网页中锚文本与网页主题的相关性,又提出一种基于修正的编辑距离的计算锚文本的主... 提出一种基于内容规则的网页净化算法。包含两部分,先提出一种同层表间的比较迭代算法,通过迭代的方式对于网页中的噪声内容进行层层剥离。为进一步判断网页中锚文本与网页主题的相关性,又提出一种基于修正的编辑距离的计算锚文本的主题相似性的算法,在一定程度上考虑了网页的语义因素。该算法具有更高的准确度,同时具有很低的时间复杂度。实验结果表明,在对海量网页进行净化处理时,算法具有良好的效果。 展开更多
关键词 网页净化 编辑距离
下载PDF
由一般拓扑度量空间所产生的Alignment空间 被引量:5
20
作者 卢国祥 沈世镒 《工程数学学报》 CSCD 北大核心 2008年第6期1097-1101,共5页
Alignment空间是一个在广义误差下定义的度量空间。在以往的信息处理问题中,一般只讨论离散状态下的序列比对Alignment问题,并由此产生一种新的非线性度量空间-Alignment空间。本文将离散状态下的Alignment空间推广到一般情况,得到了由... Alignment空间是一个在广义误差下定义的度量空间。在以往的信息处理问题中,一般只讨论离散状态下的序列比对Alignment问题,并由此产生一种新的非线性度量空间-Alignment空间。本文将离散状态下的Alignment空间推广到一般情况,得到了由一般拓扑度量空间所产生的Alignment空间仍然是度量空间,并证明了Alignment距离与Levenshtein距离的等价性。 展开更多
关键词 由度量空间产生的Alignment空间 度量空间的基本定理 Alignment距离 levenshtein距离
下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部