期刊文献+
共找到28篇文章
< 1 2 >
每页显示 20 50 100
反网络钓鱼中UNICODE字符相似度评估算法的研究 被引量:3
1
作者 孙言 杜彦辉 《计算机工程与应用》 CSCD 北大核心 2008年第26期86-87,共2页
针对网络钓鱼以URI(Uniform Resource Identifier)及IRI(Internationalized Resource Identifier)域名地址欺骗的主要特点,研究组成相似域名的字符相似度评估。在目前一些研究成果的基础上,提出了基于字符点阵重叠新型的快速字符相似度... 针对网络钓鱼以URI(Uniform Resource Identifier)及IRI(Internationalized Resource Identifier)域名地址欺骗的主要特点,研究组成相似域名的字符相似度评估。在目前一些研究成果的基础上,提出了基于字符点阵重叠新型的快速字符相似度评估算法,并基于理论方法设计算法设计相似字符评估原型软件,得出改进前后算法的实验结果,证明了方法得到优化,从而为今后建立相似域名库工作做好准备。 展开更多
关键词 字符相似度 反网络钓鱼 基于字符点阵重叠评估算法 网络安全
下载PDF
基于字符相似度的数据规范性校验探索
2
作者 徐敏 《云南电力技术》 2019年第S01期87-88,共2页
数据集中规范的数据总是存在与其相似的其他数据。越是庞大的数据集,其中满足规范性要求的个体是相对集中的,而且这些满足规范性的子集的数量级与其他不规范的子集存在数量级的差异。本文通过字符串相似度算法中的编辑距离算法,实现一... 数据集中规范的数据总是存在与其相似的其他数据。越是庞大的数据集,其中满足规范性要求的个体是相对集中的,而且这些满足规范性的子集的数量级与其他不规范的子集存在数量级的差异。本文通过字符串相似度算法中的编辑距离算法,实现一种具有一定通用性的数据质量校验方法。 展开更多
关键词 数据质量 字符相似 编辑距离算法
下载PDF
一种融合多种编辑距离的字符串相似度计算方法 被引量:41
3
作者 刁兴春 谭明超 曹建军 《计算机应用研究》 CSCD 北大核心 2010年第12期4523-4525,共3页
针对中西文混合字符串,采用了将汉字作为西文字符的等价单位计算编辑距离的方法,并从输入法的角度提出了采用拼音编码和五笔编码计算编辑距离的方法,最后给出了融合三种编辑距离计算字符串相似度的算法。仿真结果表明,该方法在提高相似... 针对中西文混合字符串,采用了将汉字作为西文字符的等价单位计算编辑距离的方法,并从输入法的角度提出了采用拼音编码和五笔编码计算编辑距离的方法,最后给出了融合三种编辑距离计算字符串相似度的算法。仿真结果表明,该方法在提高相似重复记录检测的查全率的同时,也能获得较高的查准率。 展开更多
关键词 数据清洗 相似重复记录 字符串匹配 字符相似 编辑距离
下载PDF
基于字符串度量的CAD模型相似性比较算法 被引量:6
4
作者 张欣 莫蓉 +1 位作者 石源 常智勇 《中国机械工程》 EI CAS CSCD 北大核心 2009年第20期2435-2440,共6页
提出了一种基于字符串度量的CAD模型相似度比较算法。由于模型为边界表示,故可将比较的两个CAD模型用属性邻接图来表示。根据模型面的属性集定义排序函数,将属性邻接图的顶点按照一定的序列排列。同时定义了顶点间的关系集,可将排序后... 提出了一种基于字符串度量的CAD模型相似度比较算法。由于模型为边界表示,故可将比较的两个CAD模型用属性邻接图来表示。根据模型面的属性集定义排序函数,将属性邻接图的顶点按照一定的序列排列。同时定义了顶点间的关系集,可将排序后的属性邻接图映射为字符串。通过编辑距离来度量字符串的相似度,并用字符串的相似度来度量CAD模型的形状相似度。实验结果表明,该算法能客观地反映两个CAD模型的相似度,且准确性和效率令人满意。 展开更多
关键词 形状相似 属性邻接图 字符相似 编辑距离
下载PDF
基于字符串相似度的维吾尔语中汉语借词识别 被引量:6
5
作者 米成刚 杨雅婷 +2 位作者 周喜 李晓 杨明忠 《中文信息学报》 CSCD 北大核心 2013年第5期173-178,190,共7页
维汉机器翻译过程中会出现较多的未登录词,这些未登录词一部分属于借词(人名、地名等)。该文提出一种新颖的根据借词与原语言词发音相似这一特性进行维吾尔语中汉语借词识别的方法。该方法对已有语料进行训练,得到面向维吾尔语中汉语借... 维汉机器翻译过程中会出现较多的未登录词,这些未登录词一部分属于借词(人名、地名等)。该文提出一种新颖的根据借词与原语言词发音相似这一特性进行维吾尔语中汉语借词识别的方法。该方法对已有语料进行训练,得到面向维吾尔语中汉语借词识别的维吾尔语拉丁化规则;根据以上规则对维吾尔语拉丁化,并对汉语词进行拼音化,将借词发音相似转换为字符串相似这一易量化标准;提出了位置相关的最小编辑距离模型、加权公共子序列模型以及二者的带参数融合模型。实验结果表明,综合考虑字符串全局相似性和局部相似性的带参数融合模型取得了最佳的识别效果。 展开更多
关键词 借词 未登录词 发音相似 字符相似
下载PDF
基于多层特征的字符串相似度计算模型 被引量:38
6
作者 章成志 《情报学报》 CSSCI 北大核心 2005年第6期696-701,共6页
针对计算字符串相似度传统方法的不足之处,提出以相似元作为字符串的基本处理单元,综合考虑相似元的字面、语义及统计关联等多层特征的字符串相似度计算方法.对常规计算方法中存在的,由相似元排序引起的相似元位置信息丢失问题进行了修... 针对计算字符串相似度传统方法的不足之处,提出以相似元作为字符串的基本处理单元,综合考虑相似元的字面、语义及统计关联等多层特征的字符串相似度计算方法.对常规计算方法中存在的,由相似元排序引起的相似元位置信息丢失问题进行了修正.实验结果表明该算法的有效性,并且对句子间、段落间的相似度计算有启发意义. 展开更多
关键词 字符相似 相似 字面相似 相似 多特征
下载PDF
字符串相似度在自动评分系统中的应用 被引量:11
7
作者 杜利峰 牛永洁 《电子设计工程》 2011年第7期42-44,共3页
在对编程语言类的自动评分系统中,程序设计类型的填空题大多采用字符串精确匹配的方法,而编程题的自动评分是一个难点。在分析两类题型的特点及目前采用的评测方法的优缺点的基础上,提出使用字符串相似度算法对程序设计题进行评判,并给... 在对编程语言类的自动评分系统中,程序设计类型的填空题大多采用字符串精确匹配的方法,而编程题的自动评分是一个难点。在分析两类题型的特点及目前采用的评测方法的优缺点的基础上,提出使用字符串相似度算法对程序设计题进行评判,并给出了评分过程的整体流程图。经过实际的使用,证明该方法是目前采用方法的一个很好补充,使评分的过程更加客观、公正,能够减少教师的工作量,提高教学工作效率,值得推广。 展开更多
关键词 程序设计 自动评分 字符相似 编辑距离 匹配
下载PDF
多种字符串相似度算法的比较研究 被引量:36
8
作者 牛永洁 张成 《计算机与数字工程》 2012年第3期14-17,共4页
对计算字符串相似度的编辑距离算法、最长公共子串算法、贪心字符串匹配算法、RKR-GST等多种算法,根据匹配过程是否有序,对这些算法进行了分类。然后对每种算法的实现原理进行了描述,并给出每个算法的运行步骤,结合一个实际的例子列出... 对计算字符串相似度的编辑距离算法、最长公共子串算法、贪心字符串匹配算法、RKR-GST等多种算法,根据匹配过程是否有序,对这些算法进行了分类。然后对每种算法的实现原理进行了描述,并给出每个算法的运行步骤,结合一个实际的例子列出了算法运行的结果,最后给出每种算法计算相似度的计算公式和算法时间复杂度及应用领域。由于字符串相似度具有广泛的应用领域,对其中经典的几种算法进行总结对比是一件十分有意义的研究工作。 展开更多
关键词 字符相似 编辑距离 最长公共子串 贪心字符串匹配 RKR-GST
下载PDF
一种融合位置信息的字符串相似度度量方法 被引量:3
9
作者 肖雨 崔荣一 怀丽波 《计算机应用研究》 CSCD 北大核心 2015年第11期3287-3290,共4页
针对传统字符串相似度算法复杂的局限,在向量空间模型(VSM)的基础上,提出一种同时考虑字符相邻位置关系和词序的字符串相似度计算模型。通过计算VSM中向量的汉明距离来描述字符串相邻程度,并以向量的曼哈顿距离作为衡量字符先后次序的... 针对传统字符串相似度算法复杂的局限,在向量空间模型(VSM)的基础上,提出一种同时考虑字符相邻位置关系和词序的字符串相似度计算模型。通过计算VSM中向量的汉明距离来描述字符串相邻程度,并以向量的曼哈顿距离作为衡量字符先后次序的指标。最后对两个指标加权求和得到字符串相似度的定量描述。与传统的算法比较,该算法更简便,时间复杂度为O(n log(n))。实验结果表明,该方法提高了字符串相似度的准确率,得到的数据结果更合理。 展开更多
关键词 字符相似 相邻字符 词序 汉明距离
下载PDF
面向物资分类的中文字符串相似度计算方法 被引量:1
10
作者 韩建国 巩军 《情报学报》 CSSCI 北大核心 2012年第7期709-714,共6页
物资分类是企业物资管理的一项基础工作,在大型企业中,物资数量巨大且类别繁多,所以需要借助计算机自动分类技术提高物资分类的效率。在自动分类的过程中,物资名称相似度是影响分类效果的关键因素之一。在分析了物资名称字符串特点... 物资分类是企业物资管理的一项基础工作,在大型企业中,物资数量巨大且类别繁多,所以需要借助计算机自动分类技术提高物资分类的效率。在自动分类的过程中,物资名称相似度是影响分类效果的关键因素之一。在分析了物资名称字符串特点和Jaro—Winkle算法的基础上,提出了一种基于动态权重的中文字符串相似度计算方法。通过在真实物资分类数据集上的实验,验证了这种相似度的计算方法可以有效提高物资分类的准确度。 展开更多
关键词 字符相似 自动分类 物资分类
下载PDF
一种基于PowerBuilder环境字符串相似度算法
11
作者 刘永海 《数字技术与应用》 2017年第3期140-141,共2页
最小编辑距离能直接反映两个字符串的相似程度,而字符串的相似度比较在数据挖掘和数据查询方面多有应用。通过相似度比对,可更自动化地整理、规范文本,提高信息模糊查询的命中率。本文详细介绍了"LD"算法的原理,并完成了Power... 最小编辑距离能直接反映两个字符串的相似程度,而字符串的相似度比较在数据挖掘和数据查询方面多有应用。通过相似度比对,可更自动化地整理、规范文本,提高信息模糊查询的命中率。本文详细介绍了"LD"算法的原理,并完成了PowerBuilder环境下的具体编码。 展开更多
关键词 LD算法 字符相似 POWERBUILDER 源码
下载PDF
基于约束的字符串相似度研究与应用
12
作者 刘月锟 《智能计算机与应用》 2019年第3期180-183,共4页
为了提高计算字符串相似度的准确度,分析了字符串相似度计算中准确度难以提高的原因,研究了当前编辑距离计算中存在的问题,对编辑距离计算中替换操作代价进行修订,使编辑距离的计算更加符合实际应用,提出了相似字符串转换的不可逆,说明... 为了提高计算字符串相似度的准确度,分析了字符串相似度计算中准确度难以提高的原因,研究了当前编辑距离计算中存在的问题,对编辑距离计算中替换操作代价进行修订,使编辑距离的计算更加符合实际应用,提出了相似字符串转换的不可逆,说明孤立的字符串难以做到精确匹配,挖掘与字符串密切相关的属性,提出了具有约束的字符串定义,在此基础上改进了莱文斯坦算法,通过对实例数据分析,验证了该方法在基于关系型数据库的应用系统中的有效性。 展开更多
关键词 编辑距离 字符相似 莱文斯坦算法 约束字符 转换不可逆
下载PDF
基于编辑距离相似度的文本校验技术研究与应用 被引量:12
13
作者 何锋 谷锁林 陈彦辉 《飞行器测控学报》 CSCD 2015年第4期389-394,共6页
树形结构的文本配置在分布式的测控数据处理软件中使用广泛,它的正确性对数据处理而言至关重要。为了实现树形结构的文本配置自动检查和纠错,通过引入LD(Levenshtein Distance)编辑距离算法,把字符串的编辑操作推广到多叉树之间。在此... 树形结构的文本配置在分布式的测控数据处理软件中使用广泛,它的正确性对数据处理而言至关重要。为了实现树形结构的文本配置自动检查和纠错,通过引入LD(Levenshtein Distance)编辑距离算法,把字符串的编辑操作推广到多叉树之间。在此基础上定义了多叉树之间的编辑距离,建立了衡量多叉树之间相似度的方法,设计了基于模糊匹配的文本配置自动校对流程,解决了精确匹配时由字符的多义性导致的查全率失真和误判的问题。根据实验结果,查全率和查准率分别达到了87.5%和100%,有效提高了基于树形结构的文本配置自动校验时的可靠性。 展开更多
关键词 字符相似 树编辑距离 模糊匹配 文本校验
下载PDF
不良文本变体关键词识别的词汇串相似度计算 被引量:5
14
作者 李少卿 吴承荣 +1 位作者 曾剑平 钟亦平 《计算机应用与软件》 CSCD 2015年第3期151-157,共7页
随着网络技术的发展,网络空间出现了各种各样的文本交流类网络应用,如聊天室、BBS等。为维护网络环境的文明,这些网络应用中会将用户发表的"脏话"词汇进行过滤。有些恶意用户为了避免所发信息被系统过滤,经常会将"脏话&q... 随着网络技术的发展,网络空间出现了各种各样的文本交流类网络应用,如聊天室、BBS等。为维护网络环境的文明,这些网络应用中会将用户发表的"脏话"词汇进行过滤。有些恶意用户为了避免所发信息被系统过滤,经常会将"脏话"词汇进行变形处理,如何识别这些变形后的"脏话"词汇,是一个重要的问题。通过计算变异敏感词汇相似度,来对变形词汇进行识别。该方法具有如下特点:(1)计算结果接近于人脑识别的结果;(2)计算所用的时间复杂度较低;(3)对变体识别率较高。根据计算的相似度值,来决定是否对该疑似敏感词进行过滤。实验数据表明,所提出的相似度计算方法好于现有的算法。 展开更多
关键词 字符相似 算法 编辑距离 内容过滤
下载PDF
基于Levenshtein算法在项目信息重复度检测中的优化及应用
15
作者 操亚松 《电脑知识与技术》 2015年第8期126-127,129,共3页
在政府经济管理部门的项目管理工作中,项目申报企业因为各种原因,在多个政府支持政策下重复申报同一个项目,给经济管理部门的项目管理协调工作带了很多问题。而且由于多年的项目积累,对数量巨大的项目进行人工重复监测是一件非常困难的... 在政府经济管理部门的项目管理工作中,项目申报企业因为各种原因,在多个政府支持政策下重复申报同一个项目,给经济管理部门的项目管理协调工作带了很多问题。而且由于多年的项目积累,对数量巨大的项目进行人工重复监测是一件非常困难的事情,利用Levenshtein字符串相似度算法,并且使用中文分词进行优化,为各个项目信息指标进行相似度比较,可以快速筛选出重复申报的项目。 展开更多
关键词 字符相似 重复检测 中文分词 项目信息
下载PDF
基于多特征语义匹配的知识库问答系统 被引量:3
16
作者 赵小虎 赵成龙 《计算机应用》 CSCD 北大核心 2020年第7期1873-1878,共6页
知识库问答(KBQA)任务主要目的在于精确地将自然语言问题和知识库(KB)中的三元组进行匹配。传统的KBQA方法通常专注于实体识别和谓语匹配,实体识别的错误会导致错误传播从而无法得到正确的答案。针对上述问题提出一种端到端的解决方案... 知识库问答(KBQA)任务主要目的在于精确地将自然语言问题和知识库(KB)中的三元组进行匹配。传统的KBQA方法通常专注于实体识别和谓语匹配,实体识别的错误会导致错误传播从而无法得到正确的答案。针对上述问题提出一种端到端的解决方案直接匹配问题和三元组,该系统主要包含候选三元组生成和候选三元组排序两个部分来实现精确问答。首先通过BM25算法计算问题和知识库中三元组的相关性生成候选三元组;然后通过多特征语义匹配模型(MFSMM)进行三元组的排序,即用MFSMM分别通过双向长短时记忆网络(Bi-LSTM)和卷积神经网络(CNN)实现语义相似度和字符相似度的计算,并通过融合来对三元组进行排序。该系统在NLPCC-ICCPOL 2016KBQA数据集上的平均F1为80.35%,接近了现有最好的表现。 展开更多
关键词 知识库 自然语言问题 三元组 多特征语义匹配模型 语义相似 字符相似度
下载PDF
患者主索引在医疗卫生信息系统中的实现 被引量:4
17
作者 潘宝宁 张恒 李登高 《中国医学装备》 2013年第7期26-28,共3页
目的:了解患者主索引(EMPI)的概念和用途,掌握其在医疗卫生信息系统中的应用方法。方法:系统主要采用分块、对比和匹配算法对医院原始数据进行清洗和建模,然后依照HL7V3国际标准定义消息格式体,利用WebService技术实现系统间的消息传递... 目的:了解患者主索引(EMPI)的概念和用途,掌握其在医疗卫生信息系统中的应用方法。方法:系统主要采用分块、对比和匹配算法对医院原始数据进行清洗和建模,然后依照HL7V3国际标准定义消息格式体,利用WebService技术实现系统间的消息传递。结果:描述了系统所面临的诸如信息失真、信息不完整、数据欠缺标准等许多待解决的问题,通过数据分析、算法研究和技术优化来设计如何解决这些问题,最后综合医疗行业各方的需求对系统管理配置平台进行应用设计。结论:EMPI的主要用途是在一个复杂的医疗体系内,通过唯一的患者标识将多个医疗信息系统有效地关联在一起。以实现各个系统之间的互联互通,从而保证分布在不同系统中同一个患者的个人信息的完整性和准确性。 展开更多
关键词 患者主索引 医学信息交互集成规范HL7 字符相似度算法
下载PDF
维汉机器翻译未登录词识别研究 被引量:9
18
作者 米成刚 王磊 +1 位作者 杨雅婷 陈科海 《计算机应用研究》 CSCD 北大核心 2013年第4期1112-1115,共4页
针对维汉统计机器翻译中未登录词较多的现象和维吾尔语语言资源匮乏这一现状,结合维吾尔语构词特征以及相应的字符串相似度算法,提出了一种基于字符串相似度的维汉机器翻译未登录词识别模型。该模型借助短语表和外部词典,与未翻译的维... 针对维汉统计机器翻译中未登录词较多的现象和维吾尔语语言资源匮乏这一现状,结合维吾尔语构词特征以及相应的字符串相似度算法,提出了一种基于字符串相似度的维汉机器翻译未登录词识别模型。该模型借助短语表和外部词典,与未翻译的维语词求相似度,取相似度最大短语对应的汉语翻译作为此未登录词的最终翻译。实验证明,与基于词干切分的未登录词识别方法相比,此模型较好地保留了维吾尔语词信息,提高了译文的质量。 展开更多
关键词 维汉机器翻译 短语表 字符相似算法 未登录词 词切分 编辑距离
下载PDF
一种基于模式的实体解析算法 被引量:6
19
作者 刘辉平 金澈清 周傲英 《计算机学报》 EI CSCD 北大核心 2015年第9期1796-1808,共13页
实体解析是数据融合和数据清洗的关键步骤,旨在从大量的数据集中找出描述相同实体的记录.当前主要有两种基本的解决思路,一种是穷尽式的实体解析,通过两两比较数据集中的所有记录,然后再合并相似的记录,从而找到描述某一个实体的若干记... 实体解析是数据融合和数据清洗的关键步骤,旨在从大量的数据集中找出描述相同实体的记录.当前主要有两种基本的解决思路,一种是穷尽式的实体解析,通过两两比较数据集中的所有记录,然后再合并相似的记录,从而找到描述某一个实体的若干记录集合.然而,该方法的计算复杂度比较高(O(n2),其中n表示数据集合的规模),难以处理大型数据集合.另一种思路是基于分块的实体解析,它调用特定的分块函数(如哈希函数、滑动窗口技术等)将集合中较为相似的记录划分到同一个块中,再仅对属于同一块中的记录进行两两比较.这种方法显著降低了运行时间,但会损失部分精度,因为某些描述同一实体的记录可能没有被分到同一个块中.文中提出了一种基于模式的实体解析算法,通过将相似的记录合并成记录集合并尝试生成对应的记录模式,然后进行模式之间的两两比较来产生一个边界值,以确定对应的记录集合是否需要进行进一步的精确比较,从而判断是否属于同一个实体.与第一种方法相比,该方法可有效地过滤部分不可能相似的记录,从而避免了针对所有数据记录进行两两比较,显著地降低了时间复杂度;与第二种方法相比,该方法并不损失任何精度.基于真实和模拟数据集合的实验结果验证了新方法的执行效率和有效性. 展开更多
关键词 数据融合 数据清洗 实体解析 编辑距离 字符相似
下载PDF
泛化语言模型在汉维机器翻译中的应用 被引量:4
20
作者 李响 南江 +2 位作者 杨雅婷 周喜 米成刚 《计算机应用研究》 CSCD 北大核心 2014年第10期2994-2997,共4页
针对汉维统计机器翻译中维吾尔语具有长距离依赖问题和语言模型具有数据稀疏现象,提出了一种基于泛化的维吾尔语语言模型。该模型借助维吾尔语语言模型的训练过程中生成的文本,结合字符串相似度算法,取相似的维文字符串经过归一化处理... 针对汉维统计机器翻译中维吾尔语具有长距离依赖问题和语言模型具有数据稀疏现象,提出了一种基于泛化的维吾尔语语言模型。该模型借助维吾尔语语言模型的训练过程中生成的文本,结合字符串相似度算法,取相似的维文字符串经过归一化处理抽取规则,计算规则的参数值,利用规则给测试集在解码过程中生成nbest译文重新评分,将评分最高的译文作为最佳译文。实验结果表明,泛化语言模型减少了存储空间,同时,规则的合理使用有效地提高了翻译译文的质量。 展开更多
关键词 汉维机器翻译 泛化语言模型 字符相似算法 归一化处理 规则 译文评分
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部