期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
基于匹配区域特征的相似字符串匹配过滤算法 被引量:10
1
作者 孙德才 孙星明 +1 位作者 张伟 刘玉玲 《计算机研究与发展》 EI CSCD 北大核心 2010年第4期663-670,共8页
相似字符串匹配过滤算法因其适合大库查找而被广泛应用,为通过提高过滤算法的过滤效率加快匹配速度,提出一种基于匹配区域特征的过滤算法.该算法将模式串和文本串分割成固定长度为kq+1的逻辑块,并从各块中提取了2个新的匹配区域特征:q-g... 相似字符串匹配过滤算法因其适合大库查找而被广泛应用,为通过提高过滤算法的过滤效率加快匹配速度,提出一种基于匹配区域特征的过滤算法.该算法将模式串和文本串分割成固定长度为kq+1的逻辑块,并从各块中提取了2个新的匹配区域特征:q-gram命中的均匀性和q-gram有效命中的区域性.新算法利用这些新特征优化了传统过滤标准,提高了算法的过滤效率;并改进了QUASAR中基于分块策略的过滤区确定方案.实验结果表明,新算法与改进前相比有效地加快了匹配速度,尤其在误差率较小时改进效果更佳. 展开更多
关键词 相似字符串匹配 过滤算法 匹配区域特征 过滤效率 q-gram
下载PDF
基于Trie结构的带通配符的相似字符串匹配算法 被引量:2
2
作者 王燚 《计算机应用》 CSCD 北大核心 2004年第10期121-124,共4页
提出了一种新的相似字符串查询的方法。其目的在于提高基于相似字符串匹配的查询在大规模字符串数据库中的查询效率,并且提供带通配符的字符串查询方式。该方法使用Trie数据结构组织数据库中的数据,使用基于编辑距离的相似字符串匹配方... 提出了一种新的相似字符串查询的方法。其目的在于提高基于相似字符串匹配的查询在大规模字符串数据库中的查询效率,并且提供带通配符的字符串查询方式。该方法使用Trie数据结构组织数据库中的数据,使用基于编辑距离的相似字符串匹配方法,在Trie数据结构中进行高效的匹配和查询,得到K相似度下的候选词集。实验证明,本方法在K 2时具有相当高的查询效率。 展开更多
关键词 相似字符串匹配 TIRE OCR文本校对 拼写校对 通配符
下载PDF
一种改进的编辑距离算法及其在数据处理中的应用 被引量:51
3
作者 赵作鹏 尹志民 +2 位作者 王潜平 许新征 江海峰 《计算机应用》 CSCD 北大核心 2009年第2期424-426,共3页
基于数据处理的需要,在分析原有编辑距离算法的基础上,通过拓展交换操作减少编辑操作的数量。与仅对计算点之前相邻位置字符间的交换操作相比,通过对计算点前后非相邻位置字符间的交换操作改进该算法,能够得到更理想化的编辑距离。将改... 基于数据处理的需要,在分析原有编辑距离算法的基础上,通过拓展交换操作减少编辑操作的数量。与仅对计算点之前相邻位置字符间的交换操作相比,通过对计算点前后非相邻位置字符间的交换操作改进该算法,能够得到更理想化的编辑距离。将改进的编辑距离算法应用于煤矿隐患数据的处理,提高了隐患数据分类分级的有效性和执行效率。 展开更多
关键词 编辑距离 字符串相似匹配 数据处理
下载PDF
数据分析和清理中相关算法研究 被引量:6
4
作者 冯玉才 桂浩 +1 位作者 李华 李又奎 《小型微型计算机系统》 CSCD 北大核心 2005年第6期1018-1022,共5页
数据清理的一个主要作用是识别重复的记录.结合过滤算法和启发式剪枝算法提出了启发式剪枝改进算法.然后,针对重复记录的特点提出了长度约束条件,能有效地提高比较字段不等长时的执行速度.数据库中经常会出现各种形式不同的缩写,而启发... 数据清理的一个主要作用是识别重复的记录.结合过滤算法和启发式剪枝算法提出了启发式剪枝改进算法.然后,针对重复记录的特点提出了长度约束条件,能有效地提高比较字段不等长时的执行速度.数据库中经常会出现各种形式不同的缩写,而启发式剪枝算法等无法识别缩写情况下的重复记录,本文因此提出了基于动态规划的缩写发现算法,该算法既可以用于缩写发现也可用于缩写存在时的重复记录识别.另外,重复记录的甄别目前必须人工处理,传统方式下用户不得不逐条浏览和分析,工作时间冗长而且乏味,容易引入新的数据质量隐患,作者提出了聚类清除方案和聚类闭包算法,它将重复的记录聚类显示,用户一次可以处理完一个重复聚类,在有效提高速度的同时方便了用户. 展开更多
关键词 数据清理 字符串相似匹配 缩写算法 聚类清除
下载PDF
基于动态规划的缩写发现算法 被引量:2
5
作者 李华 易宝林 桂浩 《武汉大学学报(工学版)》 CAS CSCD 北大核心 2004年第1期128-131,共4页
数据清理中重复记录的识别一般采用动态规划算法或过滤算法,然而很少算法考虑了数据中的缩写问题,因此容易漏掉一些重复记录,影响了数据清理的质量,因此在动态规划的基础上提出了缩写发现算法,同已有算法相比,它的算法复杂度较小,而且... 数据清理中重复记录的识别一般采用动态规划算法或过滤算法,然而很少算法考虑了数据中的缩写问题,因此容易漏掉一些重复记录,影响了数据清理的质量,因此在动态规划的基础上提出了缩写发现算法,同已有算法相比,它的算法复杂度较小,而且能够发现汉语等无分隔符的语言中的缩写,最后给出了缩写情况下判断字符串近似匹配的方法. 展开更多
关键词 数据清理 动态规划 缩写发现算法 字符串相似匹配
下载PDF
基于带权多维搜索树的模型匹配算法
6
作者 张任伟 覃征 +1 位作者 李金诺 张镞 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2014年第12期1522-1528,共7页
模型的版本管理是模型驱动的软件开发领域中的研究热点。而模型匹配则是模型版本管理的基础,是实现差异比较和冲突检测功能的关键。该文改进了当前主流的模型匹配算法,提出了一种基于带权多维搜索树的匹配方法。将模型元素的特征向量构... 模型的版本管理是模型驱动的软件开发领域中的研究热点。而模型匹配则是模型版本管理的基础,是实现差异比较和冲突检测功能的关键。该文改进了当前主流的模型匹配算法,提出了一种基于带权多维搜索树的匹配方法。将模型元素的特征向量构造为带权多维搜索树,利用区域搜索快速查询相似节点集,并使用字符串相似匹配对相似节点集进行二次匹配。实验数据表明:在进行大规模数据模型匹配时,该方法在构造时间与匹配时间上均优于S3VTree算法。 展开更多
关键词 模型版本管理 模型匹配 带权多维搜索树 区域搜索 字符串相似匹配
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部