期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
6
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于匹配区域特征的相似字符串匹配过滤算法
被引量:
10
1
作者
孙德才
孙星明
+1 位作者
张伟
刘玉玲
《计算机研究与发展》
EI
CSCD
北大核心
2010年第4期663-670,共8页
相似字符串匹配过滤算法因其适合大库查找而被广泛应用,为通过提高过滤算法的过滤效率加快匹配速度,提出一种基于匹配区域特征的过滤算法.该算法将模式串和文本串分割成固定长度为kq+1的逻辑块,并从各块中提取了2个新的匹配区域特征:q-g...
相似字符串匹配过滤算法因其适合大库查找而被广泛应用,为通过提高过滤算法的过滤效率加快匹配速度,提出一种基于匹配区域特征的过滤算法.该算法将模式串和文本串分割成固定长度为kq+1的逻辑块,并从各块中提取了2个新的匹配区域特征:q-gram命中的均匀性和q-gram有效命中的区域性.新算法利用这些新特征优化了传统过滤标准,提高了算法的过滤效率;并改进了QUASAR中基于分块策略的过滤区确定方案.实验结果表明,新算法与改进前相比有效地加快了匹配速度,尤其在误差率较小时改进效果更佳.
展开更多
关键词
相似
字符串
匹配
过滤算法
匹配
区域特征
过滤效率
q-gram
下载PDF
职称材料
基于Trie结构的带通配符的相似字符串匹配算法
被引量:
2
2
作者
王燚
《计算机应用》
CSCD
北大核心
2004年第10期121-124,共4页
提出了一种新的相似字符串查询的方法。其目的在于提高基于相似字符串匹配的查询在大规模字符串数据库中的查询效率,并且提供带通配符的字符串查询方式。该方法使用Trie数据结构组织数据库中的数据,使用基于编辑距离的相似字符串匹配方...
提出了一种新的相似字符串查询的方法。其目的在于提高基于相似字符串匹配的查询在大规模字符串数据库中的查询效率,并且提供带通配符的字符串查询方式。该方法使用Trie数据结构组织数据库中的数据,使用基于编辑距离的相似字符串匹配方法,在Trie数据结构中进行高效的匹配和查询,得到K相似度下的候选词集。实验证明,本方法在K 2时具有相当高的查询效率。
展开更多
关键词
相似
字符串
匹配
TIRE
OCR文本校对
拼写校对
通配符
下载PDF
职称材料
一种改进的编辑距离算法及其在数据处理中的应用
被引量:
51
3
作者
赵作鹏
尹志民
+2 位作者
王潜平
许新征
江海峰
《计算机应用》
CSCD
北大核心
2009年第2期424-426,共3页
基于数据处理的需要,在分析原有编辑距离算法的基础上,通过拓展交换操作减少编辑操作的数量。与仅对计算点之前相邻位置字符间的交换操作相比,通过对计算点前后非相邻位置字符间的交换操作改进该算法,能够得到更理想化的编辑距离。将改...
基于数据处理的需要,在分析原有编辑距离算法的基础上,通过拓展交换操作减少编辑操作的数量。与仅对计算点之前相邻位置字符间的交换操作相比,通过对计算点前后非相邻位置字符间的交换操作改进该算法,能够得到更理想化的编辑距离。将改进的编辑距离算法应用于煤矿隐患数据的处理,提高了隐患数据分类分级的有效性和执行效率。
展开更多
关键词
编辑距离
字符串相似匹配
数据处理
下载PDF
职称材料
数据分析和清理中相关算法研究
被引量:
6
4
作者
冯玉才
桂浩
+1 位作者
李华
李又奎
《小型微型计算机系统》
CSCD
北大核心
2005年第6期1018-1022,共5页
数据清理的一个主要作用是识别重复的记录.结合过滤算法和启发式剪枝算法提出了启发式剪枝改进算法.然后,针对重复记录的特点提出了长度约束条件,能有效地提高比较字段不等长时的执行速度.数据库中经常会出现各种形式不同的缩写,而启发...
数据清理的一个主要作用是识别重复的记录.结合过滤算法和启发式剪枝算法提出了启发式剪枝改进算法.然后,针对重复记录的特点提出了长度约束条件,能有效地提高比较字段不等长时的执行速度.数据库中经常会出现各种形式不同的缩写,而启发式剪枝算法等无法识别缩写情况下的重复记录,本文因此提出了基于动态规划的缩写发现算法,该算法既可以用于缩写发现也可用于缩写存在时的重复记录识别.另外,重复记录的甄别目前必须人工处理,传统方式下用户不得不逐条浏览和分析,工作时间冗长而且乏味,容易引入新的数据质量隐患,作者提出了聚类清除方案和聚类闭包算法,它将重复的记录聚类显示,用户一次可以处理完一个重复聚类,在有效提高速度的同时方便了用户.
展开更多
关键词
数据清理
字符串相似匹配
缩写算法
聚类清除
下载PDF
职称材料
基于动态规划的缩写发现算法
被引量:
2
5
作者
李华
易宝林
桂浩
《武汉大学学报(工学版)》
CAS
CSCD
北大核心
2004年第1期128-131,共4页
数据清理中重复记录的识别一般采用动态规划算法或过滤算法,然而很少算法考虑了数据中的缩写问题,因此容易漏掉一些重复记录,影响了数据清理的质量,因此在动态规划的基础上提出了缩写发现算法,同已有算法相比,它的算法复杂度较小,而且...
数据清理中重复记录的识别一般采用动态规划算法或过滤算法,然而很少算法考虑了数据中的缩写问题,因此容易漏掉一些重复记录,影响了数据清理的质量,因此在动态规划的基础上提出了缩写发现算法,同已有算法相比,它的算法复杂度较小,而且能够发现汉语等无分隔符的语言中的缩写,最后给出了缩写情况下判断字符串近似匹配的方法.
展开更多
关键词
数据清理
动态规划
缩写发现算法
字符串相似匹配
下载PDF
职称材料
基于带权多维搜索树的模型匹配算法
6
作者
张任伟
覃征
+1 位作者
李金诺
张镞
《清华大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2014年第12期1522-1528,共7页
模型的版本管理是模型驱动的软件开发领域中的研究热点。而模型匹配则是模型版本管理的基础,是实现差异比较和冲突检测功能的关键。该文改进了当前主流的模型匹配算法,提出了一种基于带权多维搜索树的匹配方法。将模型元素的特征向量构...
模型的版本管理是模型驱动的软件开发领域中的研究热点。而模型匹配则是模型版本管理的基础,是实现差异比较和冲突检测功能的关键。该文改进了当前主流的模型匹配算法,提出了一种基于带权多维搜索树的匹配方法。将模型元素的特征向量构造为带权多维搜索树,利用区域搜索快速查询相似节点集,并使用字符串相似匹配对相似节点集进行二次匹配。实验数据表明:在进行大规模数据模型匹配时,该方法在构造时间与匹配时间上均优于S3VTree算法。
展开更多
关键词
模型版本管理
模型
匹配
带权多维搜索树
区域搜索
字符串相似匹配
原文传递
题名
基于匹配区域特征的相似字符串匹配过滤算法
被引量:
10
1
作者
孙德才
孙星明
张伟
刘玉玲
机构
湖南大学计算机与通信学院
出处
《计算机研究与发展》
EI
CSCD
北大核心
2010年第4期663-670,共8页
基金
国家"九七三"重点基础研究发展计划基金项目(2006CB303000)
国家自然科学基金重点项目(60736016)
+5 种基金
国家自然科学基金项目(60573045
60873198
60973113
60973128)
国家"九七三"重点基础研究发展计划基金前期研究专项项目(2009CB326202)
高等学校博士学科点专项科研基金项目(20050532007)~~
文摘
相似字符串匹配过滤算法因其适合大库查找而被广泛应用,为通过提高过滤算法的过滤效率加快匹配速度,提出一种基于匹配区域特征的过滤算法.该算法将模式串和文本串分割成固定长度为kq+1的逻辑块,并从各块中提取了2个新的匹配区域特征:q-gram命中的均匀性和q-gram有效命中的区域性.新算法利用这些新特征优化了传统过滤标准,提高了算法的过滤效率;并改进了QUASAR中基于分块策略的过滤区确定方案.实验结果表明,新算法与改进前相比有效地加快了匹配速度,尤其在误差率较小时改进效果更佳.
关键词
相似
字符串
匹配
过滤算法
匹配
区域特征
过滤效率
q-gram
Keywords
approximate string matching
filter algorithm
match-region feature
filtration efficiency
q-gram
分类号
TP391.3 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于Trie结构的带通配符的相似字符串匹配算法
被引量:
2
2
作者
王燚
机构
西南交通大学智能信息控制开发中心
出处
《计算机应用》
CSCD
北大核心
2004年第10期121-124,共4页
文摘
提出了一种新的相似字符串查询的方法。其目的在于提高基于相似字符串匹配的查询在大规模字符串数据库中的查询效率,并且提供带通配符的字符串查询方式。该方法使用Trie数据结构组织数据库中的数据,使用基于编辑距离的相似字符串匹配方法,在Trie数据结构中进行高效的匹配和查询,得到K相似度下的候选词集。实验证明,本方法在K 2时具有相当高的查询效率。
关键词
相似
字符串
匹配
TIRE
OCR文本校对
拼写校对
通配符
Keywords
approximate string match
Trie
OCR correction
spelling correction
wildcard
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
一种改进的编辑距离算法及其在数据处理中的应用
被引量:
51
3
作者
赵作鹏
尹志民
王潜平
许新征
江海峰
机构
北京大学遥感与地理信息系统研究所
中国矿业大学计算机科学与技术学院
冀中能源集团股份有限公司
出处
《计算机应用》
CSCD
北大核心
2009年第2期424-426,共3页
基金
中国矿业大学青年科研基金资助项目(2007A044)
江苏省自然科学基金资助项目(BK2006039)
文摘
基于数据处理的需要,在分析原有编辑距离算法的基础上,通过拓展交换操作减少编辑操作的数量。与仅对计算点之前相邻位置字符间的交换操作相比,通过对计算点前后非相邻位置字符间的交换操作改进该算法,能够得到更理想化的编辑距离。将改进的编辑距离算法应用于煤矿隐患数据的处理,提高了隐患数据分类分级的有效性和执行效率。
关键词
编辑距离
字符串相似匹配
数据处理
Keywords
Levenshtein Distance
approximate string matching
data processing
分类号
TP301.6 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
数据分析和清理中相关算法研究
被引量:
6
4
作者
冯玉才
桂浩
李华
李又奎
机构
华中科技大学计算机学院
出处
《小型微型计算机系统》
CSCD
北大核心
2005年第6期1018-1022,共5页
基金
高等学校博士学科点专项科研基金(20030487032)资助.
文摘
数据清理的一个主要作用是识别重复的记录.结合过滤算法和启发式剪枝算法提出了启发式剪枝改进算法.然后,针对重复记录的特点提出了长度约束条件,能有效地提高比较字段不等长时的执行速度.数据库中经常会出现各种形式不同的缩写,而启发式剪枝算法等无法识别缩写情况下的重复记录,本文因此提出了基于动态规划的缩写发现算法,该算法既可以用于缩写发现也可用于缩写存在时的重复记录识别.另外,重复记录的甄别目前必须人工处理,传统方式下用户不得不逐条浏览和分析,工作时间冗长而且乏味,容易引入新的数据质量隐患,作者提出了聚类清除方案和聚类闭包算法,它将重复的记录聚类显示,用户一次可以处理完一个重复聚类,在有效提高速度的同时方便了用户.
关键词
数据清理
字符串相似匹配
缩写算法
聚类清除
Keywords
data cleaning
string approximate matching
abbreviation algorithm
clustering cleaning
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
基于动态规划的缩写发现算法
被引量:
2
5
作者
李华
易宝林
桂浩
机构
华中科技大学计算机科学与技术学院
出处
《武汉大学学报(工学版)》
CAS
CSCD
北大核心
2004年第1期128-131,共4页
基金
国家电子政务支持项目(编号:2001BA110B01).
文摘
数据清理中重复记录的识别一般采用动态规划算法或过滤算法,然而很少算法考虑了数据中的缩写问题,因此容易漏掉一些重复记录,影响了数据清理的质量,因此在动态规划的基础上提出了缩写发现算法,同已有算法相比,它的算法复杂度较小,而且能够发现汉语等无分隔符的语言中的缩写,最后给出了缩写情况下判断字符串近似匹配的方法.
关键词
数据清理
动态规划
缩写发现算法
字符串相似匹配
Keywords
data cleaning
dynamic programming
abbreviation-discovered algorithm
string approximate matching
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于带权多维搜索树的模型匹配算法
6
作者
张任伟
覃征
李金诺
张镞
机构
清华大学软件学院
清华大学信息科学与技术国家实验室
中国石油勘探开发研究院西北分院
出处
《清华大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2014年第12期1522-1528,共7页
基金
教育部优先发展领域项目(20120002130007)
文摘
模型的版本管理是模型驱动的软件开发领域中的研究热点。而模型匹配则是模型版本管理的基础,是实现差异比较和冲突检测功能的关键。该文改进了当前主流的模型匹配算法,提出了一种基于带权多维搜索树的匹配方法。将模型元素的特征向量构造为带权多维搜索树,利用区域搜索快速查询相似节点集,并使用字符串相似匹配对相似节点集进行二次匹配。实验数据表明:在进行大规模数据模型匹配时,该方法在构造时间与匹配时间上均优于S3VTree算法。
关键词
模型版本管理
模型
匹配
带权多维搜索树
区域搜索
字符串相似匹配
Keywords
version control system
model comparison
weighted multi-dimensional search tree
range query
string similar matching
分类号
TP311.5 [自动化与计算机技术—计算机软件与理论]
原文传递
题名
作者
出处
发文年
被引量
操作
1
基于匹配区域特征的相似字符串匹配过滤算法
孙德才
孙星明
张伟
刘玉玲
《计算机研究与发展》
EI
CSCD
北大核心
2010
10
下载PDF
职称材料
2
基于Trie结构的带通配符的相似字符串匹配算法
王燚
《计算机应用》
CSCD
北大核心
2004
2
下载PDF
职称材料
3
一种改进的编辑距离算法及其在数据处理中的应用
赵作鹏
尹志民
王潜平
许新征
江海峰
《计算机应用》
CSCD
北大核心
2009
51
下载PDF
职称材料
4
数据分析和清理中相关算法研究
冯玉才
桂浩
李华
李又奎
《小型微型计算机系统》
CSCD
北大核心
2005
6
下载PDF
职称材料
5
基于动态规划的缩写发现算法
李华
易宝林
桂浩
《武汉大学学报(工学版)》
CAS
CSCD
北大核心
2004
2
下载PDF
职称材料
6
基于带权多维搜索树的模型匹配算法
张任伟
覃征
李金诺
张镞
《清华大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2014
0
原文传递
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部