期刊文献+
共找到13篇文章
< 1 >
每页显示 20 50 100
一种支持多种子近似串匹配的q-gram索引 被引量:3
1
作者 孙德才 王晓霞 《计算机科学》 CSCD 北大核心 2014年第9期279-284,共6页
如何在大型文本库中快速找出给定串的近似串是大数据时代要解决的关键问题。基于多种子的近似串匹配算法因匹配速度快而得到众多学者的青睐,但巨大的索引空间消耗也使其难以处理大型文本库。提出了一种支持多种子的q-gram索引结构,通过... 如何在大型文本库中快速找出给定串的近似串是大数据时代要解决的关键问题。基于多种子的近似串匹配算法因匹配速度快而得到众多学者的青睐,但巨大的索引空间消耗也使其难以处理大型文本库。提出了一种支持多种子的q-gram索引结构,通过该索引能够快速地计算出给定任意长度连续种子的地址集合,解决了多种子近似串匹配算法中种子的数目和长度受存储空间限制的问题。实验数据显示,新索引方案成倍地减少了存储空间的消耗。实验结果表明,提出的索引方案在大数据环境下的多种子近似匹配中具有一定的优势。 展开更多
关键词 大数据 近似串匹配 种子 q-gram索引 多种子索引
下载PDF
一种基于尾匹配q-gram的近似串匹配算法 被引量:1
2
作者 孙德才 王晓霞 《计算机科学》 CSCD 北大核心 2014年第6期243-249,共7页
近似串匹配是生物信息学、文本检索、信号处理等领域的一个基础问题,如何提高近似串匹配的速度一直都是研究的关键问题。提出一种新的在大文本库中快速查找近似匹配的无损过滤算法。为保证在大文本库中的匹配速度,本算法使用了查询速度... 近似串匹配是生物信息学、文本检索、信号处理等领域的一个基础问题,如何提高近似串匹配的速度一直都是研究的关键问题。提出一种新的在大文本库中快速查找近似匹配的无损过滤算法。为保证在大文本库中的匹配速度,本算法使用了查询速度较快的q-gram索引。为通过提高过滤算法的过滤效率达到提升算法整体性能的目的,详细分析了含有匹配串的文本区域,提取了一些基于尾匹配q-gram特征的新过滤条件,然后用这些特征优化了过滤算法的过滤标准。实验数据表明,新过滤条件有效地提高了算法的过滤效率,提升了算法的整体性能。结果显示新算法适合各种匹配错误率下的近似匹配,算法的通用性较强。 展开更多
关键词 近似串匹配 过滤算法 q-gram过滤 q元语法
下载PDF
基于q-gram层次空间的机器翻译中句子相似度计算探析 被引量:2
3
作者 蒋仁龙 蒋子龙 《遵义师范学院学报》 2015年第5期89-93,130,共6页
机器翻译由于其简易性和速度快而成为一个热门的研究对象,然而其翻译质量低也是一个不争的事实。利用q-gram层次空间和Porter Stemming算法,设计了一种计算句子匹配率的方法,并利用算例进行了详细的阐释,从而给机器翻译及英文文本比较... 机器翻译由于其简易性和速度快而成为一个热门的研究对象,然而其翻译质量低也是一个不争的事实。利用q-gram层次空间和Porter Stemming算法,设计了一种计算句子匹配率的方法,并利用算例进行了详细的阐释,从而给机器翻译及英文文本比较提供了一种思路。实验结果表明,该方法在目前基于规则与实例结合的句子相似度计算方法中是可行的。 展开更多
关键词 PORTER STEMMING Algorithm q-gram层次空间 相似度
下载PDF
基于Q-Gram的数据库模式匹配算法 被引量:1
4
作者 杨航 侯琼煌 《信息技术》 2015年第8期139-142,148,共5页
模式匹配是数据集成的重要步骤之一,而数据库异构、数据量大等特点是匹配的难点所在。在梳理模式匹配概念和研究现状的基础上,提出一种基于Q-Gram数据库模式匹配算法,通过对实例数据进行切分,计算域之间的相似度,得到域的语义匹配度。... 模式匹配是数据集成的重要步骤之一,而数据库异构、数据量大等特点是匹配的难点所在。在梳理模式匹配概念和研究现状的基础上,提出一种基于Q-Gram数据库模式匹配算法,通过对实例数据进行切分,计算域之间的相似度,得到域的语义匹配度。该算法具有线性的时间复杂度,实验显示其能给出较为精确的匹配结果。 展开更多
关键词 模式匹配 q-gram 哈希散列 相似度
下载PDF
应用Q-gram命中特征优化的近似串匹配算法
5
作者 王晓霞 孙德才 《电子设计工程》 2016年第15期149-153,共5页
近似串匹配是文本检索、生物信息学和信号处理等领域的研究基础。为提高近似串匹配速度,采用分块的方法从匹配串中提取了新的q-gram命中特征,结合新特征提出了一种新的近似串匹配算法。实验数据表明新算法消耗了少量的过滤时间就获得了... 近似串匹配是文本检索、生物信息学和信号处理等领域的研究基础。为提高近似串匹配速度,采用分块的方法从匹配串中提取了新的q-gram命中特征,结合新特征提出了一种新的近似串匹配算法。实验数据表明新算法消耗了少量的过滤时间就获得了较高的过滤效率,结果显示新算法在各种匹配错误率下的匹配速度一直比经典的SWIFT算法快。 展开更多
关键词 近似串匹配 过滤算法 q-gram过滤 q元语法
下载PDF
基于q-gram的字符串相似性查询研究 被引量:4
6
作者 米琳 《现代计算机》 2014年第4期12-16,共5页
相似性查询在实际应用中用途广泛,例如相似网页检测、相似图像检索、语言识别、数据清理等。而基于q-gram的字符串相似性查询作为主流方法之一,在查询的效率和灵活性上相对于其他方法都有很大的优势。实现基于q-gram的基本过滤器,并构... 相似性查询在实际应用中用途广泛,例如相似网页检测、相似图像检索、语言识别、数据清理等。而基于q-gram的字符串相似性查询作为主流方法之一,在查询的效率和灵活性上相对于其他方法都有很大的优势。实现基于q-gram的基本过滤器,并构成过滤器组合模型,用来过滤掉不匹配的字符串,得到候选集。实验结果表明,与传统的依靠编辑距离来比较每一对字符串的值相比,基于q-gram的过滤器能在保证相似性查询结果准确的前提下,在效率方面有显著的提升。 展开更多
关键词 相似性查询 q-gram 过滤器 过滤器模型
下载PDF
一种大数据量的相似记录检测方法 被引量:32
7
作者 韩京宇 徐立臻 董逸生 《计算机研究与发展》 EI CSCD 北大核心 2005年第12期2206-2212,共7页
大数据量的相似重复记录检测是数据清洗中的一个重要问题,提出一种基于q-gram层次空间的聚类检测方法:它首先将数据映射成q-gram空间中的点,并根据q-gram空间中的相似性度量采用层次聚类方法将相似的重复记录检测出来·它克服了传... 大数据量的相似重复记录检测是数据清洗中的一个重要问题,提出一种基于q-gram层次空间的聚类检测方法:它首先将数据映射成q-gram空间中的点,并根据q-gram空间中的相似性度量采用层次聚类方法将相似的重复记录检测出来·它克服了传统的“排序&合并”方法由于字符位置敏感不能将相似记录字符串排在邻近位置的不足和大数量外排序引起I/O代价过大的问题·理论分析和实验表明,方法不仅具有好的检测精度,且有好的伸缩性,能够有效地解决大数据量的相似重复记录检测· 展开更多
关键词 数据清洗 q-gram 相似重复记录 层次聚类
下载PDF
支持多子串近似匹配的空间关键词查询算法 被引量:1
8
作者 张素智 丁温雪 徐家兴 《湖北民族学院学报(自然科学版)》 CAS 2016年第3期241-245,共5页
随着空间数据飞速增长,不仅POI(Point Of Interest)越来越密集,而且每个空间点的文本描述也越来越多,以往关键词近似查询算法中,不同长度的关键词需要不同的阈值相匹配,影响查询效率和查询结果.针对以上不足提出了支持空间多子串近似匹... 随着空间数据飞速增长,不仅POI(Point Of Interest)越来越密集,而且每个空间点的文本描述也越来越多,以往关键词近似查询算法中,不同长度的关键词需要不同的阈值相匹配,影响查询效率和查询结果.针对以上不足提出了支持空间多子串近似匹配的空间关键词查询算法,在该算法中不需要考虑阈值的改变,而是将编辑距离直接应用到索引结构中.通过真实数据进行实验,表明该算法在查询精准性和查询效率上都有较大的提高. 展开更多
关键词 空间数据库 q-gram倒排索引 查询算法 RB-tree
下载PDF
近似串匹配过滤算法研究 被引量:1
9
作者 孙德才 王晓霞 《计算机技术与发展》 2015年第4期171-176,共6页
近似串匹配在众多研究领域都有广泛的应用,如文本检索、生物信息学等。文中对基于过滤技术的Off-line模式近似串匹配算法进行了相关研究。首先介绍了串匹配的基础知识和近似串匹配技术的应用分类;然后阐述了Off-line模式近似串匹配算法... 近似串匹配在众多研究领域都有广泛的应用,如文本检索、生物信息学等。文中对基于过滤技术的Off-line模式近似串匹配算法进行了相关研究。首先介绍了串匹配的基础知识和近似串匹配技术的应用分类;然后阐述了Off-line模式近似串匹配算法常用的索引结构;接着详细介绍了近似串匹配过滤算法的研究现状,并阐述了几个经典过滤算法的过滤原理;最后在实验中对比了这些经典过滤算法的性能差异,实验数据显示提高过滤效率和减少过滤时间是加快过滤算法匹配速度所要解决的关键问题。研究表明,基于留空q-gram的过滤算法是近似串匹配未来研究的方向。 展开更多
关键词 串匹配 近似串匹配 过滤算法 q-gram过滤
下载PDF
基于改进SKIP算法的HL7消息校验方法
10
作者 徐浩诚 刘利军 黄青松 《价值工程》 2015年第33期153-157,共5页
在医疗信息交换中,HL7消息校验是HL7消息正确性、完整性、合法性的基础,高效的HL7消息校验方法是交换系统性能与可靠性的重要保证。本文通过引入q-grams机制与贪婪跳跃机制对Skip算法进行改进,提出了HGQSkip字符串匹配算法,并实现了基于... 在医疗信息交换中,HL7消息校验是HL7消息正确性、完整性、合法性的基础,高效的HL7消息校验方法是交换系统性能与可靠性的重要保证。本文通过引入q-grams机制与贪婪跳跃机制对Skip算法进行改进,提出了HGQSkip字符串匹配算法,并实现了基于HGQSkip算法的HL7消息校验方法,以提升HL7消息交换系统的交换性能。实验表明,HGQSkip算法有较高的实际匹配性能,在多种匹配情况下性能高于已知算法,可有效提高HL7消息的校验性能,达到提升医疗信息系统整体集成性能、增强消息交换可靠性的目的。 展开更多
关键词 HL7消息验证 SKIP 贪婪跳跃机制 q-grams
下载PDF
一种中文字符串近似匹配查询技术研究
11
作者 刘兵 臧天阳 张晶 《电脑编程技巧与维护》 2013年第14期6-6,9,共2页
字符串匹配是计算机科学中最经典、研究最广泛的问题之一,并且已经被应用到了众多领域当中。近似字符串匹配问题的研究虽然经历了不短的时间历程,但是其中的研究对象绝大多数主要是针对DNA等小型字符集或针对英文等中等大小字符集,而对... 字符串匹配是计算机科学中最经典、研究最广泛的问题之一,并且已经被应用到了众多领域当中。近似字符串匹配问题的研究虽然经历了不短的时间历程,但是其中的研究对象绝大多数主要是针对DNA等小型字符集或针对英文等中等大小字符集,而对于汉字乃至亚洲语音等大型字符集的研究却仍然不多。因此,研究高效的近似字符串匹配算法具有重要的理论价值和实际意义。 展开更多
关键词 中文字符串 近似匹配 过滤 q-gram技术
下载PDF
基于匹配区域特征的相似字符串匹配过滤算法 被引量:10
12
作者 孙德才 孙星明 +1 位作者 张伟 刘玉玲 《计算机研究与发展》 EI CSCD 北大核心 2010年第4期663-670,共8页
相似字符串匹配过滤算法因其适合大库查找而被广泛应用,为通过提高过滤算法的过滤效率加快匹配速度,提出一种基于匹配区域特征的过滤算法.该算法将模式串和文本串分割成固定长度为kq+1的逻辑块,并从各块中提取了2个新的匹配区域特征:q-g... 相似字符串匹配过滤算法因其适合大库查找而被广泛应用,为通过提高过滤算法的过滤效率加快匹配速度,提出一种基于匹配区域特征的过滤算法.该算法将模式串和文本串分割成固定长度为kq+1的逻辑块,并从各块中提取了2个新的匹配区域特征:q-gram命中的均匀性和q-gram有效命中的区域性.新算法利用这些新特征优化了传统过滤标准,提高了算法的过滤效率;并改进了QUASAR中基于分块策略的过滤区确定方案.实验结果表明,新算法与改进前相比有效地加快了匹配速度,尤其在误差率较小时改进效果更佳. 展开更多
关键词 相似字符串匹配 过滤算法 匹配区域特征 过滤效率 q-gram
下载PDF
支持带有通配符的字符串匹配算法 被引量:4
13
作者 运正佳 李轶男 杨晓春 《计算机科学与探索》 CSCD 2010年第11期984-995,共12页
研究了查询字符串中含有通配符"*"以及"?"两种情况下的字符串匹配问题,其中,"*"代表任意长度的字符串,"?"代表字母表中任意一个字符。由于gram索引结构在空间大小以及查询效率上的优势,将gram... 研究了查询字符串中含有通配符"*"以及"?"两种情况下的字符串匹配问题,其中,"*"代表任意长度的字符串,"?"代表字母表中任意一个字符。由于gram索引结构在空间大小以及查询效率上的优势,将gram索引结构用于带通配符的字符串匹配问题。通过将带有通配符的查询字符串分解为若干不含通配符的查询片段,成功地将带有通配符的复杂查询问题转化为不含通配符的简单精确子串匹配问题。同时在片段查询过程中运用长度过滤、位置过滤以及计数过滤等方法来提高查询速度。 展开更多
关键词 通配符 字符串匹配 q-gram索引
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部