期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
基于分割的字符串相似性查找算法 被引量:3
1
作者 刘慧婷 黄厚柱 +1 位作者 刘志中 赵鹏 《计算机科学与探索》 CSCD 北大核心 2018年第1期120-133,共14页
字符串相似性查找问题主要包括两方面,基于阈值的字符串相似性查找以及top-k字符串相似性查找。目前处理基于阈值的字符串相似性查找问题的算法多是基于过滤-验证框架的。基于该框架提出了PBsearch算法,算法在过滤阶段首次加入One-Off... 字符串相似性查找问题主要包括两方面,基于阈值的字符串相似性查找以及top-k字符串相似性查找。目前处理基于阈值的字符串相似性查找问题的算法多是基于过滤-验证框架的。基于该框架提出了PBsearch算法,算法在过滤阶段首次加入One-Off条件过滤掉大量的无效匹配,并在验证阶段提出了一种新的验证算法MultiThreshold算法,大大减少了计算编辑距离的次数。在top-k字符串相似性查找问题方面,提出了两种基于分割思想的算法,Pb-topk算法和PbCount-topk算法。其中,Pb-topk算法采用差值递增的策略,减少了需处理的字符串数目;PbCount-topk算法采用匹配数目划分的策略,进一步缩小了候选集的规模。最后,通过在3个真实数据集上的实验结果,验证了提出算法的高效性。 展开更多
关键词 字符串相似性查找 阈值 TOP-K 分割 编辑距离
下载PDF
基于划分的增量式字符串相似性连接方法
2
作者 燕彩蓉 朱斌 +1 位作者 王健 黄永锋 《计算机应用》 CSCD 北大核心 2016年第1期27-32,共6页
字符串相似性连接是数据质量管理的基本操作,也是数据价值发现的关键步骤。针对目前已有的方法不能满足面向大数据的增量式处理需求的问题,提出一种面向流式数据的增量式字符串相似性连接方法——IncJoin,并对方法的索引技术进行了优化... 字符串相似性连接是数据质量管理的基本操作,也是数据价值发现的关键步骤。针对目前已有的方法不能满足面向大数据的增量式处理需求的问题,提出一种面向流式数据的增量式字符串相似性连接方法——IncJoin,并对方法的索引技术进行了优化。该方法以Pass-Join字符串连接算法为基础,首先,采用字符串划分技术将字符串划分成多个互不相交的子串;然后,建立字符串的反向索引列表并将其作为状态;最后,新增数据只需根据状态进行相似性计算,每次连接操作结束后都对状态进行更新。实验结果表明,Inc-Join方法在不影响连接准确率的同时,有效将长、短字符串重复匹配次数减少为n^(1/2)(n是批处理方式的匹配次数)。实验对3种数据集进行处理,发现使用批处理方式进行相似性连接的响应时间是Inc-Join的1至4.7倍,并呈现急剧递增的趋势;而且优化后Inc-Join方法的响应时间最小只占优化前的3/4,并随处理数据的增多所占比例越来越小。同时优化后的Inc-Join不需要保存状态,再一次减小了算法执行的时间和空间开销。 展开更多
关键词 字符串相似性连接 增量处理 划分 字符串匹配 反向索引
下载PDF
一种新的基于对称性的字符串相似性处理算法
3
作者 王燕 周军锋 +2 位作者 汤显 陈子阳 郭景峰 《燕山大学学报》 CAS 2014年第1期49-56,共8页
对于给定的两个字符串集合,基于相似度的连接操作可用于从中找出相似的字符串对,该操作是数据清洗、数据集成以及协同过滤等应用中的核心操作之一,其执行效率直接影响系统的整体性能。本文提出一种高效计算字符串集合间连接操作的算法Tr... 对于给定的两个字符串集合,基于相似度的连接操作可用于从中找出相似的字符串对,该操作是数据清洗、数据集成以及协同过滤等应用中的核心操作之一,其执行效率直接影响系统的整体性能。本文提出一种高效计算字符串集合间连接操作的算法Trie-TSS,该方法基于trie树进行处理,利用对称性来减少冗余计算。提出一种旨在减少冗余编辑距离计算操作的优化技术来进一步提升系统性能。最后通过实验验证了Trie-TSS算法的高效性。 展开更多
关键词 字符串相似性 TRIE树 编辑距离 Trie-TSS 优化技术
下载PDF
高效的top-k相似字符串查询算法 被引量:1
4
作者 陈子阳 韩玉俊 +1 位作者 王璿 周军锋 《通信学报》 EI CSCD 北大核心 2014年第12期10-20,共11页
研究基于编辑距离的top-k相似字符串查询处理方法,即对于给定的字符串集合S和查询串σ,返回S中前k个与σ编辑距离最小的字符串。首先提出了基于长度跳跃索引的2种自适应过滤策略来减少字符串之间编辑距离的计算次数;其次提出了查询字符... 研究基于编辑距离的top-k相似字符串查询处理方法,即对于给定的字符串集合S和查询串σ,返回S中前k个与σ编辑距离最小的字符串。首先提出了基于长度跳跃索引的2种自适应过滤策略来减少字符串之间编辑距离的计算次数;其次提出了查询字符串与不匹配字符串集合的编辑距离下界,以便在处理和σ无公共特征的字符串时,进一步减少编辑距离的计算次数;最后给出了基于上述过滤策略的高效top-k相似字符串查询算法,并在3个真实的数据集上进行了实验,实验结果验证了所提算法的高效性。 展开更多
关键词 字符串相似性 非对称特征方案 长度跳跃索引
下载PDF
基于Android平台拼写检查工具关键技术研究 被引量:1
5
作者 李顺 《电大理工》 2013年第3期79-80,共2页
研究了基于Android平台的英文拼写检查工具的关键技术,拼写检查工具就是针对英文文档,可以帮助用户来检查编写的英文文档是否正确,并能够根据字符串相似性算法智能的针对错误给出相应的拼写建议,用户可根据给出的拼写建议来修改文档。An... 研究了基于Android平台的英文拼写检查工具的关键技术,拼写检查工具就是针对英文文档,可以帮助用户来检查编写的英文文档是否正确,并能够根据字符串相似性算法智能的针对错误给出相应的拼写建议,用户可根据给出的拼写建议来修改文档。Android平台的搭建过程以及在Android平台上编写程序应用的关键技术,及编写过程中出现的问题。 展开更多
关键词 ANDROID平台 拼写检查 字符串相似性算法 拼写建议
下载PDF
基于iPhone平台拼写检查工具的关键技术研究
6
作者 李顺 杨煦 《电脑知识与技术》 2013年第8X期5555-5556,共2页
该文研究内容是基于iPhone平台的英文拼写检查工具的关键技术,拼写检查工具就是针对英文文档,可以帮助用户来检查编写的英文文档是否正确,并能够根据字符串相似性算法智能的针对错误给出相应的拼写建议,用户可根据给出的拼写建议来修改... 该文研究内容是基于iPhone平台的英文拼写检查工具的关键技术,拼写检查工具就是针对英文文档,可以帮助用户来检查编写的英文文档是否正确,并能够根据字符串相似性算法智能的针对错误给出相应的拼写建议,用户可根据给出的拼写建议来修改文档。iPhone平台的搭建过程以及在iPhone平台上编写程序应用的关键技术,及编写过程中出现的问题。 展开更多
关键词 iPhone平台 拼写检查 词库 字符串相似性算法
下载PDF
A Study on Automatic Scoring for Machine Translation Systems
7
作者 姚建民 Zhang +4 位作者 Jing Zhao Tiejun Li Sheng 《High Technology Letters》 EI CAS 2004年第2期42-45,共4页
String similarity measures of edit distance, cosine correlation and Dice coefficient are adopted to evaluate machine translation results. Experiment shows that the evaluation method distinguishes well between "go... String similarity measures of edit distance, cosine correlation and Dice coefficient are adopted to evaluate machine translation results. Experiment shows that the evaluation method distinguishes well between "good" and "bad" translations. Another experiment manifests a consistency between human and automatic scorings of 6 general-purpose MT systems. Equational analysis validates the experimental results. Although the data and graphs are very promising, correlation coefficient and significance tests at 0.01 level are made to ensure the reliability of the results. Linear regression is made to map the automatic scoring results to human scorings. 展开更多
关键词 机器翻译 字符串相似性 余弦相关性 线性反馈 自动记分
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部