期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
2
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
Part-Join:基于划分的字符串相似性连接
1
作者
陈懿诚
骆吉洲
李建中
《计算机应用研究》
CSCD
北大核心
2014年第10期3002-3006,共5页
目前,已有许多高效的字符串相似性连接算法被提出,但是这些算法在过滤的过程中利用的往往是字符串本身的局部信息,而忽略了字符串集合的整体信息,故性能没有得到充分的提高。为此,提出了一种基于划分的算法Part—Join,它从频率向...
目前,已有许多高效的字符串相似性连接算法被提出,但是这些算法在过滤的过程中利用的往往是字符串本身的局部信息,而忽略了字符串集合的整体信息,故性能没有得到充分的提高。为此,提出了一种基于划分的算法Part—Join,它从频率向量、字母袁、频率分布三方面对数据集进行子集划分,并给出子集间的过滤策略用于排除不相似的字符串对。扩展实验表明,Part—Join比已有算法Pass—Join效率提高了10%~15%。
展开更多
关键词
相似性连接
划分
频率
编辑距离
下载PDF
职称材料
一种基于数据划分的字符串相似连接外存算法
被引量:
1
2
作者
曹海
骆吉洲
陈懿诚
《智能计算机与应用》
2012年第5期31-34,38,共5页
字符串相似连接操作具有广泛应用,因而将着重研究基于编辑距离的字符串相似连接。而现有的字符串相似连接算法大多为内存算法。实际应用中的数据集越来越大,有必要针对超大规模数据集研制字符串相似性连接外存算法。利用组合频率向量划...
字符串相似连接操作具有广泛应用,因而将着重研究基于编辑距离的字符串相似连接。而现有的字符串相似连接算法大多为内存算法。实际应用中的数据集越来越大,有必要针对超大规模数据集研制字符串相似性连接外存算法。利用组合频率向量划分数据集,并提出了基于编辑距离的字符串相似性连接外存算法框架,证明了磁盘调度问题的难度并提出了不同的启发式磁盘调度方法。此外,还提出了基于该外存算法框架实现字符串相似性连接增量式计算的方法。实验结果表明,数据划分方法可以有效地过滤不相关的数据子集;磁盘调度算法能够有效减少磁盘IO次数;外存算法是高效的;增量式计算方法能够高效地处理数据更新。
展开更多
关键词
字符串相似连接
编辑距离
外存算法
数据划分
下载PDF
职称材料
题名
Part-Join:基于划分的字符串相似性连接
1
作者
陈懿诚
骆吉洲
李建中
机构
哈尔滨工业大学计算机科学与技术学院
出处
《计算机应用研究》
CSCD
北大核心
2014年第10期3002-3006,共5页
基金
国家重点基础研究发展计划资助项目(2012CB316202)
文摘
目前,已有许多高效的字符串相似性连接算法被提出,但是这些算法在过滤的过程中利用的往往是字符串本身的局部信息,而忽略了字符串集合的整体信息,故性能没有得到充分的提高。为此,提出了一种基于划分的算法Part—Join,它从频率向量、字母袁、频率分布三方面对数据集进行子集划分,并给出子集间的过滤策略用于排除不相似的字符串对。扩展实验表明,Part—Join比已有算法Pass—Join效率提高了10%~15%。
关键词
相似性连接
划分
频率
编辑距离
Keywords
similarity join
partition
frequency
edit-distance
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
一种基于数据划分的字符串相似连接外存算法
被引量:
1
2
作者
曹海
骆吉洲
陈懿诚
机构
哈尔滨工业大学计算机科学与技术学院
出处
《智能计算机与应用》
2012年第5期31-34,38,共5页
文摘
字符串相似连接操作具有广泛应用,因而将着重研究基于编辑距离的字符串相似连接。而现有的字符串相似连接算法大多为内存算法。实际应用中的数据集越来越大,有必要针对超大规模数据集研制字符串相似性连接外存算法。利用组合频率向量划分数据集,并提出了基于编辑距离的字符串相似性连接外存算法框架,证明了磁盘调度问题的难度并提出了不同的启发式磁盘调度方法。此外,还提出了基于该外存算法框架实现字符串相似性连接增量式计算的方法。实验结果表明,数据划分方法可以有效地过滤不相关的数据子集;磁盘调度算法能够有效减少磁盘IO次数;外存算法是高效的;增量式计算方法能够高效地处理数据更新。
关键词
字符串相似连接
编辑距离
外存算法
数据划分
Keywords
String Similarity Join
Eclit Distance
Disk Algorithm
Data Partition
分类号
TP391.41 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
Part-Join:基于划分的字符串相似性连接
陈懿诚
骆吉洲
李建中
《计算机应用研究》
CSCD
北大核心
2014
0
下载PDF
职称材料
2
一种基于数据划分的字符串相似连接外存算法
曹海
骆吉洲
陈懿诚
《智能计算机与应用》
2012
1
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部