期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于大规模语料划分的频繁模式查找算法 被引量:1
1
作者 丁溪源 黄河燕 +1 位作者 张海军 王树梅 《计算机科学》 CSCD 北大核心 2012年第3期149-152,169,共5页
频繁模式查找对新词识别、网络舆情监测、生物信息序列检测等领域有很高的应用价值。为处理规模远超出内存的语料,提出了一种实用的频繁模式查找算法。先将语料按后缀首字符划分为多个集合,通过逐条扫描集合数据,搜索出最大化最长公共... 频繁模式查找对新词识别、网络舆情监测、生物信息序列检测等领域有很高的应用价值。为处理规模远超出内存的语料,提出了一种实用的频繁模式查找算法。先将语料按后缀首字符划分为多个集合,通过逐条扫描集合数据,搜索出最大化最长公共前缀区间(MLCPI)来完成查找。另外在此基础上提出逐层归并算法,实现查找的同时归并子串。由于进行查找时无需将全部数据导入内存,因此资源消耗较少;各集合间频繁模式查找互不干扰,可采用并行处理加快运行速度。使用4.61G纯文本语料进行了试验,结果表明其内存消耗小于30M,查找速度最快达1.08M/s,能高效地进行子串归并。 展开更多
关键词 频繁模式 重复串 语料划分 子串归并
下载PDF
大规模语料的频繁模式快速发现算法 被引量:4
2
作者 龚才春 贺敏 +2 位作者 陈海强 许洪波 程学旗 《通信学报》 EI CSCD 北大核心 2007年第12期161-166,共6页
提出了一种大规模语料频繁模式快速发现算法,通过采用合适的策略将语料划分为若干子语料,对每个子语料单独进行处理,即可获得原始语料的频繁模式;同时该算法能够避免处理频次在设定阈值以下的模式,进一步减少了内存占用,提高了处理速度... 提出了一种大规模语料频繁模式快速发现算法,通过采用合适的策略将语料划分为若干子语料,对每个子语料单独进行处理,即可获得原始语料的频繁模式;同时该算法能够避免处理频次在设定阈值以下的模式,进一步减少了内存占用,提高了处理速度。实验表明,对3.6G互联网新闻语料发现频次大于100的所有频繁模式中最高消耗内存为1.6GB,单机平均每秒处理文本语料3.28M。 展开更多
关键词 频繁模式 语料划分 重复串
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部