-
题名基于大规模语料划分的频繁模式查找算法
被引量:1
- 1
-
-
作者
丁溪源
黄河燕
张海军
王树梅
-
机构
南京理工大学计算机科学与技术学院
中国科学院计算机语言信息工程研究中心
北京理工大学计算机科学技术学院
-
出处
《计算机科学》
CSCD
北大核心
2012年第3期149-152,169,共5页
-
基金
国家863计划重点项目(2006AA010109)资助
-
文摘
频繁模式查找对新词识别、网络舆情监测、生物信息序列检测等领域有很高的应用价值。为处理规模远超出内存的语料,提出了一种实用的频繁模式查找算法。先将语料按后缀首字符划分为多个集合,通过逐条扫描集合数据,搜索出最大化最长公共前缀区间(MLCPI)来完成查找。另外在此基础上提出逐层归并算法,实现查找的同时归并子串。由于进行查找时无需将全部数据导入内存,因此资源消耗较少;各集合间频繁模式查找互不干扰,可采用并行处理加快运行速度。使用4.61G纯文本语料进行了试验,结果表明其内存消耗小于30M,查找速度最快达1.08M/s,能高效地进行子串归并。
-
关键词
频繁模式
重复串
语料划分
子串归并
-
Keywords
Frequent pattern,Repeats,Corpus partition,Sub-string reduction
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名大规模语料的频繁模式快速发现算法
被引量:4
- 2
-
-
作者
龚才春
贺敏
陈海强
许洪波
程学旗
-
机构
中国科学院计算技术研究所
-
出处
《通信学报》
EI
CSCD
北大核心
2007年第12期161-166,共6页
-
基金
国家重点基础研究发展计划("973"计划)基金资助项目(2004CB318109
2007CB311100)~~
-
文摘
提出了一种大规模语料频繁模式快速发现算法,通过采用合适的策略将语料划分为若干子语料,对每个子语料单独进行处理,即可获得原始语料的频繁模式;同时该算法能够避免处理频次在设定阈值以下的模式,进一步减少了内存占用,提高了处理速度。实验表明,对3.6G互联网新闻语料发现频次大于100的所有频繁模式中最高消耗内存为1.6GB,单机平均每秒处理文本语料3.28M。
-
关键词
频繁模式
语料划分
重复串
-
Keywords
frequent pattern
corpus partition
repeat
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-