基于逐层剪枝的中文高频重复模式快速提取算法

Rapid Algorithm of Chinese High-frequency Repeat Extraction Based on Hierarchical Pruning

下载PDF

导出

摘要为了从大规模语料中快速提取高频重复模式,以递增n-gram模型为基础,使用散列数据结构提取重复串,并提出了一种基于低频字符和层次剪枝的逐层剪枝算法,用于过滤低频垃圾字串,减少I/O读写次数。在此基础上,应用改进的字串排序算法,使字符串排序可在O(n)时间内完成,从而有效提高重复模式的提取效率。实验表明,该算法是一种有效的重复模式提取算法,其I/O读写次数同语料规模呈线性关系,远小于使用首字符进行语料划分的方法,能快速有效地从规模远大于内存容量的文本语料中提取重复模式,特别适合于大规模语料的高频重复模式提取,对以重复模式为基础的新词识别、术语抽取等具有重要的支撑作用。 To extract high-frequency repeats from large-scale corpus,by using the hash table structure,this paper put forward a hierarchical pruning algorithm based on low-frequency character filtration and Cascade Pruning to filtrate lowfrequency strings and to reduce the times of I/O reading ＆ writing.On this basis,this paper employed the improved string sort algorithm,which can implement string sort in O（n） time complexity,to improve the efficiency of repeat extraction.According to the experimental data,it can be concluded that this algorithm is an effective method of repeat extraction,in which the relationship between the times of I/O reading ＆ writing and the scale of corpus is linear.The algorithm can effectively extract repeats from text corpus whose scale is much larger than that of the computer memory and can better suport the repeat-based applications such as new words identification,term extraction,etc.

作者张海军刘战东木妮娜

机构地区新疆师范大学初等教育学院新疆师范大学计算机科学技术学院

出处《计算机科学》 CSCD 北大核心 2014年第5期270-274,共5页 Computer Science

基金国家自然科学基金项目(61163045 61263044) 新疆维吾尔自治区高校科研基金(XJEDU2012S29) 新疆师范大学重点学科招标课题(12XSXZ0601)资助

关键词重复串散列表低频字串逐层剪枝新词识别 Repeat Hash table Low-frequency strings Hierarchical pruning New words identification

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1郑家恒,李文花.基于构词法的网络新词自动识别初探[J].山西大学学报（自然科学版）,2002,25(2):115-119. 被引量：56
2黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：250
3龚才春,贺敏,陈海强,许洪波,程学旗.大规模语料的频繁模式快速发现算法[J].通信学报,2007,28(12):161-166. 被引量：4
4张海军,史树敏,朱朝勇,黄河燕.中文新词识别技术综述[J].计算机科学,2010,37(3):6-10. 被引量：39
5张海军,潘伟民,木妮娜,栾静.一种自定义顺序的字符串排序算法[J].小型微型计算机系统,2012,33(9):1968-1971. 被引量：4
6邹纲,刘洋,刘群,孟遥,于浩,西野文人,亢世勇.面向Internet的中文新词语检测[J].中文信息学报,2004,18(6):1-9. 被引量：59

二级参考文献77

1孙茂松.谈谈汉语分词语料库的一致性问题[J].语言文字应用,1999(2):90-93. 被引量：20
2黄昌宁.中文信息处理中的分词问题[J].语言文字应用,1997(1):74-80. 被引量：83
3孙茂松,张磊.人机并存,“质”“量”合一—谈谈制定信息处理用汉语词表的策略[J].语言文字应用,1997(1):81-88. 被引量：7
4刘开瑛.现代汉语自动分词评测技术研究[J].语言文字应用,1997(1):103-108. 被引量：15
5孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：102
6邹纲,刘洋,刘群,孟遥,于浩,西野文人,亢世勇.面向Internet的中文新词语检测[J].中文信息学报,2004,18(6):1-9. 被引量：59
7杨磊,黄辉,宋涛.桶外排序算法的抽样分点分发策略[J].软件学报,2005,16(5):643-651. 被引量：5
8杨尔弘,方莹,刘冬明,乔羽.汉语自动分词和词性标注评测[J].中文信息学报,2006,20(1):44-49. 被引量：16
9曹勇刚,曹羽中,金茂忠,刘超.面向信息检索的自适应中文分词系统[J].软件学报,2006,17(3):356-363. 被引量：48
10崔世起,刘群,孟遥,于浩,西野文人.基于大规模语料库的新词检测[J].计算机研究与发展,2006,43(5):927-932. 被引量：32

共引文献359

1唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：45
2李对红,王裴岩 ,张桂平,张少阳.基于字簇的多模型中文分词方法研究[J].计算机应用研究,2020,37(2):355-359. 被引量：2
3王蔚,吴建明,刘磊.汉字的理据性[J].汉字文化,2024(5):129-133.
4宋凯丽,李云岭,姚露露.基于条件随机场的分词标注一体化地址解析方法[J].测绘地理信息,2021,46(S01):185-187. 被引量：5
5于江德,谷川,葛文英,樊孝忠.一种基于字和子串联合标注的汉语分词方法[J].山西大学学报（自然科学版）,2011,34(3):357-362. 被引量：2
6贺敏,王丽宏,杜攀,张瑾,程学旗.基于有意义串聚类的微博热点话题发现方法[J].通信学报,2013,34(S1):256-262. 被引量：12
7黄东平,田芳.BBS信息过滤技术研究[J].长江大学学报（自然科学版）,2004,1(1):16-18. 被引量：4
8崔世起,刘群,孟遥,于浩,西野文人.基于大规模语料库的新词检测[J].计算机研究与发展,2006,43(5):927-932. 被引量：32
9任禾,曾隽芳.一种基于信息熵的中文高频词抽取算法[J].中文信息学报,2006,20(5):40-43. 被引量：22
10李新福,赵杰,梁巍.基于互信息的宋史语料库词表的提取[J].河北大学学报（自然科学版）,2006,26(5):557-560. 被引量：4

1胡海威,公绪成,孙立民.基于二值图像的指纹特征点快速提取算法[J].广西师范大学学报（自然科学版）,2009,27(3):162-165. 被引量：1
2钱晓军,侯昌昌.一种基于Hash表的XML模式快速提取算法[J].计算机工程与应用,2005,41(17):180-182. 被引量：1
3刘利峰,吴孟达.关联规则的快速提取算法[J].计算机工程,2008,34(5):63-65. 被引量：8
4陈蕾.IC卡在物流配送领域的应用[J].物流技术与应用,2004,9(9):106-109.
5刘林东.一种云存储资源调度算法研究[J].广东第二师范学院学报,2012,32(5):69-73. 被引量：2
6汪西莉,焦李成.一种基于马氏距离的支持向量快速提取算法[J].西安电子科技大学学报,2004,31(4):639-643. 被引量：21
7徐三宝,吕维雪.3D散列数据的光滑曲面构造及其消隐显示算法[J].计算机学报,1990,13(7):557-560. 被引量：3
8伟利国,李学恩,梁淼.独立分量分析及其在ERP提取中的应用[J].北京理工大学学报,2004,24(1):77-81. 被引量：4
9龚才春,贺敏,陈海强,许洪波,程学旗.大规模语料的频繁模式快速发现算法[J].通信学报,2007,28(12):161-166. 被引量：4
10王秀娟.《字符串排序》微课设计与开发[J].中国校外教育,2013(9):168-168. 被引量：15

计算机科学

2014年第5期

浏览历史

内容加载中请稍等...

基于逐层剪枝的中文高频重复模式快速提取算法

参考文献6

二级参考文献77

共引文献359

相关作者

相关机构

相关主题

浏览历史