大规模汉语语料库中任意n的n-gram统计算法及知识获取方法被引量：4

Algorithm of n gram Statistics for Arbitrary n and Knowledge Acquisition Based on Statistics

下载PDF

导出

摘要本文提出并实现了一种大规模汉语语料库中字、词级任意ｎ的ｎ－ｇｒａｍ统计算法，本算法可以一次性统计出所有不大于任意ｎ（本文ｎ取为２５６）的字、词级ｎ－ｇｒａｍ，可将传统ｎ－ｇｒａｍ统计时的指数空间开销变为线性的，且与所统计的元数无关。基于这种ｎ－ｇｒａｍ的统计，本文还进行了汉语信息熵的计算及字、词级知识获取的研究。 A new algorithm of n gram statistics for arbitrary n at word or phrase level is proposed and realized in this paper,with which the n gram for all n at word or phrase level can be calculated at the same time. Based on the n gram,the Chinese information entropy and knowledge acquisition at word or phrase level have also been studied.The algorithm and its result have been integrated with a MT system.

作者张民李生赵铁军

机构地区哈尔滨工业大学计算机科学与工程系

出处《情报学报》 CSSCI 北大核心 1997年第1期28-35,共8页 Journal of the China Society for Scientific and Technical Information

关键词 N元语法统计信息熵知识获取汉语语料库 n gram,statistics,information entropy,knowledge acquisition

分类号 TP391.2 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1张民,李生,王海峰,赵铁军,王铁志.基于知识评价的快速汉语自动分词系统[J].情报学报,1996,15(2):95-105. 被引量：4

二级参考文献3

1徐秉铮,詹剑,贺前华.基于神经网络的分词方法[J].中文信息学报,1993,7(2):36-44. 被引量：15
2张民,李生,赵铁军,周明,邱祥辉,毛成江.CEMT－Ⅲ汉英机器翻译系统的研究[J].情报学报,1994,13(1):50-63. 被引量：2
3何克抗,徐辉,孙波.书面汉语自动分词专家系统设计原理[J].中文信息学报,1991,5(2):1-14. 被引量：30

共引文献3

1郭祥昊,钟义信,杨丽.基于两字词簇的汉语快速自动分词算法[J].情报学报,1998,17(5):352-357. 被引量：18
2张敏.中文垂直搜索引擎研究与实现[J].福建电脑,2010,26(6):102-102. 被引量：1
3张敏,杜华.Nutch中文分词的设计与实现[J].河北北方学院学报（自然科学版）,2010,26(4):53-56. 被引量：1

同被引文献29

1罗宇辉,侯汉清.因特网经济学未登录词计算机辅助挖掘试验[J].情报理论与实践,2005,28(5):478-481. 被引量：2
2Information studies.[2004-11-29].http://informationstudies.blogchina.com/.
3Brown M K.Kellner A,RaggeR D.Stochastic language models (N-Gram)specification.[2007-04-10].http://www.w3.org/TR/2001,WD-ngram-spec-20010103/.
4Brown P E,Vincent J,Pietra D.Class-based n-gram models of natural language.Computational Linguistics,1992,18(4):467-479.
5Merkel M, Andersson M. Knowledge-lite extraction of multi-word units with language filters and entropy thresholds[A]. Proceedings of 2000 Conference on User-Oriented Content-Based Text and Image Handling[C]. Paris, France:ACM Press, 2000. 737-746.
6He S,Zhu J. An iterative method for extracting Chinese unknown words[J]. Chinese Journal of Electronics,2001,10(4):461-464.
7Nagao M,Mori S. A new method of n-gram statistics for large number of n and automatic extraction of words and phrases from large text data of Japanese[A]. Proceedings from the 15th International Conference on Computational Linguistics[C]. Kyoto: ACL,1994.
8Zeng D,Wei Dong-hua,Chau M,et al.Domain-specific Chinese word segmentation using suffix tree and mutual information[J].Information System Frontier,2011,13:115-125.
9CCL语料库[OL].http://ccl.pku.edu cn:8080/cclcorpus.
10Nagao M,Mori S.A New Method of N-gram Statistics for Large Number of n and Automatic Extraction of Words and Phrases from Large Text Data of Japanese[C] //Proceedings of the 1Sth International Conference on Computational Linguistics.1994:611-615.

引证文献4

1吕学强,张乐,黄志丹,胡俊峰.基于散列技术的快速子串归并算法[J].复旦学报（自然科学版）,2004,43(5):948-951. 被引量：4
2邱立新.试析《鲁府禁方》中童便的应用[J].中国科技信息,2005(12):168-169.
3曾艳,侯汉清.古籍文本抽词研究[J].图书情报工作,2008,52(1):132-135. 被引量：10
4余一骄,刘芹.面向超大规模的中文文本N-gram串统计[J].计算机科学,2014,41(4):263-268. 被引量：3

二级引证文献17

1吴慰慈,谷秀洁.2008年国内图书馆学学术进展[J].图书馆论坛,2009,29(6):19-24. 被引量：2
2赵阳,顾磊.基于中文信息处理的古籍整理研究评述[J].图书情报工作,2010,54(3):116-119. 被引量：8
3周浪,史树敏,冯冲,黄河燕.基于多策略融合的中文术语抽取方法[J].情报学报,2010,29(3):460-467. 被引量：28
4周浪,冯冲,黄河燕,王平尧.一种基于独立性统计的子串归并算法[J].计算机工程与应用,2010,46(24):129-131. 被引量：1
5黄建年,侯汉清.中国古籍文本分词的一次试验[J].情报学报,2011,30(6):618-625. 被引量：6
6黄建年.汉文古籍索引自动化实践与研究概述[J].佛山科学技术学院学报（社会科学版）,2011,29(6):50-56. 被引量：5
7丁溪源,黄河燕,张海军,王树梅.基于大规模语料划分的频繁模式查找算法[J].计算机科学,2012,39(3):149-152. 被引量：1
8余一骄,尹燕飞,刘芹.基于大规模语料库的高频汉字串互信息分布规律分析[J].计算机科学,2014,41(10):276-282.
9侯婷,吕学强,李卓.专利术语抽取的层次过滤方法[J].现代图书情报技术,2015(1):24-30. 被引量：6
10余一骄,刘芹.大规模中文语料库检索技术研究[J].计算机科学,2015,42(2):217-223. 被引量：4

1裴艳.用于机器翻译的汉语语料库——中文应做到形式化、公理化、算法化、自动化[J].中文信息,1997,14(1):32-33. 被引量：1
2仁青吉,安见才让.藏语语言模型的研究[J].信息与电脑（理论版）,2015(6). 被引量：1
3高军,陈锡先.无监督的动态分词方法[J].北京邮电大学学报,1997,20(4):66-69. 被引量：4
4谢春发.中文智能搜索引擎的探讨[J].福建广播电视大学学报,2005(5):61-63. 被引量：1
5谢春发.中文智能搜索引擎的研究与探讨[J].河北广播电视大学学报,2005,10(4):17-19. 被引量：2
6麦合甫热提,艾山.吾买尔,麦热哈巴.艾力,吐尔根.伊布拉音,张健.基于词典和统计相结合的维吾尔语拼写检查方法[J].中文信息学报,2014,28(2):66-71. 被引量：2
7王永成.仿人机译系统的开发[J].情报学报,1995,14(6):434-439.
8罗振声.清华大学ZW大型通用汉语语料库的研究[J].中文信息,1994,11(1):10-12. 被引量：1
9张国煊.汉语语料库加工技术[J].杭州电子工业学院学报,1996,16(1):32-37. 被引量：1
10任照富,常友渠,樊爱宛.基于贝叶斯的N-Gram统计信息检索模型[J].郑州大学学报（理学版）,2010,42(1):21-23.

情报学报

1997年第1期

浏览历史

内容加载中请稍等...

大规模汉语语料库中任意n的n-gram统计算法及知识获取方法被引量：4

参考文献1

二级参考文献3

共引文献3

同被引文献29

引证文献4

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

大规模汉语语料库中任意n的n-gram统计算法及知识获取方法 被引量：4

参考文献1

二级参考文献3

共引文献3

同被引文献29

引证文献4

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

大规模汉语语料库中任意n的n-gram统计算法及知识获取方法被引量：4