基于词图的最大概率分词方法

Method of maximum probability word segmentation based on word graph

下载PDF

导出

摘要中文分词的方法主要可分为基于规则和基于统计两大类:前者一般借助于词图的方法,将分词问题转化为最优路径问题,通常切分结果不惟一;后者利用统计模型对语料库进行统计,计算量较大,但准确率较高。对词图和N元语法进行了介绍,并结合两者实现了一种中文分词方法。该方法将词图中的最大概率路径作为中文句子分词的结果,其中涉及对语料库进行二元词频统计,设计了一个多级哈希结构的分词词典,实验数据表明该方法能有效地进行自动分词。 There are two methods of Chinese word segmentation based on rule and statistics, the former usually use word graph and the latter use statistics model. Word graph and N-gram are introduced, and a system of Chinese word segmentation is constructed based on them. This system regards the maximum propability path in word graph as the result of word segmentation in Chinese sentence, bigram frequency is counted in corpus, and a word dictionary is designed with multilevel hash structure. The experimental data show that it car segment Chinese efficiently.

作者刘汉兴朱梅阶刘财兴林旭东

机构地区华南农业大学信息学院

出处《计算机工程与设计》 CSCD 北大核心 2008年第24期6370-6372,共3页 Computer Engineering and Design

关键词中文分词词图二元语法最大概率最优路径 chinese word segmentation word graph bigram maximum probability best path

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献9

1刘群.汉语词法分析和句法分析技术综述[C]..见:第一届学生计算语言学研讨会(SWCL2002)专题讲座[C].,2002..
2王晓龙,王开铸,李仲荣,白小华.最少分词问题及其解法[J].科学通报,1989,34(13):1030-1032. 被引量：25
3张华平,刘群.基于N-最短路径方法的中文词语粗分模型[J].中文信息学报,2002,16(5):1-7. 被引量：99
4陈小荷.当代汉语自动分析[M].北京:北京语言文化大学出版社,2000:97-98.
5刘挺,吴岩,王开铸.最大概率分词问题及其解法[J].哈尔滨工业大学学报,1998,30(6):37-41. 被引量：16
6王显芳,杜利民.利用覆盖歧义检测法和统计语言模型进行汉语自动分词[J].电子与信息学报,2003,25(9):1168-1173. 被引量：8
7刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：197
8高山,张艳,徐波,等.基于三元统计模型的汉语分词及标注一体化研究[M].北京:清华大学出版社,2001:116-122.
9李庆虎,陈玉健,孙家广.一种中文分词词典新机制——双字哈希机制[J].中文信息学报,2003,17(4):13-18. 被引量：107

二级参考文献49

1孙茂松,邹嘉彦.汉语自动分词研究中的苦干理论问题[J].语言文字应用,1995(4):40-46. 被引量：45
2周强.规则和统计相结合的汉语词类标注方法[J].中文信息学报,1995,9(3):1-10. 被引量：43
3马晏.基于评价的汉语自动分词系统的研究与实现[A]..语言信息处理专论[C].北京:清华大学出版社,1996..
4H Y Tan. Chinese place automatic recognition research. In: C N Huang, Z D Dong, eds. Proc of Computational Language.Beijing: Tsinghua University Press, 1999
5Zhang Huaping, Liu Qun, Zhang Hao, et al. Automatic recognition of Chinese unknown words recognition. First SIGHAN Workshop Attached with the 19th COLING, Taipei, 2002
6S R Ye, T S Chua, J M Liu. An agent-based approach to Chinese named entity recognition. The 19th Int'l Conf on Computational Linguistics, Taipei, 2002
7J Sun, J F Gao, L Zhang, et al. Chinese named entity identification using class-based language model. The 19th Int'l Conf on Computational Linguistics, Taipei, 2002
8Lawrence R Rabiner. A tutorial on hidden Markov models and selected applications in speech recognition. Proc of IEEE, 1989,77(2): 257～286
9Shai Fine, Yoram Singer, Naftali Tishby. The hierarchical hidden Markov model: Analysis and applications. Machine Learning,1998, 32(1): 41～62
10Richard Sproat, Thomas Emerson. The first international Chinese word segmentation bakeoff. The First SIGHAN Workshop Attached with the ACL2003, Sapporo, Japan, 2003. 133～143

共引文献430

1刘苗苗,李燕,王欣萌,甘琳琳,李虹.分级阅读初探:基于小学教材的汉语可读性公式研究[J].语言文字应用,2021(2):116-126. 被引量：6
2魏伟,郭崇慧,邢小宇.基于语义关联规则的试题知识点标注及试题推荐[J].数据分析与知识发现,2020,4(2):182-191. 被引量：8
3段小斌,林雯,阮百尧,陈基漓.一种基于三级索引词库结构的中文分词方法研究[J].计算机与数字工程,2007,35(7):47-49. 被引量：5
4战疆,冯月利,王珊.PostgreSQL中文全文索引技术研究与实现[J].华中科技大学学报（自然科学版）,2005,33(z1):213-216. 被引量：3
5李丹宁,李丹,王保华,马新强.几种基于词典的中文分词算法评价[J].贵州科学,2008,26(3):1-8. 被引量：4
6范戈,廖碧成.一种基于词义分析的短信问答系统的设计与实现[J].山东通信技术,2009,29(1):18-21.
7刘春辉,金顺福,刘国华,李颖.基于优化最大匹配与统计结合的汉语分词方法[J].燕山大学学报,2009,33(2):124-129. 被引量：9
8陈博逊,黄晶晓.一种基于HMM和CRF的双层分词模型[J].硅谷,2009,2(22).
9隋丽萍,徐承韬,李瑞芳.一个中文全文检索系统的设计与实现[J].科技资讯,2007,5(18):244-245. 被引量：1
10尹继豪,樊孝忠,刘士宁,于江德.一种基于Bootstrapping构建训练语料的方法[J].计算机研究与发展,2007,44(z2):394-397.

1袁向阳,殷建平.基于二元语法的全链接模块化B*树设计[J].计算机工程与应用,2005,41(27):74-76. 被引量：2
2刘丹,方卫国,周泓.基于贝叶斯网络的二元语法中文分词模型[J].计算机工程,2010,36(1):12-14. 被引量：8
3石佳,蔡皖东.基于N元语法的汉语自动分词系统研究[J].微电子学与计算机,2009,26(7):98-101. 被引量：2
4张靖,金浩.汉语词语情感倾向自动判断研究[J].计算机工程,2010,36(23):194-196. 被引量：16
5甘秋云.基于最短路径的二元语法中文词语粗分模型的研究[J].现代计算机,2013,19(17):7-10. 被引量：1
6张金瑞,柴玉梅,昝红英,高明磊.基于LDA的弱监督文本分类方法[J].计算机工程与设计,2017,38(1):86-91. 被引量：3
7仁青吉,安见才让.藏语语言模型的研究[J].信息与电脑（理论版）,2015(6). 被引量：1
8杨东.哈希结构模拟文件系统[J].电脑编程技巧与维护,2013(7):27-29.
9刘丹,方卫国,周泓.二元语法中文分词数据平滑算法性能研究[J].计算机工程与应用,2009,45(17):33-36. 被引量：4
10贾自艳,史忠植.基于概率统计技术和规则方法的新词发现[J].计算机工程,2004,30(20):19-21. 被引量：28

计算机工程与设计

2008年第24期

浏览历史

内容加载中请稍等...

基于词图的最大概率分词方法

参考文献9

二级参考文献49

共引文献430

相关作者

相关机构

相关主题

浏览历史