利用覆盖歧义检测法和统计语言模型进行汉语自动分词被引量：8

AUTOMATIC SEGMENTATION OF CHINESE USING OVERLAYING AMBIGUITY EXAMINING METHOD AND STATISTICS LANGUAGE MODEL

下载PDF

导出

摘要该文探讨了利用覆盖歧义检测法和统计语言模型进行汉语自动分词的问题。采用了多次迭代的方法来进行汉语词层面统计语言模型的训练。该方法能够得到更优化的语言模型。该文详细介绍了统计语言模型的训练过程,给出了语言模型复杂度随迭代次数增加而减小的实验结果。还给出了在不同的统计语言模型阶数下切分正确率变化的情况,分析了切分正确率变化的原因。 In this paper, the question of Chinese automatic segmentation is discussed using overlaying ambiguity examining method and statistics language model. The multi-time iterative method is applied to train language model, which can produce a better model. The process of training language model is described in detail. The result shows that the perplexity of language model is reduced. The accuracy of segmentation changes with different language model and the reason is analyzed.

作者王显芳杜利民

机构地区中国科学院声学研究所语音交互信息技术研究中心

出处《电子与信息学报》 EI CSCD 北大核心 2003年第9期1168-1173,共6页 Journal of Electronics & Information Technology

关键词覆盖歧义检测法统计语言模型汉语自动分词切分正确率 Statistics language model, Overlaying ambiguity examining method, Automatic segmentation

分类号 TP391.4 [自动化与计算机技术—计算机应用技术] TN912.3 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献2

1沈达阳,孙茂松,黄昌宁.基于统计的汉语分词模型及实现方法[J].中文信息,1998,15(2):96-98. 被引量：6
2孙茂松,左正平,邹嘉彦.高频最大交集型歧义切分字段在汉语自动分词中的作用[J].中文信息学报,1999,13(1):27-34. 被引量：51

二级参考文献5

1刘开瑛.现代汉语自动分词评测技术研究[J].语言文字应用,1997(1):103-108. 被引量：15
2孙茂松邹嘉彦等.汉语真实文本中的交集型切歧义.汉语计量与计算研究[M].香港城市大学语言资讯科学研究中心,1998..
3孙茂松，汉语计量与计算研究，1998年
4刘开瑛，语言文字应用，1997年，1期
5何克抗,徐辉,孙波.书面汉语自动分词专家系统设计原理[J].中文信息学报,1991,5(2):1-14. 被引量：30

共引文献54

1张恒,杨文昭,屈景辉,卢虹冰,张亮,赵飞.基于词典和词频的中文分词方法[J].微计算机信息,2008,24(3):239-240. 被引量：19
2曹娟,周经野.一种计算汉字串之间相关程度的新方法[J].中文信息学报,2004,18(4):55-59. 被引量：6
3曹倩,丁艳,王超,潘金贵.汉语自动分词研究及其在信息检索中的应用[J].计算机应用研究,2004,21(5):71-74. 被引量：18
4苏菲,王丹力,戴国忠.基于标记的规则统计模型与未登录词识别算法[J].计算机工程与应用,2004,40(15):43-45. 被引量：13
5孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
6马光志,李专.基于特征词的自动分词研究[J].华中科技大学学报（自然科学版）,2003,31(3):60-62. 被引量：4
7邓曙光,曾朝晖.汉语分词中一种逐词匹配算法的研究[J].湖南城市学院学报（自然科学版）,2005,14(1):76-78. 被引量：6
8代建英,何中市.基于词性信息的汉语时间语词消歧算法[J].重庆大学学报（自然科学版）,2005,28(9):53-56.
9刘禹孜,何中市.一种基于SVM和规则消除组合型歧义的算法[J].重庆大学学报（自然科学版）,2005,28(10):50-53. 被引量：2
10李斌,陈小荷,方芳,徐艳华.基于语料库的高频最大交集型歧义字段考察[J].中文信息学报,2006,20(1):1-6. 被引量：6

同被引文献54

1刘春辉,金顺福,刘国华,李颖.基于优化最大匹配与统计结合的汉语分词方法[J].燕山大学学报,2009,33(2):124-129. 被引量：9
2黄昌宁.中文信息处理中的分词问题[J].语言文字应用,1997(1):74-80. 被引量：83
3刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：197
4李凯,左万利,吕巍.汉语文本中交集型切分歧义的分类处理[J].小型微型计算机系统,2004,25(8):1486-1490. 被引量：3
5金瑜,陆启明,高峰.基于上下文相关的最大概率汉语自动分词算法[J].计算机工程,2004,30(16):146-148. 被引量：8
6孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
7温滔,朱巧明,吕强.一种快速汉语分词算法[J].计算机工程,2004,30(19):119-120. 被引量：19
8徐秉铮,詹剑,贺前华.基于神经网络的分词方法[J].中文信息学报,1993,7(2):36-44. 被引量：15
9曾华琳,李堂秋,史晓东.一种基于提取上下文信息的分词算法[J].计算机应用,2005,25(9):2025-2027. 被引量：9
10骆正清,陈增武,胡上序.一种改进的MM分词方法的算法设计[J].中文信息学报,1996,10(3):30-36. 被引量：28

引证文献8

1刘春辉,金顺福,刘国华,李颖.基于优化最大匹配与统计结合的汉语分词方法[J].燕山大学学报,2009,33(2):124-129. 被引量：9
2金立旺.亚齐采访思考断片[J].新闻记者,2005(2):32-32.
3瞿锋,陈纪元.汉语自动分词算法综述[J].福建电脑,2006,22(4):23-25. 被引量：8
4朱巧明,温滔,李培蜂,钱培德.一种基于多元信息库的自适应汉语歧义切分方法[J].小型微型计算机系统,2006,27(8):1597-1600. 被引量：1
5刘汉兴,朱梅阶,刘财兴,林旭东.基于词图的最大概率分词方法[J].计算机工程与设计,2008,29(24):6370-6372.
6罗晟.号码百事通文本搜索引擎设计及优化对策[J].武汉理工大学学报,2009,31(24):102-105.
7王洪伟,霍佳震,王伟,廖雅国.面向语义检索应用的本体模型结构设计[J].系统工程与电子技术,2010,32(1):166-174. 被引量：8
8周宏宇,张政.中文分词技术综述[J].安阳师范学院学报,2010(2):54-56. 被引量：7

二级引证文献32

1刘春辉,金顺福,刘国华,李颖.基于优化最大匹配与统计结合的汉语分词方法[J].燕山大学学报,2009,33(2):124-129. 被引量：9
2熊回香.试论信息管理与信息系统专业《数据结构》课程的教学[J].高等函授学报（自然科学版）,2007,20(4):10-13. 被引量：1
3于张红,蹇玉清,张海涛,王建猛,王纲.课程词典系统的设计[J].河北科技师范学院学报,2007,21(3):50-53.
4高文利,李德华.分词索引树的构建[J].语言研究,2007,27(4):103-105. 被引量：4
5李昊旻,李莹,段会龙,吕旭东.中文病历文档术语提取和否定检出方法[J].中国生物医学工程学报,2008,27(5):716-721. 被引量：9
6高文利,高元先.基于三数组Trie索引树词典查询机制的分词系统[J].情报杂志,2009,28(2):69-71. 被引量：2
7李国和,刘光胜,吴卫江,孙红军,唐先明,韩宝东.基于最大匹配和歧义检测的中文分词粗分方法[J].北京信息科技大学学报（自然科学版）,2010,25(S2):84-88. 被引量：1
8周宏宇,张政.中文分词技术综述[J].安阳师范学院学报,2010(2):54-56. 被引量：7
9张彩琴,袁健.改进的正向最大匹配分词算法[J].计算机工程与设计,2010,31(11):2595-2597. 被引量：11
10蒋国瑞,袁通,缑雨真.基于ISM的电子信息产品TBT预警顶层本体分析[J].现代情报,2010,30(6):12-15.

1高涛.灵活、开放、自由的统计语言第五届中国R语言会议剪影[J].程序员,2012(7):20-21.
2黄德根,岳函,李丽双.开放式汉语自动分词的学习机制[J].小型微型计算机系统,2005,26(8):1406-1410.
3焦慧,刘迁,贾惠波.一种基于词编码的中文文档格式[J].计算机科学,2008,35(10):162-164. 被引量：1
4郭雷.统计语言模型分析[J].软件导刊,2011,10(11):72-73.
5钟明辉.一种基于声韵母分割的汉语语音识别方法[J].科技创新导报,2014,11(18):249-249. 被引量：1
6努尔麦麦提.尤鲁瓦斯,吾守尔.斯拉木,热依曼.吐尔逊.维吾尔语大词汇语音识别系统识别单元研究[J].北京大学学报（自然科学版）,2014,50(1):149-152. 被引量：4
7凌建国,刘尔琦,杨杰,杨磊.基于H_∞滤波器的红外小目标运动预测和跟踪方法[J].红外与毫米波学报,2005,24(5):366-369. 被引量：11
8刘禹孜,何中市.一种基于SVM和规则消除组合型歧义的算法[J].重庆大学学报（自然科学版）,2005,28(10):50-53. 被引量：2
9惠益龙,张太红,吕莲花,王蓓蓓.语音识别中的统计语言模型研究[J].信息技术,2017,41(1):44-46. 被引量：2
10朱鉴,张建,李淼.一种有效解决汉语歧义切分的方法[J].计算机工程与应用,2007,43(11):175-177. 被引量：1

电子与信息学报

2003年第9期

浏览历史

内容加载中请稍等...

利用覆盖歧义检测法和统计语言模型进行汉语自动分词被引量：8

参考文献2

二级参考文献5

共引文献54

同被引文献54

引证文献8

二级引证文献32

相关作者

相关机构

相关主题

浏览历史

利用覆盖歧义检测法和统计语言模型进行汉语自动分词 被引量：8

参考文献2

二级参考文献5

共引文献54

同被引文献54

引证文献8

二级引证文献32

相关作者

相关机构

相关主题

浏览历史

利用覆盖歧义检测法和统计语言模型进行汉语自动分词被引量：8