-
题名基于二元语法的N-最大概率中文粗分模型
被引量:12
- 1
-
-
作者
吴春颖
王士同
-
机构
江南大学信息工程学院
-
出处
《计算机应用》
CSCD
北大核心
2007年第12期2902-2905,共4页
-
基金
教育部重点科学研究项目(105087)
-
文摘
中文粗分是中文分词的基础环节,目前常用的粗分模型有基于规则的非统计模型和基于一元语法(uni-gram)的统计模型,其中后者取得了较好效果。在一元语法模型基础上提出了一种基于二元语法(bi-gram)的N-最大概率中文粗分模型,该模型把所有可能的词切分构造成一个有向无环图(DAG),利用噪声—信道模型和二元语法来计算概率,通过插值平滑技术来解决数据稀疏问题,目的在于更好地得到少量高召回率、高效率的粗分结果,更大程度地保留歧义字段和未登录词,提高后续分词质量。通过理论分析、模型建立和初步实验验证了模型的有效性。
-
关键词
二元语法
N-最大概率
中文粗分模型
-
Keywords
bi-gram
N-most-probably method, Chinese words rough segmentation model
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于N-最短路径方法的中文词语粗分模型
被引量:99
- 2
-
-
作者
张华平
刘群
-
机构
中国科学院计算技术研究所软件实验室
-
出处
《中文信息学报》
CSCD
北大核心
2002年第5期1-7,共7页
-
基金
国家重点基础研究项目(G1998030507-4
G1998030510).
-
文摘
预处理过程的词语粗切分,是整个中文词语分析的基础环节,对最终的召回率、准确率、运行效率起着重要的作用。词语粗分必须能为后续的过程提供少量的、高召回率的、中间结果。本文提出了一种基于N-最短路径方法的粗分模型,旨在兼顾高召回率和高效率。在此基础上,引入了词频的统计数据,对原有模型进行改进,建立了更实用的统计模型。针对人民日报一个月的语料库(共计185,192个句子),作者进行了粗分实验。按句子进行统计,2-最短路径非统计粗分模型的召回率为99.73%;在10-最短路径统计粗分模型中,平均6.12个粗分结果得到的召回率高达99.94%,比最大匹配方法高出15%,比以前最好的切词方法至少高出6.4%。而粗分结果数的平均值较全切分减少了64倍。实验结果表明:N-最短路径方法是一种预处理过程中实用、有效的的词语粗分手段。
-
关键词
N-最短路径方法
中文词语粗分模型
中文词语分析
预处理
统计模型
中文信息处理
-
Keywords
N-shortest paths method
words rough segmentation
Chinese lexical analysis
-
分类号
TP391.12
[自动化与计算机技术—计算机应用技术]
-