-
题名利用覆盖歧义检测法和统计语言模型进行汉语自动分词
被引量:8
- 1
-
-
作者
王显芳
杜利民
-
机构
中国科学院声学研究所语音交互信息技术研究中心
-
出处
《电子与信息学报》
EI
CSCD
北大核心
2003年第9期1168-1173,共6页
-
文摘
该文探讨了利用覆盖歧义检测法和统计语言模型进行汉语自动分词的问题。采用了多次迭代的方法来进行汉语词层面统计语言模型的训练。该方法能够得到更优化的语言模型。该文详细介绍了统计语言模型的训练过程,给出了语言模型复杂度随迭代次数增加而减小的实验结果。还给出了在不同的统计语言模型阶数下切分正确率变化的情况,分析了切分正确率变化的原因。
-
关键词
覆盖歧义检测法
统计语言模型
汉语
自动分词
切分正确率
-
Keywords
Statistics language model, Overlaying ambiguity examining method, Automatic segmentation
-
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
TN912.3
[电子电信—通信与信息系统]
-
-
题名一种基于局部歧义词网格的快速分词算法
被引量:1
- 2
-
-
作者
张国兵
李淼
-
机构
中国科学院合肥智能机械研究所
-
出处
《计算机工程与应用》
CSCD
北大核心
2008年第12期175-177,185,共4页
-
基金
中国科学院知识创新工程重要方向项目(No.KGCX2- SW- 511)
-
文摘
提出了局部歧义词网格的概念,针对汉语分词中的覆盖歧义,提出了一种使用迭代算法训练覆盖歧义词典的算法,得到覆盖歧义候选词条词典。在此基础上提出了一种基于局部歧义词网格的、能够检测汉语分词过程中产生的组合歧义和覆盖歧义的分词算法,该算法仅考虑存在歧义的局部歧义词网格,并将对覆盖歧义的处理简化为查询覆盖歧义候选词典,因此,该算法的时间复杂度大幅下降。实验结果表明,该算法能够实现快速的汉语分词,且其分词正确率能够达到97%以上。
-
关键词
汉语分词
覆盖歧义
交叉歧义
局部歧义词网格
-
Keywords
sentence segmentation
overlay ambiguity
overlapping ambiguity
local ambiguity word grid
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-