-
题名结合局部歧义词网格与条件随机场的双层分词法
被引量:2
- 1
-
-
作者
陈雷
李淼
张健
曾伟辉
-
机构
中国科学院合肥物质科学研究院
-
出处
《计算机科学与技术汇刊(中英文版)》
2013年第1期1-8,共8页
-
基金
受国家自然科学基金(61070099)与国家科技支撑计划(2009BAH41806)支持资助.致谢 对审稿人员提出的中肯建议与意见,作者在此表示由衷的感谢.
-
文摘
本文提出了一种结合局部歧义词网格与条件随机场的双层中文分词模型。首先在底层使用局部歧义词网格对文本进行粗切分,并将切分结果作为一项特征提供给高层的条件随机场模型;然后使用条件随机场模型对文本进行标注分词。局部歧义词网格方法能够检测分词过程中产生的歧义问题,条件随机场模型能够平衡对待词表词和未登录词。两种方法的结合能够较好地解决分词中的分词歧义和未登录词问题。本文在国际ee文分词评测活动Bakeoff2005提供的PKU和MSRA语料上对该双层分词模型进行了系统封闭测试,并进行了四字位标注集与六字位标注集的对比。实验结果的最佳F值分别达到了95.1%和97.1%,优于单独使用条件随机场的分词效果。此外,开放测试的实验结果表明该模型也具有一定的实际意义。
-
关键词
局部歧义词网格
条件随机场
分词
-
Keywords
Local ambiguity word grid
CRF
Word segmentation
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名一种基于局部歧义词网格的快速分词算法
被引量:1
- 2
-
-
作者
张国兵
李淼
-
机构
中国科学院合肥智能机械研究所
-
出处
《计算机工程与应用》
CSCD
北大核心
2008年第12期175-177,185,共4页
-
基金
中国科学院知识创新工程重要方向项目(No.KGCX2- SW- 511)
-
文摘
提出了局部歧义词网格的概念,针对汉语分词中的覆盖歧义,提出了一种使用迭代算法训练覆盖歧义词典的算法,得到覆盖歧义候选词条词典。在此基础上提出了一种基于局部歧义词网格的、能够检测汉语分词过程中产生的组合歧义和覆盖歧义的分词算法,该算法仅考虑存在歧义的局部歧义词网格,并将对覆盖歧义的处理简化为查询覆盖歧义候选词典,因此,该算法的时间复杂度大幅下降。实验结果表明,该算法能够实现快速的汉语分词,且其分词正确率能够达到97%以上。
-
关键词
汉语分词
覆盖歧义
交叉歧义
局部歧义词网格
-
Keywords
sentence segmentation
overlay ambiguity
overlapping ambiguity
local ambiguity word grid
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-