-
题名基于链式条件随机场的中文分词改进方法
被引量:10
- 1
-
-
作者
徐浩煜
任智慧
施俊
周晗
-
机构
中国科学院上海高等研究院航空通讯技术联合实验室
中国科学院大学
上海大学通信与信息工程学院
-
出处
《计算机应用与软件》
CSCD
2016年第12期211-213,233,共4页
-
基金
国家自然科学基金项目(61471231)
-
文摘
基于链式条件随机场模型的序列标注中文分词方法随着中文分词评测Bakeoff的展开得到广泛应用。词位标注集和特征模板集对该模型的学习至关重要,但当前的研究大多采用单一的标注集和特征模板集进行实验,缺乏标注集和特征模板集结合的尝试,使得中文分词中未登录词识别率不高,从而影响互联网领域语料的分词效果。首次采用六词位标注集结合TMPT-10和TMPT-10`特征模板,并与常见标注集和特征模板集的组合在Bakeoff语料上进行实验对比,结果表明,改进的方法 6tag-tmpt10取得更好的未登录词召回率,在互联网领域中文分词能取得很好的效果;同时在F值上也与其他最好结果相当。
-
关键词
中文分词
词位标注
条件随机场
特征模板
-
Keywords
Chinese word segmentation
Word-position tagging
Conditional random field
Feature template
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-