-
题名基于藏语字性标注的词性预测研究
被引量:7
- 1
-
-
作者
龙从军
刘汇丹
诺明花
吴健
-
机构
中国科学院软件研究所
中国社会科学院民族学与人类学研究所
-
出处
《中文信息学报》
CSCD
北大核心
2015年第5期211-215,共5页
-
基金
国家自然科学基金(61202219
61303165
+2 种基金
61132009)
中国科学院信息化专项经费资助(XXH12504-1-10)
中国社科院创新工程项目
-
文摘
该文选取了藏语文中小学教材的部分语料,构建了带有藏语字性标记、词边界标记和词性标记的语料库,通过比较不同的分词、标注方法,证明分词、词性标注一体化效果比分步进行的效果好,准确率、召回率和F值分别提高了0.067、0.073和0.07。但词级标注模型难以解决词边界划分的一致性和未登录词的问题。基于此,作者提出可以利用字性和字构词的规律预测合成词的词性,既可以融入语言学知识又可以减少由未登录词导致的标注错误,实验结果证明,作为词性标注的后处理模块,基于字性标注的词性预测准确率提高到了0.916,这个结果已经比分词标注一体化结果好,说明字性标注对纠正词性错误标注有明显的效果。
-
关键词
藏语
语字标注
分词
词性标注
-
Keywords
Tibetan language
tagging of Tibetan syllables
word segmentation
POS
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-