期刊文献+

基于词位的藏文黏写形式的切分 被引量:6

Segmentation of Tibetan abbreviated forms based on word position
下载PDF
导出
摘要 基于词位的统计分析方法识别并切分现代藏语文本中的黏写形式,其最大特点是减少了未登录词对识别效果的影响。首先根据藏文自身的特点,将常用的四词位扩充为六词位,再利用条件随机场模型作为标注建模工具来进行训练和测试,并根据规则对识别结果进行后处理。从实验结果来看,该方法有较高的识别正确率,具有进一步研究的价值。下一步的改进需要扩充训练语料,并对模型选用的特征集进行优化。 The best feature of segmentation of Tibetan abbreviated forms based on word position is reducing the negative effects of unknown words. This article improves 4 word-position tag set to 6 word-position tag set to fit in with the characters of Tibetan, uses CRF as tagging model to train and test corpus data, then builds a rule base to post process the result data. The experimental result shows that the method has a high recognition rate and deserves further study. The next steps are to expand the corpus and optimize the feature template.
出处 《计算机工程与应用》 CSCD 2014年第11期218-222,共5页 Computer Engineering and Applications
基金 国家自然科学基金(No.61132009)
关键词 藏文黏写形式 词位 条件随机场 特征模板 后处理 Tibetan abbreviated forms word position Conditional Random Field(CRF) feature template post process
  • 相关文献

参考文献10

二级参考文献72

共引文献368

同被引文献45

引证文献6

二级引证文献20

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部