期刊文献+

基于CRF模型的维吾尔语分词研究

Uygur word segmentation based on conditional random fields model
下载PDF
导出
摘要 条件随机场能够很好地处理序列标注问题.引入条件随机场进行维吾尔语分词方法研究,主要包括制定词性和分词单独标注与一体化标注集并建成语料库;设计不同特征模板进行训练测试,反复比较实验结果,总结优化以获取最佳的特征模板.在设计特征模板时充分结合维吾尔语语言形态特征,采用了对称特征组合非对称特征的设计方法,并将获得的最佳分词模板应用到分步预测词性和分词实验中.相比单独分词标注,分词时加入词性特征列进行分词与词性一体化标注能展现更优的分词性能. CRF(Conditional random fields),a word segmentation algorithm is introduced to handle sequence labeling problems.The main tasks include the formulation of the corresponding tag sets,part of speech tagging and integrated tagging.Furthermore,the design of feature templates fully combined with the morphological features of Uyghur language and asymmetric features are focused on,which are applied to building corresponding segmentation models.The experiments are carried out repeatedly using different templates in order to obtain the best one.Compared with the separate word segmentation,the participle feature column used for word segmentation performs better.
作者 李成华 孙雅婧 张世娟 艾提日也古丽·艾尼瓦尔 I Chenghua;SUN Yajing;ZHANG Shijuan;ATTRYE Anwar(School of Electronic Information Engineering,South-Central University for Nationalities,Wuhan 430074,China;School of Education,South-Central University for Nationalities,Wuhan 430074,China)
出处 《中南民族大学学报(自然科学版)》 CAS 2019年第4期596-604,共9页 Journal of South-Central University for Nationalities:Natural Science Edition
基金 湖北省自然科学基金资助项目(2017CFB784) 中央高校基本科研业务费专项资金资助项目(CZW15043,CZQ14001)
关键词 条件随机场 维吾尔语分词 特征模板 分词模型 分步实验 conditional random fields Uyghur word segmentation feature template segmentation model test
  • 相关文献

参考文献16

二级参考文献147

共引文献153

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部