摘要
为了进一步提高中文语料库中语料的词性标注效率,在分析最大熵模型(MEM)和隐马尔科夫模型(HMM)所涉及理论、算法及其在中文词性标注技术中的应用的基础上,进行了基于MEM和HMM的中文词性标注实验.实验结果显示,基于MEM和HMM的中文词性标注算法都获得了一致性很好且覆盖率较高的标注效果,中文词性标注的准确率、召回率和F1这3个指标均达到92%以上;MEM的标注效果总体上比HMM的稍佳.
In order to further improve the efficiency of part-of-speech tagging in Chinese corpora,experiments of Chinese part-of-speech tagging methods based on the maximum entropy model(MEM)and the hidden Markov model(HMM)are designed according to the theoretical basis,algorithms,and application technology.The experimental results show that the Chinese part-of-speech tagging algorithms based on MEM and HMM have obtained a very consistent and high-coverage tagging result and the three indicators of tagging accuracy,recall rate and F1 value have reached above 92%,with the effect of MEM better than that of HMM.
作者
周潭
莫礼平
胡美琪
李航程
ZHOU Tan;MO Liping;HU Meiqi;LI Hangcheng(College of Information Science & Engineering, Jishou University, Jishou 416000, Hunan China)
出处
《吉首大学学报(自然科学版)》
CAS
2020年第2期15-18,共4页
Journal of Jishou University(Natural Sciences Edition)
基金
国家自然科学基金资助项目(61462029)
湖南省自然科学基金资助项目(2019JJ40234)
吉首大学本科生科研项目(JDX1809)
湖南省大学生研究性学习和创新性实验计划项目(湘教通〔2018〕255号)
吉首大学生研究性学习和创新性实验计划项目(JDCX2018012)。
关键词
最大熵模型
隐马尔科夫模型
中文词性标注
maximum entropy model
hidden Markov model
Chinese part-of-speech tagging