期刊文献+

基于CRF的蒙古文人名自动识别研究 被引量:3

Recognition method of Mongolian person names based on conditional random fields
下载PDF
导出
摘要 以蒙古文人名识别为目的,实现了基于条件随机场模型的人名自动识别。从蒙古语黏着性特点分析入手,研究了蒙古语语料库中人名的存在形式以及各类人名的特点,针对蒙古语语料库中人名的特点,在词汇特征、词性特征和指示词特征等基本特征基础上引入了汉语姓氏特征、人名词典特征、兼类人名特征以及双词根特征。以内蒙古大学开发的100万词规模的标注语料库为训练数据,该模型的人名识别性能达到了94.56%的准确率,90.60%的召回率和92.54%的F值。该方法比起以往的基于规则的系统取得了较好的结果。 The paper presented a method to recognize Mongolian names based on conditional random fields (CRF). According to the characteristics of the Mongolian person names,it selected lexical features, part of speech, designation words, Chinese surname, names dictionary, category names and double roots as the features of the model. Using the 3rd-level annotated corpus with about 1000 000 words as the training data, this model achieved a accuracy of 94.56% , the recall rate of 90.60% , F score of 92.54%. The method achieves better results compared with the previous rule based system.
出处 《计算机应用研究》 CSCD 北大核心 2016年第7期2014-2017,共4页 Application Research of Computers
基金 内蒙古自治区蒙古语言文字信息化专项扶持项目(2012339) 国家自然科学基金资助项目(61070099) 国家社会科学基金资助项目(13XYY022)
关键词 蒙古文人名 识别 条件随机场 特征 Mongolian person name recognition CRF feature
  • 相关文献

参考文献13

  • 1那顺乌日图,雪艳,淑琴,等.蒙古文人名自动识别研究[C]//全国第七届计算语言学联合会议论文集.2003:97-102.
  • 2应玉龙,李淼,乌达巴拉,朱海.基于条件随机场的蒙古语词性标注方法[J].计算机应用,2010,30(8):2038-2040. 被引量:9
  • 3赵晓凡,赵丹,刘永革.利用CRF实现中文人名性别的自动识别[J].微电子学与计算机,2011,28(10):122-124. 被引量:7
  • 4吴金星.蒙古语词法标注语料库的构建及相关技术研究[D].呼和浩特:内蒙古大学,2008.
  • 5McCallum A,Li Wei.Early results for named entity recognition with conditional random fields,feature induction and Web-enhanced lexicons[C]//Proc of CoNLL.2003:188-191.
  • 6Masayuki A,Matsumoto Y.Japanese named entity extraction with redundant morphological analysis[C]//Proc of Human Language Technology Conference:North American Chapter of the Association for Computational Linguistics.2003.
  • 7Ekbal A,Haque R,Bandyopadhyay S.Named entity recognition in Bengali:a conditional random field approach[C]//Proc of the 3rd IJCNLP.2010.
  • 8Mayfield J,McNamee P,Piatko C.Named entity recognition using hundreds of thousands of features[C]//Proc of CoNLL.2003:184-187.
  • 9向晓霞.基于条件随机场的中文命名实体识别[D].厦门:厦门大学,2006.
  • 10胡文博,都云程,吕学强,施水才.基于多层条件随机场的中文命名实体识别[J].计算机工程与应用,2009,45(1):163-165. 被引量:25

二级参考文献26

共引文献71

同被引文献32

引证文献3

二级引证文献32

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部