期刊文献+

一种人名识别方法的研究 被引量:1

Study of personal name recognition
下载PDF
导出
摘要 针对汉语人名识别的难点,基于最大熵算法提出了结合多知识、多模型的识别方法,充分考虑了人名的内部特征(小颗粒特征)和人名的语境信息。论文的主要贡献是:将概率信息赋予最大熵模型,极大提高人名的准确率和召回率;细化了分类模型,将人名识别分成中国人名识别、外国译名识别和单字人名识别;提出动态优先级方法来防止一个外国译名被部分识别为一个或几个中国人名。实验测试数据为1998年1月的人民日报和Sighan(2006)命名实体测试语料。测试结果表明,人民日报(1998-01)的召回率为90.06%,准确率为89.27%;Sighan(MSRA)语料的召回率为95.39%,准确率为96.71%;Sighan(LDC)语料的召回率为87.56%,准确率为91.04%。实验结果证明,提出的人名识别方法是非常有效的。 A new approach is proposed to recognize personal name,where,combining multi-knowledge and multi-model,the inner-feature of personal name and its context information are considered.This paper proposes a probabilistic feature based Maxi- mum Entropy (ME) model for personal name recognition.Where,probabilistic feature functions are used instead of binary feature functions,it is one of the several differences between this model and the most of the previous ME based model.We also explore confidence functions.We use sub-models to model Chinese Person Names,foreign names and word-only name respectively.The dynamic priority method is used to prevent a foreign personal name from splitting a Chinese personal name and the other section. Experimental results show this ME model combining above new elements brings significant improvements.The experiment shows that recall is 90.06% and precision is 89.27% in People's Daily (1998/01),recall is 95.39% and precision is 96.71% in SIGHAN MSRA corpus,and recall is 87.56% and precision is 91.04% in SIGHAN LDC corpus.
出处 《计算机工程与应用》 CSCD 北大核心 2008年第21期157-161,共5页 Computer Engineering and Applications
基金 教育部语信司科研项目( No.MZ115-022) 华北电力大学博士学位教师科研基金( No.200812005)
关键词 最大熵 概率特征 自信度函数 评测 maximum entropy probability feature confidence function evaluation
  • 相关文献

参考文献14

  • 1孙茂松,黄昌宁,高海燕,方捷.中文姓名的自动辨识[J].中文信息学报,1995,9(2):16-27. 被引量:87
  • 2宋柔,朱宏.基于语料库和规则库的人名识别法[C]//陈力为.计算语言研究与应用.北京:北京语言学院出版社,1993.
  • 3罗智勇,宋柔.现代汉语自动分词中专名的一体化、快速识别方法[C]//Ji Dong-Hong.国际中文电脑学术会议,新加坡,2001:323-328.
  • 4Miller S,Crystal M,Fox H,et al.Algorithms that learn to extract information BBN:Description of the SIFT system as used for MUC-7[C]//Proceedings of the Seventh Message Understanding Conference, 1998.
  • 5Sekine S,Grishman R,Shinou H.A decision tree method for finding and classifying names in Japanese texts[C]//Proceedings of the Sixth Workshop on Very Large Corpora,Canada, 1998.
  • 6Carreras X,Marquez L,Padro L.Named entity extraction using AdaBoost[C]//Prnceedings of the Sixth Conference on Natural Language Learning, 2002 : 167-170.
  • 7Borthwick A.A maximum entropy approach to named entity recognition[D]. 1999.
  • 8Brill E.Transforrn-based error-driven learning and natural language proeessing:a case study in part-of-speech tagging[J] Computational Linguistics, 1995,21 (4) : 543-565.
  • 9张华平,刘群.基于角色标注的中国人名自动识别研究[J].计算机学报,2004,27(1):85-91. 被引量:104
  • 10Zhang Huaping,Liu Qun,Yu Hongkui,et al.Chinese named entity recognition using role model[J].the International Journal of Computational Linguistics and Chinese Language Processing,2003,8(2):29-60.

二级参考文献19

  • 1陈小荷.自动分词中未登录词问题的一揽子解决方案[J].语言文字应用,1999(3):103-109. 被引量:26
  • 2孙茂松,黄昌宁,高海燕,方捷.中文姓名的自动辨识[J].中文信息学报,1995,9(2):16-27. 被引量:87
  • 3苑春法 黄昌宁 等.汉语语素数据库的建造与应用[J].Communication of COLIPS,7(1):1-4.
  • 4苑春法 黄昌宁 等.现代汉语语素应用研究[J].Communication of COLIPS,6(2):55-59.
  • 5罗智勇,宋柔.现代汉语自动分词中专名的一体化、快速识别方法[C]//Ji Dong-Hong.国际中文电脑学术会议,新加坡,2001:323-328.
  • 6宋柔,计算语言学研究与应用,1993年
  • 7孙茂松,计算语言学研究与应用,1993年
  • 8郑家恒,计算语言学研究与应用,1993年
  • 9张俊盛,中文信息学报,1992年,6卷,3期
  • 10团体著者,姓氏人名用字分析统计,1990年

共引文献211

同被引文献24

引证文献1

二级引证文献9

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部