基于多级阈值的中文人名识别被引量：1

Chinese personal name recognition based on multilevel threshold

下载PDF

导出

摘要在对大规模姓名样本库统计的基础上,研究了各种中文人名的姓氏、名字用字规律,并通过对大规模语料库的统计分析,得到了每个姓氏用字在真实文本中用作真实姓氏的概率及其上下文规律;针对汉族人名和少数民族人名及音译人名,分别提出了多级姓氏阈值和多级首字阈值的概念,并使用3σ法则确定阈值。实验结果表明,基于多级阈值的中文人名识别模型是有效的。 This paper presents the rules of surname words and name words of all kinds of Chinese personal names based on a large scale personal names hase.lt also shows the probability of all surname words being a surname and their contexts rules by making a statistics on a large scale corpus.In allusion to personal names of Chinese Han Natinnality,multilevel threshold of surname is proposed.In order to recognize personal names of Chinese minority nationalities and transliterated personal names,it pro- poses multilevel threshold of the first word of personal name as well,And these thresholds are chosen by 3σ rule.The results show that the model of multilevel threshold is effective in recognizing Chinese personal names.

作者余祖波高庆狮马建军

机构地区大连理工大学计算机科学与工程系

出处《计算机工程与应用》 CSCD 北大核心 2007年第33期1-3,18,共4页 Computer Engineering and Applications

基金国家高技术研究发展计划(863)(the National High-Tech Researchand Development Plan of Chinaunder Grant No.2006AA012140)

关键词自然语言处理未登录词识别中文人名识别多级阈值 3σ法则 natural language processing unknnwn words reengnition Chinese personal name recognition multilevel threshold 3cr rule natural language processing unknnwn words reengnition Chinese personal name recognition multilevel threshold 3σ rule

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1Sun J,Zhou M,Gao J F.A class-based language model approach to chinese named entity identification[C]//41st ACL,SAPPORO,July 7-12,2003.ACL Press, 2003,8 ( 2 ) : 1-28.
2张华平,刘群.基于角色标注的中国人名自动识别研究[J].计算机学报,2004,27(1):85-91. 被引量：104
3孙茂松,黄昌宁,高海燕,方捷.中文姓名的自动辨识[J].中文信息学报,1995,9(2):16-27. 被引量：87
4黄德根,杨元生,王省,张艳丽,钟万勰.基于统计方法的中文姓名识别[J].中文信息学报,2001,15(2):31-37. 被引量：34
5余祖波,高庆狮,方淼.中文姓名自动识别系统的设计与实现[J].计算机工程与应用,2006,42(10):5-7. 被引量：4
6Chen K,Bai M.Unknown word detection for Chinese by a corpusbased learning method[J].Computational Linguistics and Chinese Language Processing, 1998,3 ( 1 ) : 27-44.
7Borthwick A.A maximum entropy approach to named entity recognition[D].New York:New York University.1999.
8王明慈,沈恒范.概率论与数理统计[M].北京:高等教育出版社,1996.

二级参考文献28

1季姮,罗振声.基于统计和规则的中文姓名自动辨识[J].语言文字应用,2001(1):14-18. 被引量：13
2孙茂松,黄昌宁,高海燕,方捷.中文姓名的自动辨识[J].中文信息学报,1995,9(2):16-27. 被引量：87
3吴胜远.一种汉语分词方法[J].计算机研究与发展,1996,33(4):306-311. 被引量：49
4孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳.利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J].计算机研究与发展,1997,34(5):332-339. 被引量：66
5罗智勇,宋柔.现代汉语自动分词中专名的一体化、快速识别方法[C]//Ji Dong-Hong.国际中文电脑学术会议,新加坡,2001:323-328.
6宋柔，计算语言学研究与应用，1993年
7孙茂松，计算语言学研究与应用，1993年
8郑家恒，计算语言学研究与应用，1993年
9张俊盛，中文信息学报，1992年，6卷，3期
10团体著者，姓氏人名用字分析统计，1990年

共引文献191

1成于思,施云涛.融合词典特征的Bi-LSTM-WCRF中文人名识别[J].中文信息学报,2020(4):69-76. 被引量：7
2宋凯丽,李云岭,姚露露.基于条件随机场的分词标注一体化地址解析方法[J].测绘地理信息,2021,46(S01):185-187. 被引量：4
3周蕾,朱巧明,李培峰.一种基于统计和规则的未登录词识别方法[J].南京大学学报（自然科学版）,2005,41(z1):819-825. 被引量：1
4王睿,张洁,张由仪,于禛,姚天昉.基于混合模型的中文命名实体抽取系统[J].清华大学学报（自然科学版）,2005,45(S1):1908-1914. 被引量：10
5钱爱兵,江岚.基于改进TF-IDF的中文网页关键词抽取——以新闻网页为例[J].情报理论与实践,2008,31(6):945-950. 被引量：29
6张素香,高国洋,戚银城.基于条件随机场的中国人名识别方法[J].郑州大学学报（理学版）,2009,41(2):40-43. 被引量：7
7郑炜冬.多种方法融合的中文自动分词系统的设计与实现[J].韩山师范学院学报,2009,30(6):37-43.
8陈小荷.自动分词中未登录词问题的一揽子解决方案[J].语言文字应用,1999(3):103-109. 被引量：26
9黄昌宁,孙茂松.中文信息处理最新成果的检阅——记新加坡中文电脑国际会议ICCC’96[J].当代语言学,1996(4):44-48. 被引量：1
10罗安,王勇,张福浩,刘纪平.基于角色标注的中文POI名称语义分类方法[J].测绘通报,2012(S1):521-524. 被引量：3

同被引文献13

1张素香,高国洋,戚银城.基于条件随机场的中国人名识别方法[J].郑州大学学报（理学版）,2009,41(2):40-43. 被引量：7
2李丽双,黄德根,毛婷婷,徐潇潇.基于支持向量机的中国人名的自动识别[J].计算机工程,2006,32(19):188-190. 被引量：9
3Wang Zhengyan,He Houfeng,Li Sujian.The task 2 ofCIPS-SIGHAN 2012 named entity recognition and disambiguationin Chinese bakeoff[C]//Proceedings of the2nd CIPS-SIGHAN Joint Conference on Chinese LanguageProcessing,Tianjin,China,2012:108-114.
4Carpineto C,Romano G.A survey of automatic queryexpansion in information retrieval[J].ACM ComputingSurveys(CSUR),2012,44(1).
5Chiang D,Knight K,Wang W.11,001 new features forstatistical machine translation[C]//Proceedings of HumanLanguage Technologies:The 2009 Annual Conference ofthe North American Chapter of the Association for ComputationalLinguistics,2009:218-226.
6Prettenhofer P,Stein B.Cross-language text classificationusing structural correspondence learning[C]//Proceedingsof the 48th Annual Meeting of the Association for ComputationalLinguistics,2010:1118-1127.
7Patel A,Ramakrishnan G,Bhattacharya P.Relational learningassisted construction of rule base for Indian languageNER[C]//Proceedings of the 7th International Conferenceon Natural Language Processing(ICON’09),India,2009.
8Li Lishuang,Li Zezhong,Ding Zhuoye,et al.A hybridmodel combining CRF with boundary templates for Chineseperson name recognition[J].International Journal ofAdvanced Intelligence,2010,2(1):73-80.
9Wang Z X,Zhu X T,Lu Z.A context-aware automaticChinese transliterated person names recognition approach[C]//8th International Conference on Semantics,Knowledgeand Grids(SKG),Beijing,China,2012:143-149.
10Lafferty J,McCallum A,Pereira F C N.Conditional randomfields:probabilistic models for segmenting and labelingsequence data[C]//Proceedings of the 18th InternationalConference on Machine Learning,2001:282-289.

引证文献1

1王祖兴,吕钊,顾君忠.基于混合方法的中文人名识别研究[J].计算机工程与应用,2015,51(8):211-217. 被引量：4

二级引证文献4

1曾剑平,刘华.一种基于聚集系数的人名识别方法[J].计算机工程,2016,42(7):203-208.
2栾伟锋,张欢欢.一种基于扩展模式集的中国人名识别方法[J].华东理工大学学报（自然科学版）,2018,44(3):425-430.
3禤镇宇,蒋盛益,张礼明,包睿.基于多特征Bi-LSTM-CRF的影评人名识别研究[J].中文信息学报,2019,33(3):94-101. 被引量：12
4宋希良,韩先培,孙乐.面向新类型人名识别的数据增强方法[J].中文信息学报,2019,33(6):72-79. 被引量：5

1余祖波,高庆狮,方淼.中文姓名自动识别系统的设计与实现[J].计算机工程与应用,2006,42(10):5-7. 被引量：4
2葛文英,吕靖.基于条件随机场的中文人名识别[J].安阳师范学院学报,2010(5):16-18. 被引量：1
3胡锦美,李佐勇,张祖昌.基于等周理论的自动多级阈值分割方法(英文)[J].系统仿真学报,2013,25(1):151-157. 被引量：4
4朱翔,史晓东,陈毅东.基于层次聚类的中文人名消歧方法研究[J].心智与计算,2010,0(4):236-241. 被引量：1
5唐钊.条件随机场模型在中文人名识别中的研究与实现[J].现代计算机,2012,18(14):3-7. 被引量：7
6邱莎,段玻,申浩如,丁海燕.基于条件随机场的中文人名识别研究[J].昆明学院学报,2011,33(6):64-66. 被引量：3
7聂方彦,高潮,郭永彩.灰度图像的模糊Renyi熵多级阈值分割方法[J].系统工程与电子技术,2010,32(5):1055-1059. 被引量：7
8蒋才智,王浩,姚宏亮.基于知网的贝叶斯中文人名识别[J].南京大学学报（自然科学版）,2012,48(2):147-153. 被引量：4
9姜伟.基于规则的中文人名识别与抽取关键技术研究[J].科技创新导报,2012,9(28):65-66. 被引量：5
10高红,黄德根,杨元生.一种与分词一体化的中文人名识别方法[J].计算机工程,2006,32(19):9-10. 被引量：2

计算机工程与应用

2007年第33期

浏览历史

内容加载中请稍等...

基于多级阈值的中文人名识别被引量：1

参考文献8

二级参考文献28

共引文献191

同被引文献13

引证文献1

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于多级阈值的中文人名识别 被引量：1

参考文献8

二级参考文献28

共引文献191

同被引文献13

引证文献1

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于多级阈值的中文人名识别被引量：1