基于混合方法的中文人名识别研究被引量：4

Hybrid method for Chinese person name recognition

下载PDF

导出

摘要当前中文人名识别的研究主要针对中国人名,而对日本人名及音译人名的专门研究相对较少,识别效果也亟待提高。提出利用CRRM方法进行中、日及音译人名同步识别。该方法基于CRF(Conditional Random Fields)并结合了上下文规则及人名可信度模型。此外,利用局部统计算法对边界识别错误的人名进行修正,并利用扩散操作召回未被识别的人名。实验结果表明,中、日、音译人名识别的F值均高于90%,提出的方法可以取得较好的识别效果。 Most of existing researches mainly focus on recognizing the names of Chinese person while seldom specializing in recognizing Japanese and transliterated person names. This paper proposes a method based on CRF and combines per-son name reliability model and contextual rules（simply, CRRM）to recognize the person names in Chinese sentences. Partial frequency statistical algorithm is also used to revise the misrecognized boundary of names and proliferation opera-tion is used to recall those unrecognized names with the already recognized one. Experiments based on a true dataset show that this approach is efficient in recognizing the person names from Chinese texts. The F-value for recognition of Chinese person name, Japanese name and transliterated person name is higher than 90%.

作者王祖兴吕钊顾君忠

机构地区华东师范大学计算机科学技术系

出处《计算机工程与应用》 CSCD 北大核心 2015年第8期211-217,共7页 Computer Engineering and Applications

基金上海市科学技术基金(No.11511504002 No.13511507902)

关键词中文人名识别条件随机域(CRF)模型人名可信度模型上下文规则边缘概率 Chinese person name recognition Conditional Random Fields（CRF）model person name reliability model contextual rules marginal probability

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献14

1Wang Zhengyan,He Houfeng,Li Sujian.The task 2 ofCIPS-SIGHAN 2012 named entity recognition and disambiguationin Chinese bakeoff[C]//Proceedings of the2nd CIPS-SIGHAN Joint Conference on Chinese LanguageProcessing,Tianjin,China,2012:108-114.
2Carpineto C,Romano G.A survey of automatic queryexpansion in information retrieval[J].ACM ComputingSurveys(CSUR),2012,44(1).
3Chiang D,Knight K,Wang W.11,001 new features forstatistical machine translation[C]//Proceedings of HumanLanguage Technologies:The 2009 Annual Conference ofthe North American Chapter of the Association for ComputationalLinguistics,2009:218-226.
4Prettenhofer P,Stein B.Cross-language text classificationusing structural correspondence learning[C]//Proceedingsof the 48th Annual Meeting of the Association for ComputationalLinguistics,2010:1118-1127.
5姜伟.基于规则的中文人名识别与抽取关键技术研究[J].科技创新导报,2012,9(28):65-66. 被引量：5
6Patel A,Ramakrishnan G,Bhattacharya P.Relational learningassisted construction of rule base for Indian languageNER[C]//Proceedings of the 7th International Conferenceon Natural Language Processing(ICON’09),India,2009.
7李丽双,黄德根,毛婷婷,徐潇潇.基于支持向量机的中国人名的自动识别[J].计算机工程,2006,32(19):188-190. 被引量：9
8张素香,高国洋,戚银城.基于条件随机场的中国人名识别方法[J].郑州大学学报（理学版）,2009,41(2):40-43. 被引量：7
9Li Lishuang,Li Zezhong,Ding Zhuoye,et al.A hybridmodel combining CRF with boundary templates for Chineseperson name recognition[J].International Journal ofAdvanced Intelligence,2010,2(1):73-80.
10Wang Z X,Zhu X T,Lu Z.A context-aware automaticChinese transliterated person names recognition approach[C]//8th International Conference on Semantics,Knowledgeand Grids(SKG),Beijing,China,2012:143-149.

二级参考文献18

1车万翔,刘挺,李生.实体关系自动抽取[J].中文信息学报,2005,19(2):1-6. 被引量：116
2孙茂松,黄昌宁,高海燕,方捷.中文姓名的自动辨识[J].中文信息学报,1995,9(2):16-27. 被引量：87
3余祖波,高庆狮,方淼.中文姓名自动识别系统的设计与实现[J].计算机工程与应用,2006,42(10):5-7. 被引量：4
4李中国,刘颖.边界模板和局部统计相结合的中国人名识别[J].中文信息学报,2006,20(5):44-50. 被引量：13
5毛婷婷,李丽双,黄德根.基于混合模型的中国人名自动识别[J].中文信息学报,2007,21(2):22-28. 被引量：10
6刘迁,焦慧,贾惠波.信息抽取技术的发展现状及构建方法的研究[J].计算机应用研究,2007,24(7):6-9. 被引量：41
7Vapnik V N.Statistical Learning Theory[M].New York:John Wiley &Sons,1998.
8陈春荣.基于SVM的中文地名识别[D].大连:大连理工大学,2004.
9Sun J,Zhou M,Gao J F.A class-based language model approach to chinese named entity identification[C]//41st ACL,SAPPORO,July 7-12,2003.ACL Press, 2003,8 ( 2 ) : 1-28.
10Chen K,Bai M.Unknown word detection for Chinese by a corpusbased learning method[J].Computational Linguistics and Chinese Language Processing, 1998,3 ( 1 ) : 27-44.

共引文献18

1成于思,施云涛.融合词典特征的Bi-LSTM-WCRF中文人名识别[J].中文信息学报,2020(4):69-76. 被引量：7
2赵伟,李丹.SVM与错误驱动学习相结合的中文人名识别[J].长春工业大学学报,2009,30(4):396-400. 被引量：3
3戴播,毛奇,袁春风.一种基于共坐标上升算法的人名识别方法[J].计算机应用与软件,2010,27(4):7-9. 被引量：2
4窦嵘,加羊吉,黄伟.统计与规则相结合的藏文人名自动识别研究[J].长春工程学院学报（自然科学版）,2010,11(2):113-115. 被引量：9
5滕青青,吉久明,郑荣廷,李楠.基于文献的中文命名实体识别算法适用性分析研究[J].情报杂志,2010,29(9):157-161. 被引量：9
6施水才,王锴,韩艳铧,吕学强.基于条件随机场的领域术语识别研究[J].计算机工程与应用,2013,49(10):147-149. 被引量：14
7加羊吉,李亚超,宗成庆,于洪志.最大熵和条件随机场模型相融合的藏文人名识别[J].中文信息学报,2014,28(1):107-112. 被引量：21
8康才畯,龙从军,江荻.基于条件随机场的藏文人名识别研究[J].计算机工程与应用,2015,51(3):109-111. 被引量：10
9曾剑平,刘华.一种基于聚集系数的人名识别方法[J].计算机工程,2016,42(7):203-208.
10朱丽萍,刘蔷,苏斐,杨中国,王显灿.科技文献的实验语料句抽取方法[J].计算机工程与设计,2016,37(11):3086-3091. 被引量：2

同被引文献23

1张素香,高国洋,戚银城.基于条件随机场的中国人名识别方法[J].郑州大学学报（理学版）,2009,41(2):40-43. 被引量：7
2俞鸿魁,张华平,刘群,吕学强,施水才.基于层叠隐马尔可夫模型的中文命名实体识别[J].通信学报,2006,27(2):87-94. 被引量：157
3周波,杨国纬.基于贝叶斯算法的中国人名识别[J].计算机应用,2006,26(4):998-1000. 被引量：12
4李中国,刘颖.边界模板和局部统计相结合的中国人名识别[J].中文信息学报,2006,20(5):44-50. 被引量：13
5李丽双,黄德根,毛婷婷,徐潇潇.基于支持向量机的中国人名的自动识别[J].计算机工程,2006,32(19):188-190. 被引量：9
6Duan Jiangjiao,Zeng Jianping.Web Objectionable Text Content Detection Using Topic Modeling Technique[J].Expert Systems with Applications,2013,40(15):6094-6104.
7Shaalan K,Oudah M.A Hybrid Approach to Arabic Named Entity Recognition[J].Journal of Information Science,2015,41(1):114-124.
8Wu Chengrong,Gong Linghui,Zeng Jianping.Multidocument Chinese Name Disambiguation Based on Latent Semantic Analysis[C]//Proceedings of International Conference on Fuzzy Systems&Knowledge Discovery.New York,USA:ACM Press,2010:2367-2371.
9杨博,刘大有,LIU Jiming,金弟,马海宾.复杂网络聚类方法[J].软件学报,2009,20(1):54-66. 被引量：209
10王昊,苏新宁.基于CRFs的角色标注人名识别模型在网络舆情分析中的应用[J].情报学报,2009,28(1):88-96. 被引量：13

引证文献4

1曾剑平,刘华.一种基于聚集系数的人名识别方法[J].计算机工程,2016,42(7):203-208.
2栾伟锋,张欢欢.一种基于扩展模式集的中国人名识别方法[J].华东理工大学学报（自然科学版）,2018,44(3):425-430.
3禤镇宇,蒋盛益,张礼明,包睿.基于多特征Bi-LSTM-CRF的影评人名识别研究[J].中文信息学报,2019,33(3):94-101. 被引量：12
4宋希良,韩先培,孙乐.面向新类型人名识别的数据增强方法[J].中文信息学报,2019,33(6):72-79. 被引量：5

二级引证文献16

1王海宁,周菊香,徐天伟.融合深度学习与规则的民族工艺品领域命名实体识别[J].云南师范大学学报（自然科学版）,2020,40(2):48-54. 被引量：3
2依力达尔·依明.特定领域的命名实体识别方法的研究[J].电脑知识与技术,2020,16(8):208-210.
3莫天金,李韧,杨建喜,李童,蒋仕新,李东.公路桥梁定期检测领域命名实体识别语料库构建[J].计算机应用,2020,40(S01):103-108. 被引量：6
4余本功,范招娣.面向自然语言处理的条件随机场模型研究综述[J].信息资源管理学报,2020,10(5):96-111. 被引量：18
5余传明,黄婷婷,林虹君,安璐.基于标签迁移和深度学习的跨语言实体抽取研究[J].现代情报,2020,40(12):3-16. 被引量：4
6郭晓然,王维兰,罗平.汉译藏传佛教典籍中的神灵命名实体识别方法研究[J].高原科学研究,2020,4(4):87-94. 被引量：1
7赵理金.一种基于BiLSTM-CRF的命名实体识别方法研究[J].电脑与信息技术,2021,29(2):8-11. 被引量：5
8李韧,李童,杨建喜,莫天金,蒋仕新,李东.基于Transformer-BiLSTM-CRF的桥梁检测领域命名实体识别[J].中文信息学报,2021,35(4):83-91. 被引量：17
9张岑芳.基于主动学习的命名实体识别算法[J].计算机与现代化,2021(7):18-22. 被引量：2
10孙学军,李长银.物联网通信大数据库半结构化数据识别方法[J].计算机仿真,2021,38(11):323-326. 被引量：1

1葛文英,吕靖.基于条件随机场的中文人名识别[J].安阳师范学院学报,2010(5):16-18. 被引量：1
2朱翔,史晓东,陈毅东.基于层次聚类的中文人名消歧方法研究[J].心智与计算,2010,0(4):236-241. 被引量：1
3唐钊.条件随机场模型在中文人名识别中的研究与实现[J].现代计算机,2012,18(14):3-7. 被引量：7
4邱莎,段玻,申浩如,丁海燕.基于条件随机场的中文人名识别研究[J].昆明学院学报,2011,33(6):64-66. 被引量：3
5蒋才智,王浩,姚宏亮.基于知网的贝叶斯中文人名识别[J].南京大学学报（自然科学版）,2012,48(2):147-153. 被引量：4
6罗彦彦,黄德根.基于CRFs边缘概率的中文分词[J].中文信息学报,2009,23(5):3-8. 被引量：19
7李培峰,朱巧明,钱培德.基于Web的大规模语料库构建方法[J].计算机工程,2008,34(7):41-43. 被引量：8
8任平,吴陈,雷艳方,李丛.基于可信度模型的HITS算法的改进[J].科学技术与工程,2009,9(21):6390-6394.
9倪吉,孔芳,朱巧明,李培峰.基于可信度模型的中文人名识别研究[J].中文信息学报,2011,25(3):45-50. 被引量：6
10冉崇善,车育.基于快速移动节点的Ad hoc网络可信度模型及可信路由协议[J].西北大学学报（自然科学版）,2015,45(2):213-217. 被引量：1

计算机工程与应用

2015年第8期

浏览历史

内容加载中请稍等...

基于混合方法的中文人名识别研究被引量：4

参考文献14

二级参考文献18

共引文献18

同被引文献23

引证文献4

二级引证文献16

相关作者

相关机构

相关主题

浏览历史

基于混合方法的中文人名识别研究 被引量：4

参考文献14

二级参考文献18

共引文献18

同被引文献23

引证文献4

二级引证文献16

相关作者

相关机构

相关主题

浏览历史

基于混合方法的中文人名识别研究被引量：4