基于混合统计模型的汉语命名实体识别方法被引量：20

A Mixed Statistical Model-Based Method for Chinese Named Entity Recognition

下载PDF

导出

摘要本文针对三种重要的命名实体,即人名、地名、组织名,提出了一种隐马尔可夫模型(HMM)和最大熵模型(ME)相结合的汉语命名实体识别的方法。该方法的特点在于使命名实体识别和词性标注两个任务一体化;融合两种统计模型进行命名实体识别,其中HMM从整体上(句子范围内)对命名实体识别进行约束,ME则在局部范围内(当前词的上下文范围)估计一个词串被标记为某种命名实体的概率。实验表明,这种方法能较好地识别上述三种命名实体。 This paper presents a method for Chinese Named Entity （NE） recognition using a mixed statistical model. Our NE recognition concentrates on three types of NEs personal names, location names and organization names. This method is characterized as the following two aspects. At first, it provides a unified framework tO incorporate NE recognition and Part-of-Speech lagging together. Secondly, it makes use of two statistical models, taking HMM to contrain the recogni tion in the scope of a sentence, taking ME to calculate the probability of the entity in the context. Experimental results show that the method can effectively recognize the above-mentioned three named entities.

作者张晓艳王挺陈火旺

机构地区国防科技大学计算机学院

出处《计算机工程与科学》 CSCD 2006年第6期135-139,共5页 Computer Engineering & Science

基金国家自然科学基金资助项目(60403050)

关键词命名实体识别隐马尔可夫模型最大熵模型 named entity recognition Hidden Markov Model （HMM） maximum entropy model （ME）

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献13

1Beth M Sundheim.Named Entity Task Definition.Version 2.1[A].Proc of the 6th Message Understanding Conf[C].1995.319-332.
2H H Chen,Y W Ding,S C Tsai.et al.Description of the NTU System Used for MET2[A].Proc of 7th Message Understanding Conf[C].1998.
3W J Black,F Rinaldi,D Mowatt.Facile:Description of the NE System Used For MUC-7[A].Proc of 7th Message Understanding Conf[C].1998.
4J Fukumoto,M Shimohata,F Masui,et al.Oki Electric Industry:Description of the Oki System as Used for MET-2[A].Proc of 7th Message Understanding Conf[C].1998.
5GuoDong Zhou,Jian Su.Named Entity Recognition Using an HMM-Based Chunk Tagger[A].Proc of the 40th Annual Meeting of the ACL[C].2002.473-480.
6Adwait Ratnaparkhi.A Simple Introduction to Maximum Entropy Models for Natural Language Processing[R].Technical Report 97-08,Institute for Research in Cognitive Science,University of Pennsylvania,1997.
7S Sekine,R Grishman,H Shinou.A Decision Tree Method for Finding and Classifying Names in Japanese Texts[A].Proc of the 6th Workshop on Very Large Corpora[C].1998.
8E Brill.Transform-Based Error-Driven Learning and Natural Language Processing:A Case Study in Part-of-Speech Tagging[J].Computational Linguistics,1995,21(4):543-565.
9M Collins.Ranking Algorithms for Named-Entity Extraction:Boosting and the Voted Perception[A].Proc of the 40th Annual Meeting of the ACL[C].2002.489-496.
10M Jansche.Named Entity Extraction with Conditional Markov Models and Classifiers[A].The 6th Conf on Natural Language Learning[C].2002.

二级参考文献22

1E F T K Sang, W Daelemans, H Déjean et al. Applying system combination to base noun phrase identification. In: Proc of COLING 2000. Saarbrücken, Germany: Morgan Kaufmann Publishers, 2000. 857～863
2周明 .基于语料库的中文最长名词短语的自动抽取.见:计算语言进展与应用.北京,清华大学出版社,1995. 50-55(Zhou Ming. Corpus-based Chinese maximum noun phrase extraction. In: Computer Linguistic Development and Application(in Chinese). Beijing: Tsinghua University Press, 1995. 50-55)
3K W Church. A stochastic parts program and noun phrase for unrestricted test. In: Proc of the 2nd Conf on Applied Natural Language Processing. Austin, TX, USA: Kluwer Academic Publishers, 1988. 136～143
4S P Abney. Parsing by Chunks. In: R C Berwick, S P Abney eds. PrincipleBased Parsing: Computation and Psycholinguistics. Boston, USA: Kluwer Academic Publishers, 1991. 257～278
5L A Ramshaw, M P Marcus. Text chunking using transformation-based learning. In: Proc of the 3rd Workshop on Very Large Corpora. Kluwer Academic Publishers, 1995. 82～94
6A Ratnaparkhi. Learning to parse natural language with maximum entropy models. Machine Learning, 1999, 34(1/2/3): 151～176
7范晓.静态短语和动态短语. 见:三个平面的语法观 .北京:北京语言文化大学出版社,1996(Fan Xiao. Static phrase and dynamic phrase. In: Grammar Concept from Three Sides(in Chinese). Beijing: Beijing Linguistic Culture College Publisher, 1996)
8R Koeling. Chunking with maximum entropy models. In: Proc of CoNLL 2000. Lisbon, Portagal: Lingustic Association for Computation, 2000
9A L Berger, S A D Pietra, V J D Pietra. A maximum entropy approach to natural language processing. Computational Linguistics, 1996, 22(1):39～71
10A L Berger. The improved iterative scaling algorithm: A gentle introduction. School of Computer Science, Carnegin Mellon University, 1997

共引文献61

1李剑锋,胡国平,王仁华.基于最大熵模型的韵律短语边界预测[J].中文信息学报,2004,18(5):56-63. 被引量：20
2陈晓明,周渝.汉语部分句法分析的研究和发展趋势[J].贵州大学学报（自然科学版）,2004,21(4):384-386. 被引量：2
3干俊伟,黄德根.汉语介词短语的自动识别[J].中文信息学报,2005,19(4):17-23. 被引量：14
4王建会,王雷,胡运发.词语间依存关系的定量识别[J].中文信息学报,2005,19(4):31-38. 被引量：3
5冯丽萍,焦莉娟.基于最大熵的中文组织机构名识别模型[J].计算机与数字工程,2010,38(12):36-40. 被引量：2
6余正涛,樊孝忠.基于最大熵模型的汉语问句语义组块分析[J].计算机工程,2005,31(17):3-5. 被引量：5
7冯冲,陈肇雄,黄河燕,王江伟.最大熵模型的树-栅格最优N解码算法[J].计算机科学,2005,32(10):167-169. 被引量：1
8张仰森,曹元大,俞士汶.最大熵方法中特征选择算法的改进与纠错排歧[J].北京理工大学学报,2006,26(1):36-40. 被引量：4
9周雅倩,黄萱菁,吴立德.一种特征匹配方法:稀疏特征树[J].软件学报,2006,17(5):1026-1033. 被引量：1
10刘贵全,曾宇斌.基于最大熵模型的汉语依存分析[J].计算机工程,2006,32(11):216-218. 被引量：2

同被引文献223

1刘石,李飞跃.大数据技术与传统文献学的现代转型[J].中国社会科学,2021(2):63-81. 被引量：39
2赵薇.数字时代人文学研究的变革与超越——数字人文在中国[J].探索与争鸣,2021(6):191-206. 被引量：33
3李妮,关焕梅,杨飘,董文永.基于BERT-IDCNN-CRF的中文命名实体识别方法[J].山东大学学报（理学版）,2020,55(1):102-109. 被引量：55
4刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
5张晓艳,王挺,陈火旺.命名实体识别研究[J].计算机科学,2005,32(4):44-48. 被引量：67
6孙茂松,黄昌宁,高海燕,方捷.中文姓名的自动辨识[J].中文信息学报,1995,9(2):16-27. 被引量：87
7向晓雯,史晓东,曾华琳.一个统计与规则相结合的中文命名实体识别系统[J].计算机应用,2005,25(10):2404-2406. 被引量：37
8乐小虬,杨崇俊,刘冬林.空间命名实体的识别[J].计算机工程,2005,31(20):49-50. 被引量：7
9赖擎,曹力立.受限领域中文问答系统的中心句识别的研究[J].计算机时代,2006(2):46-48. 被引量：1
10刘非凡,赵军,吕碧波,徐波,于浩,夏迎炬.面向商务信息抽取的产品命名实体识别研究[J].中文信息学报,2006,20(1):7-13. 被引量：47

引证文献20

1陈义,胡志宇,曾玮,吴相录.税务业务咨询问答系统[J].计算机应用与软件,2007,24(2):112-115. 被引量：1
2王丹,樊兴华.面向短文本的命名实体识别[J].计算机应用,2009,29(1):143-145. 被引量：18
3夏赟,李志蜀.基于统计的中文机构名自动识别[J].四川大学学报（自然科学版）,2009,46(3):613-617. 被引量：1
4唐旭日,陈小荷,许超,李斌.基于篇章的中文地名识别研究[J].中文信息学报,2010,24(2):24-32. 被引量：18
5罗芳,熊前兴,肖敏.基于本体的产品命名实体识别研究[J].武汉理工大学学报（信息与管理工程版）,2011,33(6):948-952. 被引量：3
6木合塔尔.艾尔肯,艾斯卡尔.艾木都拉,地里木拉提.吐尔逊.基于规则的维吾尔地名识别[J].通信技术,2013,46(7):103-105. 被引量：9
7栗伟,赵大哲,李博,彭新茗,刘积仁.CRF与规则相结合的医学病历实体识别[J].计算机应用研究,2015,32(4):1082-1086. 被引量：41
8艾孜尔古丽,米尔夏提,玉素甫.艾白都拉.现代维吾尔语词干词类标注标记集验证性研究[J].计算机工程与科学,2015,37(12):2318-2323. 被引量：2
9刘浏,王东波.命名实体识别研究综述[J].情报学报,2018,37(3):329-340. 被引量：151
10秦娅,申国伟,余红星.基于Hadoop的大规模网络安全实体识别方法[J].智能系统学报,2019,14(5):1017-1025. 被引量：14

二级引证文献313

1陈业明,戴齐,刘捷.融合字位置特征的铁路事故命名实体识别[J].计算机系统应用,2022,31(12):211-219. 被引量：3
2刘雨可,周申培,石英,杜家宝.面向配网一次设备缺陷文本命名实体识别研究[J].武汉理工大学学报,2022,44(10):93-101. 被引量：2
3李书琴,张明美,刘斌.融合字词语义信息的猕猴桃种植领域命名实体识别研究[J].农业机械学报,2022,53(12):323-331. 被引量：5
4刘新亮,张梦琪,谷情,任延昭,何东彬,高万林.基于BERT-CRF模型的生鲜蛋供应链命名实体识别[J].农业机械学报,2021,52(S01):519-525. 被引量：12
5张坤丽,赵旭,关同峰,尚柏羽,李羽蒙,昝红英.面向医疗文本的实体及关系标注平台的构建及应用[J].中文信息学报,2020,34(6):36-44. 被引量：14
6熊奥,高畅,赵明辉,张玲玲.基于知识图谱的核电设备健康管理知识建模与分析[J].科技促进发展,2021,17(4):640-649. 被引量：10
7顾佼佼,翟一琛,姬嗣愚,宗富强.基于BERT和知识蒸馏的航空维修领域命名实体识别[J].电子测量技术,2023,46(3):19-24. 被引量：3
8苏小虎,杨思春.基于改进VSM的中文问答系统研究[J].情报理论与实践,2008,31(4):624-627. 被引量：3
9孙镇,王惠临.命名实体识别研究进展综述[J].现代图书情报技术,2010(6):42-47. 被引量：100
10佘俊,张学清.音乐命名实体识别方法[J].计算机应用,2010,30(11):2928-2931. 被引量：8

1张玥杰,徐智婷,薛向阳.融合多特征的最大熵汉语命名实体识别模型[J].计算机研究与发展,2008,45(6):1004-1010. 被引量：33
2孙斌.信息提取技术概述(下)[J].术语标准化与信息技术,2003(1):34-37. 被引量：11
3林雄鹰,黄宇光.基于规则和混合统计模型的中文地名识别研究[J].高性能计算技术,2012,0(1):31-35.
4殷明,刘卫.非下采样Contourlet变换域混合统计模型图像去噪[J].光子学报,2012,41(6):751-756. 被引量：10
5孙季丰,仝雪珂,谭丽.基于混合统计模型的DNA序列压缩算法[J].华南理工大学学报（自然科学版）,2014,42(3):8-14.
6刘刚,王明静,周珩,张喜涛.非下采样轮廓波域混合统计模型红外图像降噪方法[J].航空兵器,2016,23(5):66-70. 被引量：1
7周法国,王映龙,杨炳儒,宋泽锋.非结构化信息抽取关键技术研究探讨[J].计算机工程与应用,2009,45(14):1-6. 被引量：10
8闫河,余永辉,赵明富.基于移不变抗混叠轮廓波变换的混合统计模型图像降噪[J].光学精密工程,2010,18(10):2269-2279. 被引量：3
9谭魏璇,孔芳,倪吉,周国栋.基于混合统计模型的中文基本名词短语识别[J].计算机应用与软件,2011,28(8):254-256. 被引量：3
10殷明,刘卫.基于四元数小波混合统计模型的图像去噪[J].图学学报,2012,33(2):77-82. 被引量：2

计算机工程与科学

2006年第6期

浏览历史

内容加载中请稍等...

基于混合统计模型的汉语命名实体识别方法被引量：20

参考文献13

二级参考文献22

共引文献61

同被引文献223

引证文献20

二级引证文献313

相关作者

相关机构

相关主题

浏览历史

基于混合统计模型的汉语命名实体识别方法 被引量：20

参考文献13

二级参考文献22

共引文献61

同被引文献223

引证文献20

二级引证文献313

相关作者

相关机构

相关主题

浏览历史

基于混合统计模型的汉语命名实体识别方法被引量：20