基于单字提示特征的中文命名实体识别快速算法被引量：24

A Rapid Algorithm to Chinese Named Entity Recognition Based on Single Character Hints

下载PDF

导出

摘要近年来条件随机场(CRF)模型在自然语言处理中的应用越来越广泛。标准的线性链(Linear-chain)模型一般采用L-BFGS参数估计方法,收敛速度慢。本文在分析模型复杂度的基础上提出了一种改进的快速CRF算法。该算法通过引入小规模单字特征降低特征的规模,并通过在推理过程中引入任务相关的人工知识压缩Viterbi和Baum-Welch格搜索空间,提高了训练的速度。在中文863命名实体识别评测语料和SIGHAN06语料集上进行的实验表明,该算法在不影响中文命名实体识别精度的同时,有效地降低了模型的训练代价。 Conditional Random Fields （CRF） model becomes prevalent for sequential labeling tasks in the field of NLP. A general but slow optimization algorithm L-BFGS is commonly used in parameter estimation of CRF Model. In this paper, an improved algorithm is proposed to train CRF model more quickly. First, small scale character hint features are introduced to decrease the feature space. Then, a task-specific rule is applied to reduce search paths in Viterbi and Baum-Welch procedure. The experiments on China 863 program NER and SIGHAN 2006 corpora show that our schema saves training time significantly without performance drop.

作者冯元勇孙乐李文波张大鲲

机构地区中国科学院软件研究所中文信息处理中心

出处《中文信息学报》 CSCD 北大核心 2008年第1期104-110,共7页 Journal of Chinese Information Processing

基金国家自然科学基金资助项目(60773027,60736044) 国家863计划重点资助项目(2006AA010108) 国家242计划资助项目(2006A40) 国家语委资助项目(MZ115-021)

关键词计算机应用中文信息处理中文命名实体识别条件随机场自然语言处理机器学习 computer application Chinese information processing Chinese named entity recognition conditionalrandom fields model natural language processing machine learning

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献24

1张小衡,王玲玲.中文机构名称的识别与分析[J].中文信息学报,1997,11(4):21-32. 被引量：84
2Tzong-Han Tsai,Shih-Hung Wu,Cheng-Wei Lee,et al.Mencius:A Chinese Named Entity Recognizer Using the Maximum Entropy-based Hybrid Model[A].International Journal of Computational Linguistics & Chinese Language Processing[C].2004,9(1):65-81.
3刘非凡,赵军,吕碧波,徐波,于浩,夏迎炬.面向商务信息抽取的产品命名实体识别研究[J].中文信息学报,2006,20(1):7-13. 被引量：47
4Youzheng Wu,Jun Zhao,Bo Xu,et al.Chinese Named Entity Recognition Based on Multiple Features[A].In:Proceedings of HLT/EMNLP[C].Vancouver:October 2005,427-434.
5俞鸿魁,张华平,刘群,吕学强,施水才.基于层叠隐马尔可夫模型的中文命名实体识别[J].通信学报,2006,27(2):87-94. 被引量：160
6Yuanyong Feng,Le Sun,Junlin Zhang.Early Results for Chinese Named Entity Recognition Using Conditional Random Fields Model,HMM and Maximum Entropy[A].IEEE Natural Language Processing & Knowledge Engineering[C].Beijing:Publishing House,BUPT,2005.549-552.
7Andrew McCallum,Wei Li.Early Results for Named Entity Recognition with Conditional Random Fields,Feature Induction and Web-Enhanced Lexicons[A].Seventh ConNLL[C].Edmonton,Canada:2003.188-191.
8Yuanyong Feng,Le Sun,Yuanhua Lv.Chinese Word Segmentation and Named Entity Recognition Based on Conditional Random Fields Models[A].The Third International Chinese Language Processing Bakeoff[C].Sydney,Australia:2006.181-184.
9Junsheng Zhou,Liang He,Xinyu Dai,et al.Chinese Named Entity Recognition with a Multi-Phase Model[A].The Third International Chinese Language Processing Bakeoff[C].Sydney,Australia:2006.213-216.
10Aitao Chen,Fuchun Peng,Roy Shan,et al.Chinese Named Entity Recognition with Conditional Probabilistic Models[A].The Third International Chinese Language Processing Bakeoff[C].Sydney,Australia:2006.173-176.

二级参考文献38

1刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
2孙茂松,黄昌宁,高海燕,方捷.中文姓名的自动辨识[J].中文信息学报,1995,9(2):16-27. 被引量：87
3张小衡.从“qinghuadaxue”谈起逐步实现中文智能输入[J].中文信息,1996,13(5):3-5. 被引量：1
4沈达阳孙茂松黄昌宁.中文地名的自动识别[A]..计算语言学进展与应用[C].北京:清华大学出版社,1995..
5郑家恒李鑫.基于语科库的中文姓名识别方法研究[J].中文信息学报,1999,14(1).
6张茂松，中文信息学报，1995年，9卷，2期，16页
7沈达阳，计算语言学进展与应用，1995年，68页
8陈光磊，汉语词法论，1994年，27页
9陆丙甫，核心推导语法，1993年
10郑家恒，计算语言学进展与应用，1993年，139页

共引文献318

1彭骁男,周兰江,张建安,周枫.融合多特征的老挝语人名地名命名实体识别[J].中国水运（下半月）,2020,20(3):74-77. 被引量：1
2成于思,施云涛.融合词典特征的Bi-LSTM-WCRF中文人名识别[J].中文信息学报,2020(4):69-76. 被引量：7
3姚露露,李云岭,宋凯丽.中文地名地址标注方法研究[J].测绘地理信息,2021,46(S01):182-184. 被引量：1
4王睿,张洁,张由仪,于禛,姚天昉.基于混合模型的中文命名实体抽取系统[J].清华大学学报（自然科学版）,2005,45(S1):1908-1914. 被引量：10
5杨霞,黄陈英.基于HMM的中文姓名识别方法研究[J].硅谷,2009,2(3).
6王建新.我国在语料库语言学研究方面的部分进展(概述)[J].外语与外语教学,1999(3):18-20. 被引量：10
7陈小荷.自动分词中未登录词问题的一揽子解决方案[J].语言文字应用,1999(3):103-109. 被引量：26
8罗安,王勇,张福浩,刘纪平.基于角色标注的中文POI名称语义分类方法[J].测绘通报,2012(S1):521-524. 被引量：3
9孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
10李丽双,黄德根,陈春荣,杨元生.用支持向量机进行中文地名识别的研究[J].小型微型计算机系统,2005,26(8):1416-1419. 被引量：10

同被引文献285

1陈美杉,夏晨曦.肝癌患者在线提问的命名实体识别研究:一种基于迁移学习的方法[J].数据分析与知识发现,2019,3(12):61-69. 被引量：15
2李妮,关焕梅,杨飘,董文永.基于BERT-IDCNN-CRF的中文命名实体识别方法[J].山东大学学报（理学版）,2020,55(1):102-109. 被引量：55
3张瑞霞,肖汉.基于知网的词图构造[J].华北水利水电学院学报,2008(3):53-56. 被引量：6
4HE Li1,2, LI ZhengLin1,3 & PENG ZhaoHui1 1 National Laboratory of Acoustics, Institute of Acoustics, Chinese Academy of Sciences, Beijing 100190, China,2 Institute of Geology and Geophysics, Chinese Academy of Sciences, Beijing 100029, China,3 NanHai Laboratory of Acoustics, Institute of Acoustics, Chinese Academy of Sciences, Haikou 570206, China.Ambient noise near the sea-route[J].Science China(Physics,Mechanics & Astronomy),2009,52(1):40-45. 被引量：5
5刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
6黄德根,马玉霞,杨元生.基于互信息的中文姓名识别方法[J].大连理工大学学报,2004,44(5):744-748. 被引量：12
7黄发良,钟智.用于分类的支持向量机[J].广西师范学院学报（自然科学版）,2004,21(3):75-78. 被引量：14
8罗智勇 ,宋柔 .一种基于可信度的人名识别方法[J].中文信息学报,2005,19(3):67-72. 被引量：20
9张晓艳,王挺,陈火旺.命名实体识别研究[J].计算机科学,2005,32(4):44-48. 被引量：67
10孙茂松,黄昌宁,高海燕,方捷.中文姓名的自动辨识[J].中文信息学报,1995,9(2):16-27. 被引量：87

引证文献24

1郭剑毅,薛征山,余正涛,张志坤,张宜浩,姚贤明.基于层叠条件随机场的旅游领域命名实体识别[J].中文信息学报,2009,23(5):47-52. 被引量：37
2刘杰.基于统计的中文机构名实体识别的研究[J].佳木斯大学学报（自然科学版）,2010,28(3):349-351. 被引量：1
3孙镇,王惠临.命名实体识别研究进展综述[J].现代图书情报技术,2010(6):42-47. 被引量：100
4滕青青,吉久明,郑荣廷,李楠.基于文献的中文命名实体识别算法适用性分析研究[J].情报杂志,2010,29(9):157-161. 被引量：9
5赵伟,侯宏旭,从伟,宋美娜.基于条件随机场的蒙古语词切分研究[J].中文信息学报,2010,24(5):31-35. 被引量：13
6杨晓东,晏立,尤慧丽.CCRF与规则相结合的中文机构名识别[J].计算机工程,2011,37(8):169-171. 被引量：6
7李丽双,党延忠,廖文平,黄德根,张颖.CRF与规则相结合的中文地名识别[J].大连理工大学学报,2012,52(2):285-289. 被引量：17
8张瑞霞,杨国增,闫新庆.基于知网的汉语普通未登录词语义分析模型[J].计算机应用与软件,2012,29(8):126-130. 被引量：4
9李颖,王青海,池毓焕.句类分析准则在作战文书地名识别中的应用[J].计算机工程与设计,2013,34(8):2903-2907. 被引量：3
10周顺平,沈露雯,杨林.VGI集成于中文数字地名词典的研究[J].计算机应用研究,2013,30(11):3287-3291. 被引量：2

二级引证文献434

1陈业明,戴齐,刘捷.融合字位置特征的铁路事故命名实体识别[J].计算机系统应用,2022,31(12):211-219. 被引量：3
2贺金龙,付立军,姚郑,吕鹏飞,黄徐胜.基于网格LSTM混合算法的地质领域用户意图识别[J].计算机系统应用,2020(10):44-52. 被引量：1
3孔静静,于琦,李敬华,于彤,张竹绿,田野,祖雅琪.实体抽取综述及其在中医药领域的应用[J].世界科学技术-中医药现代化,2022,24(8):2957-2963. 被引量：6
4刘雨可,周申培,石英,杜家宝.面向配网一次设备缺陷文本命名实体识别研究[J].武汉理工大学学报,2022,44(10):93-101. 被引量：2
5李书琴,张明美,刘斌.融合字词语义信息的猕猴桃种植领域命名实体识别研究[J].农业机械学报,2022,53(12):323-331. 被引量：5
6刘新亮,张梦琪,谷情,任延昭,何东彬,高万林.基于BERT-CRF模型的生鲜蛋供应链命名实体识别[J].农业机械学报,2021,52(S01):519-525. 被引量：12
7张坤丽,赵旭,关同峰,尚柏羽,李羽蒙,昝红英.面向医疗文本的实体及关系标注平台的构建及应用[J].中文信息学报,2020,34(6):36-44. 被引量：14
8熊奥,高畅,赵明辉,张玲玲.基于知识图谱的核电设备健康管理知识建模与分析[J].科技促进发展,2021,17(4):640-649. 被引量：10
9张雪英,闾国年,叶鹏.大数据地理信息系统:框架、技术与挑战[J].现代测绘,2020(6):1-8. 被引量：8
10顾佼佼,翟一琛,姬嗣愚,宗富强.基于BERT和知识蒸馏的航空维修领域命名实体识别[J].电子测量技术,2023,46(3):19-24. 被引量：3

1邹腊梅,龚向坚,肖芳,马淑萍.基于模拟退火算法与隐马尔可夫模型的Web信息抽取[J].南华大学学报（自然科学版）,2011,25(1):70-74. 被引量：4
2李人厚,张平安.关于模糊辨识的理论与应用实际问题[J].控制理论与应用,1995,12(2):129-137. 被引量：19
3夏平均,姚英学,李建广,刘江省.三维数字化装配工艺系统的研究[J].哈尔滨工业大学学报,2005,37(1):36-39. 被引量：25
4白晓虹,张璞.LISP语言特点综述[J].延安大学学报（自然科学版）,1998,17(3):32-35. 被引量：2
5吕刚,吴朝晖,杨莹春.支持向量机的聚类补偿研究[J].广西师范大学学报（自然科学版）,2003,21(A01):66-69.
6胡光华.利用Matlab的模糊逻辑入门[J].国外科技新书评介,2008(1):16-17.
7杨弢,陈文.一种基于多分类器协同训练的网络异常检测方法[J].四川大学学报（自然科学版）,2012,49(2):329-334. 被引量：3
8高雪铁.结合单字特征的笔迹鉴别算法研究[J].计算机与现代化,2010(3):133-137.
9雷志城,廖祥文.结合领域知识的中文句子评价对象抽取[J].福州大学学报（自然科学版）,2013,41(3):297-304. 被引量：2
10张焕萍,王惠南,宋晓峰.NEW HYBRID AI-SVM ALGORITHM: COMBINATION OF SUPPORT VECTOR MACHINES AND ARTIFICIAL IMMUNE NETWORKS[J].Transactions of Nanjing University of Aeronautics and Astronautics,2006,23(4):272-277.

中文信息学报

2008年第1期

浏览历史

内容加载中请稍等...

基于单字提示特征的中文命名实体识别快速算法被引量：24

参考文献24

二级参考文献38

共引文献318

同被引文献285

引证文献24

二级引证文献434

相关作者

相关机构

相关主题

浏览历史

基于单字提示特征的中文命名实体识别快速算法 被引量：24

参考文献24

二级参考文献38

共引文献318

同被引文献285

引证文献24

二级引证文献434

相关作者

相关机构

相关主题

浏览历史

基于单字提示特征的中文命名实体识别快速算法被引量：24