融合全局词语边界特征的中文命名实体识别方法被引量：6

Chinese Named Entity RecognitionIncorporating Global Word Boundary Features

下载PDF

导出

摘要目前在中文命名实体识别的任务中经常采用有监督的字序列标注模型。我们在实际应用中发现,基于字序列标注模型的中文命名实体识别模型对于词语边界的识别错误是影响识别效果的主要因素之一,边界错误平均占错误结果中的47.5%。该文通过在平均感知机模型中引入全局的词语边界特征,使得人名、地名、机构名识别的F值平均提升了0.04并降低了边界错误占错误结果的比例。 Supervised character sequence labeling model is a popular method in Chinese named entity recognition （NER） task. It is found in practice suffering from word boundary error, covering roughly 47.5% of all errors. This paper incorporates global words boundary features in averaged perceptron model. Experiments indicate that the F value of recognizing people name, location names and organization names is improved by 0.04, reducing the proportion of boundary errors in overall errors.

作者刘冰洋伍大勇刘欣然程学旗

机构地区中国科学院计算技术研究所网络数据科学与工程研究中心中国科学院大学国家计算机网络应急技术处理协调中心

出处《中文信息学报》 CSCD 北大核心 2017年第2期86-91,共6页 Journal of Chinese Information Processing

基金国家自然科学基金(61232010 61100083) 国家973课题(2012CB316303) 国家863课题(2012AA011003) 国家科技支撑计划(2012BAH46B04) 国家安全专项(2013A140)

关键词命名实体识别字序列标注全局特征词语边界特征 named entity recognition sequence labeling global feature word boundary feature

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

同被引文献47

1贾崇柏.赵树理小说人物外号的艺术性[J].山西大学学报（哲学社会科学版）,1989,12(3):82-85. 被引量：2
2刘非凡,赵军,吕碧波,徐波,于浩,夏迎炬.面向商务信息抽取的产品命名实体识别研究[J].中文信息学报,2006,20(1):7-13. 被引量：47
3俞鸿魁,张华平,刘群,吕学强,施水才.基于层叠隐马尔可夫模型的中文命名实体识别[J].通信学报,2006,27(2):87-94. 被引量：153
4钱晶,张杰,张涛.基于最大熵的汉语人名地名识别方法研究[J].小型微型计算机系统,2006,27(9):1761-1765. 被引量：26
5李玉森,张雪英,袁正午.面向GIS的地理命名实体识别研究[J].重庆邮电大学学报（自然科学版）,2008,20(6):719-724. 被引量：10
6赵妍妍,秦兵,车万翔,刘挺.基于句法路径的情感评价单元识别[J].软件学报,2011,22(5):887-898. 被引量：57
7朱莎莎,刘宗田,付剑锋,朱芳.基于条件随机场的中文时间短语识别[J].计算机工程,2011,37(15):164-167. 被引量：16
8陈钰枫,宗成庆,苏克毅.汉英双语命名实体识别与对齐的交互式方法[J].计算机学报,2011,34(9):1688-1696. 被引量：16
9赵卫中,马慧芳,李志清,史忠植.一种结合主动学习的半监督文档聚类算法[J].软件学报,2012,23(6):1486-1499. 被引量：30
10邱泉清,苗夺谦,张志飞.中文微博命名实体识别[J].计算机科学,2013,40(6):196-198. 被引量：33

引证文献6

1唐锋,梁循,赵晓磊,张旋,程恒超.长文本武侠小说外号识别研究[J].中文信息学报,2019,33(8):132-142. 被引量：3
2罗凌,杨志豪,宋雅文,李楠,林鸿飞.基于笔画ELMo和多任务学习的中文电子病历命名实体识别研究[J].计算机学报,2020,43(10):1943-1957. 被引量：43
3吴建华,胡烈云,赵宇,戴鹏,熊嘉奇.基于BiLSTM-CRF与分类分层标注的微博中突发事件时空信息精细识别方法[J].地理与地理信息科学,2021,37(3):1-8. 被引量：8
4何玉洁,杜方,史英杰,宋丽娟.基于深度学习的命名实体识别研究综述[J].计算机工程与应用,2021,57(11):21-36. 被引量：30
5陈启,刘德喜,万常选,刘喜平,鲍力平.增强语义表示的中文金融评价要素抽取[J].小型微型计算机系统,2022,43(2):254-262. 被引量：1
6马建红,张炳斐,张少光,刘双耀.基于主动MCNN-SCRF的新能源汽车命名实体识别[J].计算机工程与应用,2019,55(7):23-29. 被引量：5

二级引证文献87

1陈梅婕,谢振平,陈晓琪,许鹏.专利新词发现的双向聚合度特征提取新方法[J].计算机应用,2020,40(3):631-637. 被引量：6
2杨健,黄瑞章,丁志远,陈艳平,秦永彬.基于边界识别与组合的裁判文书证据抽取方法研究[J].中文信息学报,2020,34(3):80-87. 被引量：5
3叶翔宇.中国侠文化研究2019年年度报告[J].长江师范学院学报,2020,36(3):11-26. 被引量：7
4王卫红,吕红燕,曹玉辉,霍峥.基于BERT的混合神经网络实体识别方法[J].计算机技术与发展,2021,31(8):100-105. 被引量：1
5江洋洋,金伯,张宝昌.深度学习在自然语言处理领域的研究进展[J].计算机工程与应用,2021,57(22):1-14. 被引量：20
6杨政,尹春林,蔡迪,李慧斌.一种基于成词率和谱聚类的电力文本领域词发现方法[J].电子技术应用,2021,47(10):29-32. 被引量：1
7余俊康.多任务学习的中文电子病历命名实体识别研究[J].软件导刊,2021,20(11):42-46. 被引量：3
8赵辉,庞海婷,冯珊珊,韩东辰.中文命名实体识别技术综述[J].长春工业大学学报,2021,42(5):444-450. 被引量：8
9于润羽,杜军平,薛哲,徐欣,奚军庆.面向科技学术会议的命名实体识别研究[J].智能系统学报,2022,17(1):50-58. 被引量：3
10崔丽平,古丽拉·阿东别克,王智悦.基于有向图模型的旅游领域命名实体识别[J].计算机工程,2022,48(2):306-313. 被引量：5

1胡文博,都云程,吕学强,施水才.基于多层条件随机场的中文命名实体识别[J].计算机工程与应用,2009,45(1):163-165. 被引量：25
2希捷硬盘识别错误，不能正常格式化[J].家庭电脑世界,2004(04S):27-27.
3赵凡.一种基于边缘检测的视网膜图像的分割方法[J].陕西工学院学报,2003,19(2):32-33. 被引量：1
4张明亮.巧解虚拟机的疑难杂症[J].电脑知识与技术（经验技巧）,2009,0(6X):48-48.
5葛金虎.基于条件随机场的中文命名实体识别的研究[J].科技信息,2010(16):89-90.
6向晓雯,史晓东,曾华琳.一个统计与规则相结合的中文命名实体识别系统[J].计算机应用,2005,25(10):2404-2406. 被引量：36
7董玉德,宋忠辉,陈进富,鲍齐友,张荣团,白苏诚.面向轮胎点云的胎面花纹边界特征提取[J].计算机辅助设计与图形学学报,2017,29(5):939-949. 被引量：4
8小鱼.让严肃的二维码呆萌起来[J].学生天地（初中版）,2017,0(4):58-59.
9李亚超,加羊吉,江静,何向真,于洪志.融合无监督特征的藏文分词方法研究[J].中文信息学报,2017,31(2):71-75. 被引量：9
10冯冲,陈肇雄,黄河燕.采用主动学习策略的组织机构名识别[J].小型微型计算机系统,2006,27(4):710-714. 被引量：12

中文信息学报

2017年第2期

浏览历史

内容加载中请稍等...

融合全局词语边界特征的中文命名实体识别方法被引量：6

同被引文献47

引证文献6

二级引证文献87

相关作者

相关机构

相关主题

浏览历史

融合全局词语边界特征的中文命名实体识别方法 被引量：6

同被引文献47

引证文献6

二级引证文献87

相关作者

相关机构

相关主题

浏览历史

融合全局词语边界特征的中文命名实体识别方法被引量：6