词边界字向量的中文命名实体识别被引量：8

Chinese named entity recognition via word boundary based character embedding

下载PDF

导出

摘要常见的基于机器学习的中文命名实体识别系统往往使用大量人工提取的特征,但特征提取费时费力,是一件十分繁琐的工作。为了减少中文命名实体识别对特征提取的依赖,构建了基于词边界字向量的中文命名实体识别系统。该方法利用神经元网络从大量未标注数据中,自动抽取出蕴含其中的特征信息,生成字特征向量。同时考虑到汉字不是中文语义的最基本单位,单纯的字向量会由于一字多义造成语义的混淆,因此根据同一个字在词中处于不同位置大多含义不同的特点,将单个字在词语中所处的位置信息加入到字特征向量中,形成词边界字向量,将其用于深度神经网络模型训练之中。在Sighan Bakeoff-3(2006)语料中取得了F189.18%的效果,接近当前国际先进水平,说明了该系统不仅摆脱了对特征提取的依赖,也减少了汉字一字多义产生的语义混淆。 Most Chinese named entity recognition systems based on machine learning are realized by applying a large amount of manual extracted features. Feature extraction is time-consuming and laborious. In order to remove the dependence on feature extraction,this paper presents a Chinese named entity recognition system via word boundary based character embedding. The method can automatically extract the feature information from a large number of unlabeled data and generate the word feature vector,which will be used in the training of neural network.Since the Chinese characters are not the most basic unit of the Chinese semantics,the simple word vector will be cause the semantics ambiguity problem. According to the same character on different position of the word might have different meanings,this paper proposes a character vector method with word boundary information,constructs a depth neural network system for the Chinese named entity recognition and achieves F189.18% on Sighan Bakeoff-32006 MSRA corpus. The result is closed to the state-of-the-art performance and shows that the system can avoid relying on feature extraction and reduce the character ambiguity.

作者姚霖刘轶李鑫鑫刘宏

机构地区深港产学研基地北京大学信息科学技术学院哈尔滨工业大学软件学院哈尔滨工业大学深圳研究生院计算机科学与技术学院

出处《智能系统学报》 CSCD 北大核心 2016年第1期37-42,共6页 CAAI Transactions on Intelligent Systems

基金原创项目研发与非遗产业化资助项目(YC2015057)

关键词机器学习中文命名体识别深度神经网络特征向量特征提取 machine learning Chinese named entity recognition deep neutral networks feature vector feature extraction

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

同被引文献59

1郑强,黄世敬,顼宝玉,黄启福,谢道珍.脑血疏通口服液对实验性脑出血大鼠脑水肿及脂质过氧化作用的影响[J].中国中医基础医学杂志,2000,6(5):27-30. 被引量：14
2刘非凡,赵军,吕碧波,徐波,于浩,夏迎炬.面向商务信息抽取的产品命名实体识别研究[J].中文信息学报,2006,20(1):7-13. 被引量：47
3滕晶.中风病病因病机理论探析[J].中华中医药学刊,2007,25(5):962-963. 被引量：28
4谢道珍,顼宝玉,孙怡,王岚芬,阎小平,刘建勋,赵建军,姜建鹏.脑血疏口服液治疗出血性中风的临床研究[J].中西医结合心脑血管病杂志,2007,5(8):690-691. 被引量：27
5出血性脑血管病诊疗指南[J].中国临床医生杂志,2009,37(8):73-75. 被引量：16
6谢道珍,李静,罗林,刘建勋,马晓斌,刘剑刚,谢小冰,姜建鹏.脑血疏通口服液治疗出血性中风的实验研究[J].中国中西医结合杂志,1995,15(S1):354-357. 被引量：13
7杨绪兵,王一雄,陈斌.马氏度量学习中的几个关键问题研究及几何解释[J].南京大学学报（自然科学版）,2013,49(2):133-141. 被引量：17
8石正喜,葛科奇,曹财耀.基于关联规则的数据挖掘算法研究[J].计算机与网络,2013,39(6):62-64. 被引量：6
9邱泉清,苗夺谦,张志飞.中文微博命名实体识别[J].计算机科学,2013,40(6):196-198. 被引量：33
10余凯,贾磊,陈雨强,徐伟.深度学习的昨天、今天和明天[J].计算机研究与发展,2013,50(9):1799-1804. 被引量：614

引证文献8

1朱亚东.云计算网络中边界节点识别方法改进研究[J].计算机测量与控制,2017,25(1):167-169. 被引量：4
2刘璟.中文命名实体识别方法研究[J].电脑知识与技术,2019,15(3X):179-180. 被引量：8
3朱艳辉,李飞,冀相冰,曾志高,徐啸.反馈式K近邻语义迁移学习的领域命名实体识别[J].智能系统学报,2019,14(4):820-830. 被引量：7
4车金立,唐力伟,邓士杰,苏续军.融合词位字向量的军事领域命名实体识别[J].火炮发射与控制学报,2019,40(3):50-55. 被引量：9
5冀相冰,朱艳辉,李飞,徐啸.基于Attention-BiLSTM的中文命名实体识别[J].湖南工业大学学报,2019,33(5):73-78. 被引量：9
6宓林晖,袁骏毅.基于CRF模型的临床医嘱信息实体识别方法应用研究[J].计算机应用与软件,2020,37(3):209-212. 被引量：5
7李倩,郭艳,徐梓铭,高翔,王腾蛟.基于真实世界人工智能分析的脑血疏口服液治疗脑卒中的回顾性研究[J].中华中医药杂志,2022,37(2):1056-1061. 被引量：4
8赵蕊洁,佟昕瑀,刘小桦,路永和.基于神经网络的医药科技论文实体识别与标注研究[J].数据分析与知识发现,2022,6(9):100-112. 被引量：2

二级引证文献47

1陈美杉,夏晨曦.肝癌患者在线提问的命名实体识别研究:一种基于迁移学习的方法[J].数据分析与知识发现,2019,3(12):61-69. 被引量：15
2徐静村.关于中国司法改革的几个问题[J].西南民族学院学报（哲学社会科学版）,2000,21(1):38-39. 被引量：3
3吕春荣,叶施仁.基于关注关系的互联网云数据挖掘方法实现[J].计算机测量与控制,2018,26(3):183-186. 被引量：3
4孙伟.基于云计算的网络资源缺失信息识别方法[J].电子元器件与信息技术,2019,3(11):38-39.
5依力达尔·依明.特定领域的命名实体识别方法的研究[J].电脑知识与技术,2020,16(8):208-210.
6梁文桐,朱艳辉,詹飞,冀相冰.基于BERT的医疗电子病历命名实体识别[J].湖南工业大学学报,2020,34(4):54-62. 被引量：17
7詹飞,朱艳辉,梁文桐,冀相冰.基于BERT和TextRank关键词提取的实体链接方法[J].湖南工业大学学报,2020,34(4):63-70. 被引量：3
8胡甜甜,但雅波,胡杰,李想,李少波.基于注意力机制的Bi-LSTM结合CRF的新闻命名实体识别及其情感分类[J].计算机应用,2020,40(7):1879-1883. 被引量：12
9王雪梅,陶宏才.基于深度学习的中文命名实体识别研究[J].成都信息工程大学学报,2020,35(3):264-270. 被引量：6
10刘勇,陈文生.电子病历术语规范化流程及临床辅助诊断系统设计[J].医学信息,2020,33(14):7-9. 被引量：2

1王昌厚.基于条件随机场的中文命名体识别[J].福建电脑,2012,28(2):89-89. 被引量：2
2高岑思.基于位图LSB算法的显式水印嵌入与提取实验平台的设计[J].科技信息,2009(18):183-183.
3王海彬.Lotus Domino／Notes的安全配置[J].网管员世界,2009(15):96-99.
4韩春燕,刘玉娇,琚生根,李若晨,苏翀.中文微博命名体识别[J].四川大学学报（自然科学版）,2015,52(3):511-516. 被引量：9
5胡长原,张福炎.页面描述语言PostScript字库机制的一个层次式实现模型[J].中文信息学报,1995,9(1):1-7.
6寒香.看我七十二变[J].小学生作文,2012(4):79-80.
7唐龙,蒋东方.8*8 ASCII码点阵软字库的获取[J].软件世界,1996(5):27-28.
8李庆华,赵延喜,蒋盛益.基于数据挖掘的协议分析检测模型[J].计算机工程与设计,2005,26(7):1701-1703. 被引量：2
9完么才让.藏文（含梵文）字丁自动识别方法研究[J].卷宗,2015,5(8):405-405.
10赵光权,葛强强,刘小勇,彭喜元.基于DBN的故障特征提取及诊断方法研究[J].仪器仪表学报,2016,37(9):1946-1953. 被引量：116

智能系统学报

2016年第1期

浏览历史

内容加载中请稍等...

词边界字向量的中文命名实体识别被引量：8

同被引文献59

引证文献8

二级引证文献47

相关作者

相关机构

相关主题

浏览历史

词边界字向量的中文命名实体识别 被引量：8

同被引文献59

引证文献8

二级引证文献47

相关作者

相关机构

相关主题

浏览历史

词边界字向量的中文命名实体识别被引量：8