基于位置敏感Embedding的中文命名实体识别被引量：3

Chinese named entity recognition based on position-sensitive embedding

下载PDF

导出

摘要在基于条件随机场的中文命名实体识别任务中,现有表示学习方法学习到的特征存在语义表示偏差,给中文命名实体识别带来噪声。针对此问题,提出了一种基于位置敏感Embedding的中文命名实体识别方法。该方法将上下文位置信息融入到现有的Embedding模型中,采用多尺度聚类方法抽取不同粒度的Embedding特征,通过条件随机场来识别中文命名实体。实验证明,该方法学习到的特征缓解了语义表示偏差,进一步提高了现有系统的性能,与传统方法相比,F值提高了2.85%。 In the task of Chinese named entity recognition based on conditional random fields, there is semantic bias on fea- tures learned by present representation learning. This paper presented a Chinese named entity recognition method based on po- sition-sensitive embedding model. This method applied the position information to the embedding model and used multi-scale word clustering to extract different size features. And then it recognized Chinese named entity with conditional random fields. The experiment shows that, this method improves the F-score by 2.85, compared to traditional methods.

作者鲁亚楠孙锐姬东鸿

机构地区武汉大学计算机学院

出处《计算机应用研究》 CSCD 北大核心 2017年第2期365-368,425,共5页 Application Research of Computers

基金国家自然科学基金重点项目(61133012) 国家自然科学基金面上项目(61373108)

关键词命名实体识别表示学习 EMBEDDING 多尺度聚类条件随机场 named entity recognition representation learning Embedding multi-scale clustering conditional random fields

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1冯元勇,孙乐,张大鲲,李文波.基于小规模尾字特征的中文命名实体识别研究[J].电子学报,2008,36(9):1833-1838. 被引量：26
2王宁,葛瑞芳,苑春法,黄锦辉,李文捷.中文金融新闻中公司名的识别[J].中文信息学报,2002,16(2):1-6. 被引量：51
3罗智勇 ,宋柔 .一种基于可信度的人名识别方法[J].中文信息学报,2005,19(3):67-72. 被引量：20
4张玥杰,徐智婷,薛向阳.融合多特征的最大熵汉语命名实体识别模型[J].计算机研究与发展,2008,45(6):1004-1010. 被引量：33
5彭春艳,张晖,包玲玉,陈昌平.基于条件随机域的生物命名实体识别[J].计算机工程,2009,35(22):197-199. 被引量：17
6邱莎,王付艳,申浩如,段玻,阿圆,丁海燕.基于含边界词性特征的中文命名实体识别[J].计算机工程,2012,38(13):128-130. 被引量：7
7向晓雯,史晓东,曾华琳.一个统计与规则相结合的中文命名实体识别系统[J].计算机应用,2005,25(10):2404-2406. 被引量：37

二级参考文献46

1季姮,罗振声.基于统计和规则的中文姓名自动辨识[J].语言文字应用,2001(1):14-18. 被引量：13
2罗智勇 ,宋柔 .一种基于可信度的人名识别方法[J].中文信息学报,2005,19(3):67-72. 被引量：20
3孙茂松,黄昌宁,高海燕,方捷.中文姓名的自动辨识[J].中文信息学报,1995,9(2):16-27. 被引量：87
4刘非凡,赵军,吕碧波,徐波,于浩,夏迎炬.面向商务信息抽取的产品命名实体识别研究[J].中文信息学报,2006,20(1):7-13. 被引量：47
5俞鸿魁,张华平,刘群,吕学强,施水才.基于层叠隐马尔可夫模型的中文命名实体识别[J].通信学报,2006,27(2):87-94. 被引量：157
6姜维,王晓龙,关毅,赵健.基于多知识源的中文词法分析系统[J].计算机学报,2007,30(1):137-145. 被引量：29
7毛婷婷,李丽双,黄德根.基于混合模型的中国人名自动识别[J].中文信息学报,2007,21(2):22-28. 被引量：10
8Lafferty J, McCallum A, Pereira F. Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data[C]//Proc. of the 18th International Conference on Machine Learning. Williamstown, Australia: [s. n.], 2001.
9Friedrich C M, Revillion T, Hofmann M, et al. Biomedical and Chemical Named Entity Recognition with Conditional Random Fields: The Advantage of Dictionary Features[C]//Proc. of the 2nd International Symposium on Semantic Mining in Biomedicine. Jena, Germany: [s. n.], 2006.
10Wellner B, McCallum A, Peng Fuchun, et al. An Integrated, Conditional Model of Information Extraction and Coreference with Application to Citation Graph Construction[C]//Proc. of the 20th Conference on Uncertainty in Artificial Intelligence. Banff, Canada:[s. n.], 2004.

共引文献163

1彭骁男,周兰江,张建安,周枫.融合多特征的老挝语人名地名命名实体识别[J].中国水运（下半月）,2020,20(3):74-77. 被引量：1
2高原,施元磊,张蕾,曹天奕,冯筠.基于游记文本的游客游览行程重构[J].数据分析与知识发现,2020,4(2):165-172. 被引量：5
3张博凯,李想.基于知识图谱的Android端农技智能问答系统研究[J].农业机械学报,2021,52(S01):164-171. 被引量：11
4毛姝洁,张雪虎.基于兴趣点简称的检索方法研究[J].太原理工大学学报,2008,39(S1):52-55. 被引量：1
5车海燕,孙吉贵,荆涛,白曦.一个基于本体主题的中文知识获取方法[J].计算机科学与探索,2007,1(2):206-215. 被引量：5
6俞鸿魁,张华平,刘群,吕学强,施水才.基于层叠隐马尔可夫模型的中文命名实体识别[J].通信学报,2006,27(2):87-94. 被引量：157
7宇缨,王晓龙,刘秉权.一种基于SVM／RS的中文机构名称自动识别方法[J].电子与信息学报,2006,28(5):895-900. 被引量：4
8李中国,刘颖.边界模板和局部统计相结合的中国人名识别[J].中文信息学报,2006,20(5):44-50. 被引量：13
9熊文新,宋柔.信息检索自然语言查询问句处理框架[J].计算机科学,2006,33(10):144-147. 被引量：3
10贾品贵,杨一平,卢朋.基于统计方法的中文姓名识别研究[J].计算机工程与应用,2006,42(31):168-170. 被引量：3

同被引文献22

1张玥杰,徐智婷,薛向阳.融合多特征的最大熵汉语命名实体识别模型[J].计算机研究与发展,2008,45(6):1004-1010. 被引量：33
2吐尔根·依布拉音,袁保社.新疆少数民族语言文字信息处理研究与应用[J].中文信息学报,2011,25(6):149-156. 被引量：26
3木合塔尔.艾尔肯,艾斯卡尔.艾木都拉,地里木拉提.吐尔逊.基于规则的维吾尔地名识别[J].通信技术,2013,46(7):103-105. 被引量：9
4麦合甫热提,米日姑.肉孜,麦热哈巴.艾力,吐尔根.依布拉音.基于语法语义知识的维吾尔文机构名识别[J].计算机工程与设计,2014,35(8):2944-2948. 被引量：7
5加日拉·买买提热衣木,吐尔根·依布拉音,艾山·吾买尔.基于统计和规则混合策略的维吾尔人名识别研究[J].新疆大学学报（自然科学版）,2014,31(3):319-324. 被引量：8
6闫丹辉,毕玉德.基于规则的越南语命名实体识别研究[J].中文信息学报,2014,28(5):198-205. 被引量：15
7何炎祥,罗楚威,胡彬尧.基于CRF和规则相结合的地理命名实体识别方法[J].计算机应用与软件,2015,32(1):179-185. 被引量：67
8栗伟,赵大哲,李博,彭新茗,刘积仁.CRF与规则相结合的医学病历实体识别[J].计算机应用研究,2015,32(4):1082-1086. 被引量：40
9李丽双,何红磊,刘珊珊,黄德根.基于词表示方法的生物医学命名实体识别[J].小型微型计算机系统,2016,37(2):302-307. 被引量：19
10苏娅,刘杰,黄亚楼.在线医疗文本中的实体识别研究[J].北京大学学报（自然科学版）,2016,52(1):1-9. 被引量：17

引证文献3

1王路路,艾山.吾买尔,买合木提.买买提,卡哈尔江.阿比的热西提,吐尔根.依布拉音.基于CRF和半监督学习的维吾尔文命名实体识别[J].中文信息学报,2018,32(11):16-26. 被引量：13
2买合木提.买买提,王路路,吐尔根.依布拉音,艾山.吾买尔,卡哈尔江.阿比的热西提.基于条件随机场的维吾尔文机构名识别[J].计算机工程与设计,2019,40(1):273-278. 被引量：5
3曹春萍,关鹏举.基于E-CNN和BLSTM-CRF的临床文本命名实体识别[J].计算机应用研究,2019,36(12):3748-3751. 被引量：16

二级引证文献33

1彭骁男,周兰江,张建安,周枫.融合多特征的老挝语人名地名命名实体识别[J].中国水运（下半月）,2020,20(3):74-77. 被引量：1
2王健,郑七凡,李超,石晶.基于ENCODER_ATT机制的远程监督关系抽取[J].广西师范大学学报（自然科学版）,2019,37(4):53-60.
3李成华,孙雅婧,张世娟,艾提日也古丽·艾尼瓦尔.基于CRF模型的维吾尔语分词研究[J].中南民族大学学报（自然科学版）,2019,38(4):596-604.
4杨昭,任娟.中文文献题录数据机构名称归一化研究[J].图书情报工作,2020,64(4):95-102. 被引量：6
5李灵芳,杨佳琦,李宝山,杜永兴,胡伟健.基于BERT的中文电子病历命名实体识别[J].内蒙古科技大学学报,2020,39(1):71-77. 被引量：9
6刘宇鹏,栗冬冬.基于BLSTM-CNN-CRF的中文命名实体识别方法[J].哈尔滨理工大学学报,2020,25(1):115-120. 被引量：20
7董瑞,杨雅婷,蒋同海.融合多种语言学特征的维吾尔语神经网络命名实体识别[J].计算机应用与软件,2020,37(5):183-188. 被引量：4
8王欢,朱文球,吴岳忠,何频捷,万烂军.基于数控机床设备故障领域的命名实体识别[J].工程科学学报,2020,42(4):476-482. 被引量：12
9崔竞烽,郑德俊,王东波,李婷婷.基于深度学习模型的菊花古典诗词命名实体识别[J].情报理论与实践,2020,43(11):150-155. 被引量：26
10刘婧茹,宋阳,贾睿,张翼鹏,罗勇,马敬东.基于BiLSTM-CRF中文临床文本中受保护的健康信息识别[J].数据分析与知识发现,2020,4(10):124-133. 被引量：10

1洛桑嘎登,杨媛媛,赵小兵.基于知识融合的CRFs藏文分词系统[J].中文信息学报,2015,29(6):213-219. 被引量：15
2苏东海,赵书良,柳萌萌,苏嘉庚,李妍.基于加权向量提升的多尺度聚类挖掘算法[J].计算机科学,2015,42(4):263-267. 被引量：4
3金术玲,梁彦,潘泉,程咏梅.基于Hough变换和聚类的航迹起始算法[J].系统仿真学报,2009,21(8):2362-2364. 被引量：18
4李小伟,伍岳庆,姚宇.基于小波多尺度聚类水平集的医学图像分割[J].计算机应用,2014,34(A02):298-301. 被引量：4
5李春芳,骆盈盈,谭庆平.基于业务规则的工作流管理系统模型[J].计算机工程与设计,2006,27(20):3861-3863. 被引量：4
6史月美,胡国华.基于粗糙集的不完全相容的关联规则挖掘[J].电脑与信息技术,2010,18(3):47-49.
7韩玉辉,赵书良,柳萌萌,罗燕,丁亚飞.多尺度聚类挖掘算法[J].计算机科学,2016,43(8):244-248. 被引量：7
8朱鹏飞,戴英侠,鲍旭华.差异性条件约束下基于PKI的信任域互连[J].计算机研究与发展,2006,43(10):1804-1809. 被引量：1
9崔梦娇,李红莲,吕学强,周建设.基于高校网站内容的实体抽取研究[J].北京信息科技大学学报（自然科学版）,2016,31(5):92-96. 被引量：1
10龙珑,邓伟.绿网摘要提取系统算法研究[J].微型机与应用,2013,32(12):14-16.

计算机应用研究

2017年第2期

浏览历史

内容加载中请稍等...

基于位置敏感Embedding的中文命名实体识别被引量：3

参考文献7

二级参考文献46

共引文献163

同被引文献22

引证文献3

二级引证文献33

相关作者

相关机构

相关主题

浏览历史

基于位置敏感Embedding的中文命名实体识别 被引量：3

参考文献7

二级参考文献46

共引文献163

同被引文献22

引证文献3

二级引证文献33

相关作者

相关机构

相关主题

浏览历史

基于位置敏感Embedding的中文命名实体识别被引量：3