融入自注意力机制的社交媒体命名实体识别被引量：43

Combined self-attention mechanism for named entity recognition in social media

导出

摘要相比规范新闻文本中命名实体识别(named entity recognition,NER),中文社交媒体中命名实体识别的性能偏低,这主要受限于文本的规范性和标注语料的规模。近年来中文社交媒体的命名实体识别研究主要针对标注语料规模小这一问题,倾向于使用外部知识或者借助联合训练来提升最终的识别性能,但对社交媒体文本不规范导致的对文本自身蕴含特征的挖掘不够这一问题的研究很少。该文着眼于文本自身,提出了一种结合双向长短时记忆和自注意力机制的命名实体识别方法。该方法通过在多个不同子空间捕获上下文相关信息来更好地理解和表示句子结构,充分挖掘文本自身蕴含的特征,并最终提升不规范文本的实体识别性能。在Weibo NER公开语料上进行了多组对比实验,实验结果验证了方法的有效性。结果表明:在不使用外部资源和联合训练的情况下,命名实体识别的F1值达到了58.76%。 Named entity recognition(NER)in Chinese social media is less effective than in standard news mainly due to the normalization and the size of the existing annotated corpus.In recent years,research on named entity recognition in Chinese social media has tended to use external knowledge and joint training to improve performance due to the small size of the annotated corpus.However,there are few studies on mining entity recognition characteristics in social media.This article focuses on named entity recognition in text articles using a neural network model that combines bi-directional long short-term memory with a self-attention mechanism.This model extracts context information from different dimensions to better understand and represent the sentence structure and improve the recognition performance.Tests on the Weibo NER released corpus show that this method is more effective than previous approaches and that this method has a 58.76%F1-score without using external knowledge or joint learning.

作者李明扬孔芳 LI Mingyang;KONG Fang(School of Computer Science and Technology,Soochow University,Suzhou 215006,China)

机构地区苏州大学计算机科学与技术学院

出处《清华大学学报（自然科学版）》 EI CAS CSCD 北大核心 2019年第6期461-467,共7页 Journal of Tsinghua University(Science and Technology)

基金国家自然科学基金资助项目(61472264 61876118) 人工智能应急项目(61751206) 国家重点研发计划子课题(2017YFB1002101)

关键词命名实体识别中文社交媒体自注意力机制 named entity recognition(NER) Chinese social media self-attention mechanism

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1洪铭材,张阔,唐杰,李涓子.基于条件随机场(CRFs)的中文词性标注方法[J].计算机科学,2006,33(10):148-151. 被引量：56
2陈治纲,何丕廉,孙越恒,郑小慎.基于向量空间模型的文本分类系统的研究与实现[J].中文信息学报,2005,19(1):36-41. 被引量：43

二级参考文献9

1Yiming Yang, An evaluation of statistical approaches to text categorization[J]. In:Journal of Information Retrieval,1999,1(2) :67 - 88.
2Jian-yun Nie, Jianfeng Gao etc. On the Use of Words and N-grams for Chinese Information Retrieval[A]. Fifth International Workshop on Information Retrieval with Asian Languages [ C ]. Hong Kong, September 30 - October 1,2000.
3Lafferty J,McCallum A,Pereira F.Conditional Random Fields:Probabilistic Models for Segmenting and Labeling Sequence Data.In:Proceedings of the 18th International Conf on machine Learning,2001.282～289
4Sha F,Pereira F.Shallow Parsing with Conditional Random Fields.In:Proceedings of Human Language Technology Conference and North American Chapter of the Association for Computational Linguistics (HLT-NAACL),2003
5现代汉语语料库加工规范-词语切分与词性标注.北京大学计算语言学研究所,1999
6Bai Shuanhu.An Integrated Model of Chinese Word Segmentation and Part-of Speech Tagging.In:Advanced and Applications on Computational Linguistics,Third National Computational Linguistics Meeting,Shanghai.Nov.1995.56～61
7Bai S H,Xia,Y,Huang C N.Automatic Part-of-Speech Tagging System of Chinese:[Technical Report].Beijing:Tsinghua University,1992
8白栓虎.基于统计的汉语词性自动标注方法[J].语文建设,1994(10):38-40. 被引量：2
9周明,吴进,黄昌宁.用于词性标注的一种快速学习算法──对Brill的基于变换算法的一项改进[J].计算机学报,1998,21(4):357-366. 被引量：8

共引文献97

1陆亮,孔芳.面向对话的融入交互信息的实体关系抽取[J].中文信息学报,2021,35(8):82-88. 被引量：3
2吕彦红,陈基漓,阮百尧.基于遗传算法的中文自动分类特征选择[J].山东理工大学学报（自然科学版）,2009,23(1):100-102.
3刘海峰,王元元,王倩.基于特征选择的文本分类方法评述[J].情报科学,2007,25(z1):193-196.
4于江德,周宏宇,余正涛.基于单个词语特征模板的汉语词性标注[J].山西大学学报（自然科学版）,2011,34(4):513-517. 被引量：1
5吕德新,张桂平,蔡东风,朱江涛.基于SVM的疑问句问点语义角色标注[J].沈阳航空工业学院学报,2006,23(1):44-46. 被引量：4
6陈志雄,陈健,闵华清.基于信息增益的中文文本关联分类[J].中文信息学报,2007,21(3):61-68. 被引量：1
7王晓霞,尹四清.一种基于支持向量机的分类算法[J].山西电子技术,2007(3):17-18. 被引量：2
8LI Yanling,DAI Guanzhong,ZHU Yehang,QIN Sen.A High-Performance Extraction Method for Public Opinion on Internet[J].Wuhan University Journal of Natural Sciences,2007,12(5):902-906. 被引量：3
9刘海峰,王元元,张学仁.文本分类中一种改进的特征选择方法[J].情报科学,2007,25(10):1534-1537. 被引量：9
10李艳玲,戴冠中,朱烨行.基于类别空间模型的文本倾向性分类方法[J].计算机应用,2007,27(9):2194-2196. 被引量：12

同被引文献302

1马建霞,袁慧,蒋翔.基于Bi-LSTM+CRF的科学文献中生态治理技术相关命名实体抽取研究[J].数据分析与知识发现,2020,4(2):78-88. 被引量：8
2李书琴,张明美,刘斌.融合字词语义信息的猕猴桃种植领域命名实体识别研究[J].农业机械学报,2022,53(12):323-331. 被引量：4
3王阳,李振东,杨观赐.基于深度学习的OCR文字识别在银行业的应用研究[J].计算机应用研究,2020,37(S02):375-379. 被引量：19
4王蓬辉,李明正,李思.基于数据增强的中文医疗命名实体识别[J].北京邮电大学学报,2020,43(5):84-90. 被引量：8
5林鹭,黄旭东.拉格朗日插值多项式的一种并行算法[J].厦门大学学报（自然科学版）,2004,43(5):592-595. 被引量：11
6周明,严正,倪以信,李庚银.含误差预测校正的ARIMA电价预测新方法[J].中国电机工程学报,2004,24(12):63-68. 被引量：32
7邹政达,孙雅明,张智晟.基于蚁群优化算法递归神经网络的短期负荷预测[J].电网技术,2005,29(3):59-63. 被引量：44
8林亚平,刘云中,周顺先,陈治平,蔡立军.基于最大熵的隐马尔可夫模型文本信息抽取[J].电子学报,2005,33(2):236-240. 被引量：48
9张晓艳,王挺,陈火旺.命名实体识别研究[J].计算机科学,2005,32(4):44-48. 被引量：65
10苏娟,杜松怀,周兴华.电力市场现货电价预测方法研究状况综述[J].继电器,2005,33(16):78-84. 被引量：9

引证文献43

1成于思,施云涛.融合词典特征的Bi-LSTM-WCRF中文人名识别[J].中文信息学报,2020(4):69-76. 被引量：7
2陈冠容.新型抗高血压药——血管紧张素Ⅱ受体拮抗剂[J].中国药师,2000,3(2):98-100. 被引量：23
3张建权.基于CNN和BiGRU-attention的互联网敏感实体识别方法[J].网络安全技术与应用,2020(4):61-65. 被引量：4
4王铎,王晰巍,贾若男,郑晴晓.大数据驱动的社交网络舆情生态性评价及实证研究[J].情报资料工作,2020,41(2):56-63. 被引量：14
5张晓,李业刚,王栋,史树敏.基于ERNIE的命名实体识别[J].智能计算机与应用,2020,10(3):21-26. 被引量：5
6彭玉青,乔颖,陶慧芳,刘宪姿,刘元剑.融入注意力机制的PM2.5预测模型[J].传感器与微系统,2020,39(7):44-47. 被引量：9
7张心怡,冯仕民,丁恩杰.面向煤矿的实体识别与关系抽取模型[J].计算机应用,2020,40(8):2182-2188. 被引量：4
8魏优,刘茂福,胡慧君.基于深层语境词表示与自注意力的生物医学事件抽取[J].计算机工程与科学,2020,42(9):1670-1679. 被引量：3
9毛明毅,吴晨,钟义信,陈志成.加入自注意力机制的BERT命名实体识别模型[J].智能系统学报,2020,15(4):772-779. 被引量：23
10郭晓然,王维兰,罗平.汉译藏传佛教典籍中的神灵命名实体识别方法研究[J].高原科学研究,2020,4(4):87-94. 被引量：1

二级引证文献210

1张婷婷,让冉,张龙波,邢林林,蔡红珍.面向新兴产业的检验检测服务关系抽取[J].智能计算机与应用,2022,12(2):32-36. 被引量：1
2俞定国,孙学敏,朱琳,刘良模.情感社会学理论下突发公共卫生事件中网民情感倾向研究[J].传媒论坛,2023,6(19):4-7.
3周践.血管紧张素Ⅱ受体拮抗剂研究现状[J].中国药物应用与监测,2002(3):33-35.
4周毅,曾嵘,李新中.本院1998至2002年抗高血压药物的药物利用分析[J].中国临床药学杂志,2004,13(4):237-239. 被引量：3
5孙秋华.高血压病的药物治疗[J].黑龙江医药,2005,18(1):52-54.
6汪新良,何兆初,易家骥,曾昭华,罗碧辉,潘洁珍,苏诚坚.替米沙坦对盐敏感性高血压大鼠血管重构的影响[J].中国心血管杂志,2005,10(6):405-409. 被引量：9
7李荣凌,张先洲,宋金春.血管紧张肽Ⅱ受体拮抗药的应用分析[J].医药导报,2006,25(1):27-28. 被引量：1
8冯建敏,王宝诚,孙凤霞.我院抗高血压药物应用调查分析[J].天津医科大学学报,2006,12(1):121-123. 被引量：2
9邓宝琨.我院门诊抗高血压药的应用分析[J].中国医院用药评价与分析,2007,7(5):350-351. 被引量：3
10周汉明,汪建高.非洛地平联合奥美沙坦酯治疗原发性高血压[J].药物流行病学杂志,2008,17(6):362-363. 被引量：4

1黄振龙.高中文言文教学之我见[J].语数外学习（高中版）（中）,2019,0(2):29-29.
2刘晓俊,辜丽川,史先章.基于Bi-LSTM和注意力机制的命名实体识别[J].洛阳理工学院学报（自然科学版）,2019,29(1):65-70. 被引量：6
3马莉萍.小学语文教学中情感教育的有效渗透[J].新一代（理论版）,2019,0(4):102-102.
4马孟铖,艾斯卡尔.艾木都拉,吐尔地.托合提.基于条件随机场多特征融合的中文地名、机构名实体识别[J].现代计算机,2019,25(12):13-17. 被引量：5
5黄河,康宁.移动互联网环境下群体极化的特征和生发机制——基于“江歌案”移动端媒体文本和网民评论的内容分析[J].国际新闻界,2019,0(2):38-61. 被引量：35
6蒋翠清,郭轶博,刘尧.基于中文社交媒体文本的领域情感词典构建方法研究[J].数据分析与知识发现,2019,3(2):98-107. 被引量：17
7张凯,李军辉,周国栋.基于枢轴语言的图像描述生成研究[J].中文信息学报,2019,33(3):110-117. 被引量：3
8杨华文.指向高品质发展的高中化学教学设计——以苏教版必修1《氧化还原反应》为例[J].中小学教学研究,2019,20(5):42-46.
9张应成,杨洋,蒋瑞,全兵,张利君,任晓雷.基于BiLSTM-CRF的商情实体识别模型[J].计算机工程,2019,45(5):308-314. 被引量：33
10李涛,王渔樵,肖智婕.社交网络水军识别的特征发现[J].计算机工程与设计,2019,40(5):1214-1217. 被引量：4

清华大学学报（自然科学版）

2019年第6期

浏览历史

内容加载中请稍等...

融入自注意力机制的社交媒体命名实体识别被引量：43

参考文献2

二级参考文献9

共引文献97

同被引文献302

引证文献43

二级引证文献210

相关作者

相关机构

相关主题

浏览历史

融入自注意力机制的社交媒体命名实体识别 被引量：43

参考文献2

二级参考文献9

共引文献97

同被引文献302

引证文献43

二级引证文献210

相关作者

相关机构

相关主题

浏览历史

融入自注意力机制的社交媒体命名实体识别被引量：43