面向朝鲜语命名实体识别的多粒度融合方法

Multi-Granularity Fusion for Korean Named Entity Recognition

下载PDF

导出

摘要该文从朝鲜语语法和构成特点出发,研究在音素、音节和词素三个不同粒度下朝鲜语实体的有效表征,提出一种基于多粒度融合的朝鲜语命名实体识别方法。该方法从不同粒度的联系和差异两方面进行多粒度特征的融合。首先,对朝鲜语的音素特征进行编码,并基于CNN架构构建将音素粒度与音节粒度融合的模型,获得音节向量。其次,使用fastText预训练模型对得到的音节向量进行编码,获取其顺序特征。同时,使用KLUE-BERT预训练模型对词素粒度特征进行建模,得到词素向量。最后,将之前得到的音节向量与词素向量进行融合,形成包含多粒度特征的文本表征,并利用基于Transformer的NER模型TENER完成朝鲜语命名实体识别。为了验证所提出方法的有效性,该文在Klpexpo2016和KLUE-NER语料库上进行了实验,结果表明所提出的不同粒度表征及融合方法能够很好地提取出朝鲜语的实体特征,取得了很好的效果,其中在Klpexpo2016语料库中的F_(1)值为89.45%,KLUE-NER语料库中的F_(1)值为88.82%。 This paper investigates an effective representation of Korean entities at three different granularities,i.e.jamo,syllable and morpheme,and proposes a multi-granularity fusion-based named entity recognition method for Korean.Firstly,it encodes the jamo-leval features of Korean and builds a CNN-based model to fuse jamo-level and syllable-level features to obtain syllable vectors.Secondly,the fastText pre-trained model is employed to encode the obtained syllable vectors to obtain their sequential features.And the KLUE-BERT is utilized to obtain morpheme vectors.Finally,the previously obtained syllable vectors and morpheme vectors are jointly applied to the task of named entity recognition for Korean via a Transformer-based NER model named TENER.Experiments on Klpexpo 2016 and KLUE-NER corpora show that the proposed method achieves 89.45%F_(1)score on Klpexpo 2016 corpus and 88.82%on KLUE-NER corpus.

作者黄政豪金光洙高君龙 HUANG Zhenghao;JIN Guangzhu;GAO Junlong(College of Engineering,Yanbian University,Yanji,Jilin 133002,China;College of Korean and Han Language and Literature,Yanbian University,Yanji,Jilin 133002,China)

机构地区延边大学工学院延边大学朝汉文学院

出处《中文信息学报》 CSCD 北大核心 2023年第8期66-74,共9页 Journal of Chinese Information Processing

基金国家哲学社会科学基金(18ZDA306) 延边大学外国语言文学世界一流学科建设攻关科研项目(18YLGG01)。

关键词朝鲜语命名实体识别多粒度融合预训练模型 Korean NER multi-granularity fusion pre-trained model

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1李光日.关于中国朝鲜语和韩国语的隔写法[J].中国朝鲜语文,2022(4):74-81. 被引量：1
2杨飘,董文永.基于BERT嵌入的中文命名实体识别方法[J].计算机工程,2020,46(4):40-45. 被引量：98

二级参考文献5

1李丽双,郭元凯.基于CNN-BLSTM-CRF模型的生物医学命名实体识别[J].中文信息学报,2018,32(1):116-122. 被引量：121
2杨培,杨志豪,罗凌,林鸿飞,王健.基于注意机制的化学药物命名实体识别[J].计算机研究与发展,2018,55(7):1548-1556. 被引量：39
3王洁,张瑞东,吴晨生.基于GRU的命名实体识别方法[J].计算机系统应用,2018,27(9):18-24. 被引量：10
4周晓磊,赵薛蛟,刘堂亮,宗子潇,王其乐,里剑桥.基于SVM-BiLSTM-CRF模型的财产纠纷命名实体识别方法[J].计算机系统应用,2019,28(1):245-250. 被引量：13
5杨文明,褚伟杰.在线医疗问答文本的命名实体识别[J].计算机系统应用,2019,28(2):8-14. 被引量：23

共引文献97

1屈丹丹,杨涛,朱垚,胡孔法.基于字向量的BiGRU-CRF肺癌医案四诊信息实体抽取研究[J].世界科学技术-中医药现代化,2021,23(9):3118-3125. 被引量：6
2步一,薛睿,孟凡,黄文彬.知识图谱的关键技术及其在情报学中的应用[J].情报学进展,2022(1):349-384. 被引量：1
3陆晓蕾,倪斌.基于预训练语言模型的BERT-CNN多层级专利分类研究[J].中文信息学报,2021,35(11):70-79. 被引量：19
4吴俊,程垚,郝瀚,艾力亚尔·艾则孜,刘菲雪,苏亦坡.基于BERT嵌入BiLSTM-CRF模型的中文专业术语抽取研究[J].情报学报,2020,39(4):409-418. 被引量：52
5方英兰,孙吉祥,韩兵.基于BERT的文本情感分析方法的研究[J].信息技术与信息化,2020(2):108-111. 被引量：14
6孔祥鹏,吾守尔·斯拉木,杨启萌,李哲.基于迁移学习的维吾尔语命名实体识别[J].东北师大学报（自然科学版）,2020,52(2):58-65. 被引量：10
7王雪梅,陶宏才.基于深度学习的中文命名实体识别研究[J].成都信息工程大学学报,2020,35(3):264-270. 被引量：5
8陈琛.基于BiGRU_CRF模型的医疗领域命名实体识别[J].电子技术与软件工程,2020(14):180-182. 被引量：3
9卢佳伟,陈玮,尹钟.融合TextRank算法的中文短文本相似度计算[J].电子科技,2020,33(10):51-56. 被引量：5
10余传明,王曼怡,林虹君,朱星宇,黄婷婷,安璐.基于深度学习的词汇表示模型对比研究[J].数据分析与知识发现,2020,4(8):28-40. 被引量：7

1刘松岳,王欢.基于多粒度特征融合的叶片分类与分级方法[J].计算机科学,2023,50(3):216-222.
2许爽,刘智颖,李元诚,王庆乐,李建彬.针对电池储能系统假数据注入攻击的智能化检测方法研究[J].中国电机工程学报,2023,43(17):6628-6638. 被引量：1
3江嘉鹭,王海燕,张晓丹,刘超,郑子龙.结晶度综合指标法表征WC粉末相结构差异[J].硬质合金,2023,40(5):395-405. 被引量：1
4谷勇浩,徐昊,张晓青.基于多粒度表征学习的加密恶意流量检测[J].计算机学报,2023,46(9):1888-1899. 被引量：1
5庄承志.非虚构文学中“真实”的三个维度[J].名作欣赏（学术版）（下旬）,2023(11):167-169.

中文信息学报

2023年第8期

浏览历史

内容加载中请稍等...

面向朝鲜语命名实体识别的多粒度融合方法

参考文献2

二级参考文献5

共引文献97

相关作者

相关机构

相关主题

浏览历史