-
题名融合汉字多级特征与文本局部特征的中文命名实体识别
- 1
-
-
作者
张慧
秦董洪
白凤波
罗余特
刘成星
宋蕃桦
-
机构
广西民族大学人工智能学院
-
出处
《中文信息学报》
CSCD
北大核心
2024年第9期93-107,共15页
-
基金
广西科技基地和人才专项(桂科AD23026054)
广西壮族自治区中央引导地方科技发展资金项目(桂科ZY24212045)。
-
文摘
针对目前中文命名实体识别模型在复杂语境下准确率较低的问题,添加更多汉字特征以弥补词向量表形、表音方面的不足,引入更多先验知识,丰富语义特征;同时设计一种兼顾全局特征与局部特征的编码器,提升模型面对复杂语境时的鲁棒性与泛化性;实验结果表明,该文提出的方法在Weibo、OntoNotes 5.0、Boson、People Daily数据集上F_(1)值分别提升1.61、0.37、0.98、0.98,验证汉字本身特征的重要性与通用性的同时,也验证了文本局部特征有助于提升模型性能。此外,还探究了八种不同汉字编码方式对模型性能的影响,实验证明相比于单个拼音字符,汉字的声母、韵母携带更多发音信息,音调、多音字等特征也有利于提升模型性能;最后,在多种文本实例上测试了模型性能,实验结果表明了该文工作的有效性。
-
关键词
字形特征
拼音特征
文本局部特征
命名实体识别
-
Keywords
character features
pinyin features
local features of text
named entity recognition
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-