航行通告是民用航空情报领域的重要情报资料,针对中文航行通告专业名词较多、格式不统一及语义复杂等问题,提出了一种基于BERT-Bi-LSTM-CRF的实体识别模型,对航行通告E项内容中事件要素实体进行抽取。首先通过BERT(bidirectional encode...航行通告是民用航空情报领域的重要情报资料,针对中文航行通告专业名词较多、格式不统一及语义复杂等问题,提出了一种基于BERT-Bi-LSTM-CRF的实体识别模型,对航行通告E项内容中事件要素实体进行抽取。首先通过BERT(bidirectional encoder representations from transforms)模型对处理后的向量进行预训练,捕捉丰富的语义特征,然后传送至双向长短期记忆网络(bidirectional long short-term memory,Bi-LSTM)模型对上下文特征进行提取,最后利用条件随机场(conditional random field,CRF)模型对最佳实体标签预测并输出。收集并整理机场类航行通告相关的原始语料,经过文本标注与数据预处理,形成了可用于实体识别实验的训练集、验证集和评价集数据。基于此数据与不同的实体识别模型进行对比实验,BERT-Bi-LSTM-CRF模型的准确率为89.68%、召回率为81.77%、F_(1)为85.54%,其中F 1相比现有模型得到有效提升,结果验证了该模型在机场类航行通告中要素实体识别的有效性。展开更多
基金supported by National Natural Science Foundation of China(61304256)Zhejiang Provincial Natural Science Foundation of China(LQ13F030013)+4 种基金Project of the Education Department of Zhejiang Province(Y201327006)Young Researchers Foundation of Zhejiang Provincial Top Key Academic Discipline of Mechanical Engineering and Zhejiang Sci-Tech University Key Laboratory(ZSTUME01B15)New Century 151 Talent Project of Zhejiang Province521 Talent Project of Zhejiang Sci-Tech UniversityYoung and Middle-aged Talents Foundation of Zhejiang Provincial Top Key Academic Discipline of Mechanical Engineering
文摘航行通告是民用航空情报领域的重要情报资料,针对中文航行通告专业名词较多、格式不统一及语义复杂等问题,提出了一种基于BERT-Bi-LSTM-CRF的实体识别模型,对航行通告E项内容中事件要素实体进行抽取。首先通过BERT(bidirectional encoder representations from transforms)模型对处理后的向量进行预训练,捕捉丰富的语义特征,然后传送至双向长短期记忆网络(bidirectional long short-term memory,Bi-LSTM)模型对上下文特征进行提取,最后利用条件随机场(conditional random field,CRF)模型对最佳实体标签预测并输出。收集并整理机场类航行通告相关的原始语料,经过文本标注与数据预处理,形成了可用于实体识别实验的训练集、验证集和评价集数据。基于此数据与不同的实体识别模型进行对比实验,BERT-Bi-LSTM-CRF模型的准确率为89.68%、召回率为81.77%、F_(1)为85.54%,其中F 1相比现有模型得到有效提升,结果验证了该模型在机场类航行通告中要素实体识别的有效性。