矿产资源地质报告中蕴含大量专家经验及基础地质知识。快速准确地从海量矿产资源文本中抽取形成结构化知识已成为目前研究热点,命名实体识别是信息抽取与知识挖掘的重要步骤。针对矿产资源地质文本中存在实体长度长、专业术语多、实体...矿产资源地质报告中蕴含大量专家经验及基础地质知识。快速准确地从海量矿产资源文本中抽取形成结构化知识已成为目前研究热点,命名实体识别是信息抽取与知识挖掘的重要步骤。针对矿产资源地质文本中存在实体长度长、专业术语多、实体嵌套等问题,已有基于深度学习的命名实体识别直接应用在矿产资源领域性能低下,本文提出了一种矿产资源命名实体识别深度学习模型:ALBERT(A Lite Bidirectional Encoder Representations from Transformers)-BiLSTM(Bi-directional Long Short-Term Memory)-CRF(Conditional Random Field),通过ALBERT预训练语言模型获取地质文本丰富语义特征,同时结合汉字拼音、字形和词边界特征来共同作为嵌入层,从而提高对复杂实体的识别能力。本文方法在人民日报、电子简历数据集及构建的矿产资源数据集上进行实验,结果表明提出方法在准确率、召回率、F1值上分别达到70.97%、64.33%、67.49%。展开更多
文摘矿产资源地质报告中蕴含大量专家经验及基础地质知识。快速准确地从海量矿产资源文本中抽取形成结构化知识已成为目前研究热点,命名实体识别是信息抽取与知识挖掘的重要步骤。针对矿产资源地质文本中存在实体长度长、专业术语多、实体嵌套等问题,已有基于深度学习的命名实体识别直接应用在矿产资源领域性能低下,本文提出了一种矿产资源命名实体识别深度学习模型:ALBERT(A Lite Bidirectional Encoder Representations from Transformers)-BiLSTM(Bi-directional Long Short-Term Memory)-CRF(Conditional Random Field),通过ALBERT预训练语言模型获取地质文本丰富语义特征,同时结合汉字拼音、字形和词边界特征来共同作为嵌入层,从而提高对复杂实体的识别能力。本文方法在人民日报、电子简历数据集及构建的矿产资源数据集上进行实验,结果表明提出方法在准确率、召回率、F1值上分别达到70.97%、64.33%、67.49%。