地方志承载了当地丰富且悠久的历史、文化和思想,本文以雄安县志为例,对其中所记录的作物物产名称和信息中的7大类实体进行自动识别和抽取,为后续方志古籍知识库、智能问答系统构建提供基础。对雄安县志物产节进行数据预处理后,分别利...地方志承载了当地丰富且悠久的历史、文化和思想,本文以雄安县志为例,对其中所记录的作物物产名称和信息中的7大类实体进行自动识别和抽取,为后续方志古籍知识库、智能问答系统构建提供基础。对雄安县志物产节进行数据预处理后,分别利用条件随机场(Conditional Random Fields,CRF)、Bi-RNN和Bi-LSTM-CRF在该语料上进行实体识别的实验研究,并对最终结果进行对比分析。在全部语料上训练得到的Bi-LSTM-CRF模型的准确率和召回率分别达到了82.27%和88.12%,证明了与单一学习模型相比,融合机器学习与深度学习的模型在实体识别任务中有更好的表现,能够为大规模古籍文本的智能化处理与深度挖掘提供借鉴。展开更多
文摘地方志承载了当地丰富且悠久的历史、文化和思想,本文以雄安县志为例,对其中所记录的作物物产名称和信息中的7大类实体进行自动识别和抽取,为后续方志古籍知识库、智能问答系统构建提供基础。对雄安县志物产节进行数据预处理后,分别利用条件随机场(Conditional Random Fields,CRF)、Bi-RNN和Bi-LSTM-CRF在该语料上进行实体识别的实验研究,并对最终结果进行对比分析。在全部语料上训练得到的Bi-LSTM-CRF模型的准确率和召回率分别达到了82.27%和88.12%,证明了与单一学习模型相比,融合机器学习与深度学习的模型在实体识别任务中有更好的表现,能够为大规模古籍文本的智能化处理与深度挖掘提供借鉴。