为快速获取烟草科技文献中的知识信息,通过交互式迭代学习的烟草知识实体标注与识别方法,构建了面向烟草领域的文本标注语料库,设计了适用于烟草领域的文本标注规范,并利用BERT+CRF(Bidirectional Encoder Representations from Transfo...为快速获取烟草科技文献中的知识信息,通过交互式迭代学习的烟草知识实体标注与识别方法,构建了面向烟草领域的文本标注语料库,设计了适用于烟草领域的文本标注规范,并利用BERT+CRF(Bidirectional Encoder Representations from Transformers+Conditional Random Field)深度学习网络模型实现了烟草命名实体的识别和预标注,结合人工校对扩充了原始语料的规模,优化了模型性能。结果表明:语料标注一致性F1标注达92.4%;BERT+CRF模型识别能力优于常用的CRF、BiLSTM+CRF命名实体识别模型。该技术可为提升烟草领域文本分析和知识挖掘能力提供支持。展开更多
文摘为快速获取烟草科技文献中的知识信息,通过交互式迭代学习的烟草知识实体标注与识别方法,构建了面向烟草领域的文本标注语料库,设计了适用于烟草领域的文本标注规范,并利用BERT+CRF(Bidirectional Encoder Representations from Transformers+Conditional Random Field)深度学习网络模型实现了烟草命名实体的识别和预标注,结合人工校对扩充了原始语料的规模,优化了模型性能。结果表明:语料标注一致性F1标注达92.4%;BERT+CRF模型识别能力优于常用的CRF、BiLSTM+CRF命名实体识别模型。该技术可为提升烟草领域文本分析和知识挖掘能力提供支持。