为研究水利领域知识图谱构建中基于文本的知识自动抽取方法,本文以水文模型的名称、模拟要素、应用流域、计算时段、精度、继承-发展关系、研发人、研发单位等知识抽取为例,以883篇水文模型领域中文期刊论文为数据源,构建了BERT-Base-Ch...为研究水利领域知识图谱构建中基于文本的知识自动抽取方法,本文以水文模型的名称、模拟要素、应用流域、计算时段、精度、继承-发展关系、研发人、研发单位等知识抽取为例,以883篇水文模型领域中文期刊论文为数据源,构建了BERT-Base-Chinese模型、LAC(Lexical Analysis of Chinese)工具、模式识别联合的多策略水文模型命名实体识别方法。本文采用五位序列标注法(BMOES)方法对期刊论文进行人工标注等处理,建立知识抽取的输入数据集,用于BERT模型训练以及多策略识别方法的性能评价。识别结果显示:多策略识别方法对8种水文模型领域命名实体识别结果精确率和召回率的调和平均数(F 1值)均达到90%以上;针对不同实体类别,采取不同的命名实体识别方法较单BERT模型识别方法能有效提高识别性能。本文提出的方法可为水利领域其他场景的知识抽取提供参考,为领域知识图谱构建提供支撑。展开更多
文摘为研究水利领域知识图谱构建中基于文本的知识自动抽取方法,本文以水文模型的名称、模拟要素、应用流域、计算时段、精度、继承-发展关系、研发人、研发单位等知识抽取为例,以883篇水文模型领域中文期刊论文为数据源,构建了BERT-Base-Chinese模型、LAC(Lexical Analysis of Chinese)工具、模式识别联合的多策略水文模型命名实体识别方法。本文采用五位序列标注法(BMOES)方法对期刊论文进行人工标注等处理,建立知识抽取的输入数据集,用于BERT模型训练以及多策略识别方法的性能评价。识别结果显示:多策略识别方法对8种水文模型领域命名实体识别结果精确率和召回率的调和平均数(F 1值)均达到90%以上;针对不同实体类别,采取不同的命名实体识别方法较单BERT模型识别方法能有效提高识别性能。本文提出的方法可为水利领域其他场景的知识抽取提供参考,为领域知识图谱构建提供支撑。