As important geological data,a geological report contains rich expert and geological knowledge,but the challenge facing current research into geological knowledge extraction and mining is how to render accurate unders...As important geological data,a geological report contains rich expert and geological knowledge,but the challenge facing current research into geological knowledge extraction and mining is how to render accurate understanding of geological reports guided by domain knowledge.While generic named entity recognition models/tools can be utilized for the processing of geoscience reports/documents,their effectiveness is hampered by a dearth of domain-specific knowledge,which in turn leads to a pronounced decline in recognition accuracy.This study summarizes six types of typical geological entities,with reference to the ontological system of geological domains and builds a high quality corpus for the task of geological named entity recognition(GNER).In addition,Geo Wo BERT-adv BGP(Geological Word-base BERTadversarial training Bi-directional Long Short-Term Memory Global Pointer)is proposed to address the issues of ambiguity,diversity and nested entities for the geological entities.The model first uses the fine-tuned word granularitybased pre-training model Geo Wo BERT(Geological Word-base BERT)and combines the text features that are extracted using the Bi LSTM(Bi-directional Long Short-Term Memory),followed by an adversarial training algorithm to improve the robustness of the model and enhance its resistance to interference,the decoding finally being performed using a global association pointer algorithm.The experimental results show that the proposed model for the constructed dataset achieves high performance and is capable of mining the rich geological information.展开更多
地质数据是经济社会发展的上游要素,具有非常重要的价值。当前,地质大数据研究存在数据底座与应用系统未解耦、数据即服务(Data as a Service,DaaS)未充分厘清的问题,这导致地质数据的可复用性差。本文在系统应用数据湖技术的基础上,聚...地质数据是经济社会发展的上游要素,具有非常重要的价值。当前,地质大数据研究存在数据底座与应用系统未解耦、数据即服务(Data as a Service,DaaS)未充分厘清的问题,这导致地质数据的可复用性差。本文在系统应用数据湖技术的基础上,聚焦多源、异构、海量、时空相关地质数据的汇聚、治理与服务,研究提出基于数据湖技术的地质大数据底座架构,设计由数据采集与清洗层、数据存储层、数据计算与分析层、数据服务层、数据治理层构成的技术架构,并对部分关键技术选型进行验证,为地质大数据中心建设工程提供实践参考。展开更多
知识图谱作为当前最有效的知识组织和服务方式,已经成为人工智能的基石,在语义搜索、机器翻译、信息推荐等方面得到了广泛的应用。大数据时代下,地球科学(以下简称地学)分散、多源、异构数据的整合集成、挖掘分析及其知识的智能发现等...知识图谱作为当前最有效的知识组织和服务方式,已经成为人工智能的基石,在语义搜索、机器翻译、信息推荐等方面得到了广泛的应用。大数据时代下,地球科学(以下简称地学)分散、多源、异构数据的整合集成、挖掘分析及其知识的智能发现等迫切需要知识图谱的支撑。为了促进地学知识图谱的建设与应用,自2019年启动以来,“深时数字地球国际大科学计划”(Deep-time Digital Earth,简称DDE)就将知识图谱作为其重要的研究建设内容,经过3年多的建设,DDE已经建设形成了大量的地学知识图谱,亟需一站式共享这些知识图谱。文章首先介绍了DDE知识图谱内容体系,分析了DDE知识图谱内容组成及其特征;在此基础上,开展了地学知识图谱一站式共享服务系统的设计,包括系统功能体系和架构的设计;最后介绍了系统实现的技术路线及其关键技术。实践证明系统可有效实现DDE知识图谱的一站式共享服务,可为类似的知识共享服务系统提供参考。展开更多
地质领域实体关系抽取是构建地质知识图谱的基础,对地质领域文本信息抽取与知识库构建具有重要的作用。针对地质领域实体关系复杂、缺少人工标注语料库等特点,提出了面向地质领域实体关系联合抽取模型,着重对多地质文本中存在的复杂重...地质领域实体关系抽取是构建地质知识图谱的基础,对地质领域文本信息抽取与知识库构建具有重要的作用。针对地质领域实体关系复杂、缺少人工标注语料库等特点,提出了面向地质领域实体关系联合抽取模型,着重对多地质文本中存在的复杂重叠关系进行识别,避免传统流水线模型中由于实体识别错误造成级联误差。文章构建了高质量地质领域实体关系语料库,提出了基于预训练语言模型BERT(Bidirectional Encoder Representations from Transformers)和双向门控循环单元BiGRU(Bidirectional Gated Recurrent Units)与条件随机场CRF(Conditional Random Field)的序列标注模型,实现对实体关系的联合抽取。在构建数据集上进行了实验,结果表明,本文提出的联合抽取模型在实体关系抽取上的F1值达到0.671,验证了本文模型在地质实体关系抽取的有效性。展开更多
矿产资源地质报告中蕴含大量专家经验及基础地质知识。快速准确地从海量矿产资源文本中抽取形成结构化知识已成为目前研究热点,命名实体识别是信息抽取与知识挖掘的重要步骤。针对矿产资源地质文本中存在实体长度长、专业术语多、实体...矿产资源地质报告中蕴含大量专家经验及基础地质知识。快速准确地从海量矿产资源文本中抽取形成结构化知识已成为目前研究热点,命名实体识别是信息抽取与知识挖掘的重要步骤。针对矿产资源地质文本中存在实体长度长、专业术语多、实体嵌套等问题,已有基于深度学习的命名实体识别直接应用在矿产资源领域性能低下,本文提出了一种矿产资源命名实体识别深度学习模型:ALBERT(A Lite Bidirectional Encoder Representations from Transformers)-BiLSTM(Bi-directional Long Short-Term Memory)-CRF(Conditional Random Field),通过ALBERT预训练语言模型获取地质文本丰富语义特征,同时结合汉字拼音、字形和词边界特征来共同作为嵌入层,从而提高对复杂实体的识别能力。本文方法在人民日报、电子简历数据集及构建的矿产资源数据集上进行实验,结果表明提出方法在准确率、召回率、F1值上分别达到70.97%、64.33%、67.49%。展开更多
基金financially supported by the Natural Science Foundation of China(Grant No.42301492)the National Key R&D Program of China(Grant Nos.2022YFF0711600,2022YFF0801201,2022YFF0801200)+3 种基金the Major Special Project of Xinjiang(Grant No.2022A03009-3)the Open Fund of Key Laboratory of Urban Land Resources Monitoring and Simulation,Ministry of Natural Resources(Grant No.KF-2022-07014)the Opening Fund of the Key Laboratory of the Geological Survey and Evaluation of the Ministry of Education(Grant No.GLAB 2023ZR01)the Fundamental Research Funds for the Central Universities。
文摘As important geological data,a geological report contains rich expert and geological knowledge,but the challenge facing current research into geological knowledge extraction and mining is how to render accurate understanding of geological reports guided by domain knowledge.While generic named entity recognition models/tools can be utilized for the processing of geoscience reports/documents,their effectiveness is hampered by a dearth of domain-specific knowledge,which in turn leads to a pronounced decline in recognition accuracy.This study summarizes six types of typical geological entities,with reference to the ontological system of geological domains and builds a high quality corpus for the task of geological named entity recognition(GNER).In addition,Geo Wo BERT-adv BGP(Geological Word-base BERTadversarial training Bi-directional Long Short-Term Memory Global Pointer)is proposed to address the issues of ambiguity,diversity and nested entities for the geological entities.The model first uses the fine-tuned word granularitybased pre-training model Geo Wo BERT(Geological Word-base BERT)and combines the text features that are extracted using the Bi LSTM(Bi-directional Long Short-Term Memory),followed by an adversarial training algorithm to improve the robustness of the model and enhance its resistance to interference,the decoding finally being performed using a global association pointer algorithm.The experimental results show that the proposed model for the constructed dataset achieves high performance and is capable of mining the rich geological information.
文摘地质数据是经济社会发展的上游要素,具有非常重要的价值。当前,地质大数据研究存在数据底座与应用系统未解耦、数据即服务(Data as a Service,DaaS)未充分厘清的问题,这导致地质数据的可复用性差。本文在系统应用数据湖技术的基础上,聚焦多源、异构、海量、时空相关地质数据的汇聚、治理与服务,研究提出基于数据湖技术的地质大数据底座架构,设计由数据采集与清洗层、数据存储层、数据计算与分析层、数据服务层、数据治理层构成的技术架构,并对部分关键技术选型进行验证,为地质大数据中心建设工程提供实践参考。
文摘知识图谱作为当前最有效的知识组织和服务方式,已经成为人工智能的基石,在语义搜索、机器翻译、信息推荐等方面得到了广泛的应用。大数据时代下,地球科学(以下简称地学)分散、多源、异构数据的整合集成、挖掘分析及其知识的智能发现等迫切需要知识图谱的支撑。为了促进地学知识图谱的建设与应用,自2019年启动以来,“深时数字地球国际大科学计划”(Deep-time Digital Earth,简称DDE)就将知识图谱作为其重要的研究建设内容,经过3年多的建设,DDE已经建设形成了大量的地学知识图谱,亟需一站式共享这些知识图谱。文章首先介绍了DDE知识图谱内容体系,分析了DDE知识图谱内容组成及其特征;在此基础上,开展了地学知识图谱一站式共享服务系统的设计,包括系统功能体系和架构的设计;最后介绍了系统实现的技术路线及其关键技术。实践证明系统可有效实现DDE知识图谱的一站式共享服务,可为类似的知识共享服务系统提供参考。
文摘地质领域实体关系抽取是构建地质知识图谱的基础,对地质领域文本信息抽取与知识库构建具有重要的作用。针对地质领域实体关系复杂、缺少人工标注语料库等特点,提出了面向地质领域实体关系联合抽取模型,着重对多地质文本中存在的复杂重叠关系进行识别,避免传统流水线模型中由于实体识别错误造成级联误差。文章构建了高质量地质领域实体关系语料库,提出了基于预训练语言模型BERT(Bidirectional Encoder Representations from Transformers)和双向门控循环单元BiGRU(Bidirectional Gated Recurrent Units)与条件随机场CRF(Conditional Random Field)的序列标注模型,实现对实体关系的联合抽取。在构建数据集上进行了实验,结果表明,本文提出的联合抽取模型在实体关系抽取上的F1值达到0.671,验证了本文模型在地质实体关系抽取的有效性。
文摘矿产资源地质报告中蕴含大量专家经验及基础地质知识。快速准确地从海量矿产资源文本中抽取形成结构化知识已成为目前研究热点,命名实体识别是信息抽取与知识挖掘的重要步骤。针对矿产资源地质文本中存在实体长度长、专业术语多、实体嵌套等问题,已有基于深度学习的命名实体识别直接应用在矿产资源领域性能低下,本文提出了一种矿产资源命名实体识别深度学习模型:ALBERT(A Lite Bidirectional Encoder Representations from Transformers)-BiLSTM(Bi-directional Long Short-Term Memory)-CRF(Conditional Random Field),通过ALBERT预训练语言模型获取地质文本丰富语义特征,同时结合汉字拼音、字形和词边界特征来共同作为嵌入层,从而提高对复杂实体的识别能力。本文方法在人民日报、电子简历数据集及构建的矿产资源数据集上进行实验,结果表明提出方法在准确率、召回率、F1值上分别达到70.97%、64.33%、67.49%。