期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
面向中文文本的地质语义信息标注与语料库构建 被引量:4
1
作者 张雪英 张春菊 +3 位作者 汪陈 刘文聪 叶鹏 鲁艳旭 《高校地质学报》 CAS CSCD 北大核心 2023年第3期429-438,共10页
实现文本中地质信息的结构化抽取、语义解析、可视化表达和知识图谱构建,将为地质大数据的深度挖掘与利用提供有力的数据基础和技术支撑。无论是采用传统统计模型还是深度学习模型,地质信息语义解析均需要已标注的语料库的支持。特别是... 实现文本中地质信息的结构化抽取、语义解析、可视化表达和知识图谱构建,将为地质大数据的深度挖掘与利用提供有力的数据基础和技术支撑。无论是采用传统统计模型还是深度学习模型,地质信息语义解析均需要已标注的语料库的支持。特别是,地质信息的文本描述具有领域性特征,无法通过通用自然语言语料迁移实现。因此,不同层次的地质信息标注语料库的构建成为地质语义信息解析的关键和基础。文章在分析中文文本中地质语义信息描述语言特点的基础上,从地质实体的时空和属性描述特征出发,清晰表达地质实体的各种语义关系,制定了中文文本的地质语义信息标注体系和标注规范,自主研发了“交互式地质语义信息标注工具”,解决了传统人工标注存在错误率高、重复工作量大等缺点,以矿产资源的中文研究文献和报告为数据源,构建了大规模地质语义信息标注语料库,较为有效地解决了当前相关标准和规模化标准数据匮乏的问题。 展开更多
关键词 中文文本 地质实体 语义关系 标注体系 标注规范
下载PDF
中国八批5058处重点文物保护单位空间分布数据集 被引量:1
2
作者 叶鹏 王曙 +2 位作者 陈培 贾子谊 鲁艳旭 《全球变化数据学报(中英文)》 CSCD 2023年第4期362-368,V0362-V0368,共14页
全国重点文物保护单位是中国对于不可移动文物所核定的最高保护级别,具有极高的历史、艺术和科学价值。基于国务院1961、1982、1988、1996、2001、2006、2013和2019年先后八次发布的5058处全国重点文物保护单位名单,利用百度地图服务接... 全国重点文物保护单位是中国对于不可移动文物所核定的最高保护级别,具有极高的历史、艺术和科学价值。基于国务院1961、1982、1988、1996、2001、2006、2013和2019年先后八次发布的5058处全国重点文物保护单位名单,利用百度地图服务接口提取各重点文物保护单位地理坐标,获得全国重点文物保护单位的空间分布数据集。该数据集包括每个国保单位的名称、编号、分类号、时代、文物类别、批次和地址等信息。数据集以.shp和.xls格式存储,由8个数据文件组成,数据量为25.8 MB(压缩为1个文件,839 KB)。 展开更多
关键词 全国重点文物保护单位 国家级 不可移动文物 空间点位 中国
原文传递
基于BiLSTM-CRF的中文地质时间信息抽取 被引量:11
3
作者 刘文聪 张春菊 +4 位作者 汪陈 张雪英 朱月琴 焦守涛 鲁艳旭 《地球科学进展》 CAS CSCD 北大核心 2021年第2期211-220,共10页
时间信息贯穿于地质现象和事件产生、发展、消亡的整个过程中,反映了地质现象和事件的状态和演变过程。特别是,地质时间表达通常与成矿内在机制和时空演化规律有关。设计并实现了基于深度学习的通用时间和地质时间信息抽取方法。结合地... 时间信息贯穿于地质现象和事件产生、发展、消亡的整个过程中,反映了地质现象和事件的状态和演变过程。特别是,地质时间表达通常与成矿内在机制和时空演化规律有关。设计并实现了基于深度学习的通用时间和地质时间信息抽取方法。结合地质矿产文本中时间信息的描述特点,将时间信息划分为通用时间信息与地质时间信息两种类型,并对两种时间信息类型进行细分;基于自主研发的"交互式矿产信息标注软件",采用交叉验证及意见反馈模式构建了地质时间信息语料库;实现了基于双向长短期记忆神经网络-条件随机场(BiLSTM-CRF)的时间信息抽取方法;并与主流的卷积神经网络(CNN)和条件随机场(CRF)模型的抽取结果进行了比较。实验结果表明,基于双向长短期记忆神经网络-条件随机场的时间信息抽取效果最好,对总体时间抽取的F1值达到95.49%,较好地解决了地质文本中时间信息的规范化表达和结构化抽取问题。 展开更多
关键词 地质时间 时间抽取 时间信息语料库 条件随机场 双向长短期记忆神经网络
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部