题名 结合实体词与句子语义的地理实体关系抽取
被引量:6
1
作者
王海波
王姬卜
黄宗财
牛永勇
吴升
机构
湖北工业大学经济与管理学院
武汉智丽丰信息科技有限公司
福州大学福建省空间信息工程研究中心
出处
《测绘科学技术学报》
CSCD
北大核心
2018年第6期633-636,642,共5页
基金
3551光谷人才计划
国家重点研发计划项目(2017YFB0503500)
+1 种基金
湖北省教育厅人文社会科学研究项目(17Q071)
数字福建建设项目(闽发改网数字函[2016]23号)
文摘
地理实体关系抽取是地理知识获取的重要组成部分。规则制定的繁琐和难以发现的隐式关系表达,使得现有规则匹配与机器学习的方法不能有效解决地理实体关系抽取中存在的中文文本语法结构复杂且地理实体关系显式与隐式表达并存的问题。因此,根据上下文反映显式或隐式地理实体关系的特征,提出利用实体词向量和句子语义向量从文本中抽取地理实体关系的方法。实验表明,利用该方法从网络文本中获取显式和隐式表达的地理实体关系具有较好的效果,在测试集中准确率和召回率可以达到75.2%和79.2%。本研究为构建地理知识图谱、地理信息检索以及地理本体学习提供方法支持。
关键词
空间数据挖掘
网络文本
地理实体关系
长短时记忆网络
词向量
Keywords
spatial data mining
web texts
geographical entity relationship
LSTM
word vector
分类号
P228
[天文地球—大地测量学与测量工程]
题名 顾及上下文的地理实体关系关键词提取研究
被引量:1
2
作者
张苗
黄伟招
孙世豪
郑坤
解明惠
机构
自然资源部海南基础地理信息中心
中国地质大学(武汉)地理与信息工程学院
出处
《测绘与空间地理信息》
2022年第9期198-201,204,共5页
文摘
随着泛在网的发展,以文本为载体的信息数量越来越大,其中,蕴含了丰富的反映自然环境和社会环境的地理空间信息,可作为传统地理信息采集方式的有效补充,为社会生活的方方面面提供地理知识计算服务。传统的地理实体关系抽取方法,利用有限的浅层表面特征,不能深入挖掘地理文本的深层特征以理解文本,难以解决地理实体关系抽取的领域针对性及高质量要求的问题。本文结合各种浅层地理文本特征,顾及上下文对各种特征的影响,构建关键词提取模型,利用深度学习的特征自学习能力,采用复合神经网络的方法提取地理实体关系关键词,为地理实体关系表达提供重要的依据。
关键词
地理实体关系
上下文
关键词
神经网络
Keywords
geographic entity relationship
context
keyword
neural network
分类号
P209
[天文地球—测绘科学与技术]
TP391
[自动化与计算机技术—计算机应用技术]
题名 稀疏地理实体关系的关键词提取方法
被引量:9
3
作者
余丽
陆锋
刘希亮
程诗奋
张雪英
机构
中国科学院地理科学与资源研究所资源与环境信息系统国家重点实验室
中国科学院大学
南京师范大学虚拟地理环境教育部重点实验室
出处
《地球信息科学学报》
CSCD
北大核心
2016年第11期1465-1475,共11页
基金
国家"863"计划项目(2013AA120305)
国家自然科学基金项目(41401460
+1 种基金
41271408
41601421)
文摘
网络文本蕴含地理实体关系抽取技术,需要高时效、强鲁棒的关键词提取方法。与监督学习方法相比,无监督学习方法能捕获文本的动态变化特征并发现新增的关系类型,因此备受关注。其中,基于频率的关键词提取方法获得广泛研究,然而,网络文本蕴含的地理实体关系分布稀疏,基于频率的方法难以直接应用于地理实体关系的关键词提取。为解决该问题,本文基于公开访问的网络资源,提出一种语境增强的关键词提取方法。首先,基于在线百科和开放的同义词词典,通过语境合并和语义融合创建增强的语境,以降低语境中词语的稀疏性。接着,Domain Frequency和Entropy频率统计方法从增强语境中自动构建一个大规模语料。然后,基于该语料选择词法特征并统计其权值,用于扩大语境中词语间的差异。最后,使用选择的词法特征度量增强语境中词语的重要性,将权值最大的词语作为描述地理实体关系的关键词,并基于大规模真实网络文本开展实验。实验结果表明:对于地理实体关系的关键词识别,本文方法的平均精度为85.5%,比Domain Frequency和Entropy方法分别提高41%和36%;对于新增关键词识别,本文方法的精度达到60.3%。语境增强的关键词提取方法能有效地处理地理实体关系分布的稀疏性,可服务于网络文本蕴含地理实体关系的抽取。
关键词
地理 信息检索
地理实体关系
关键词提取
文本挖掘
语境增强
Keywords
geographical information retrieval
geo-entity relation
keyword extraction
text mining
context enhancement
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
P209
[天文地球—测绘科学与技术]
题名 基于自动回标的地理实体关系语料库构建方法
被引量:12
4
作者
王姬卜
陆锋
吴升
余丽
机构
福州大学福建省空间信息工程研究中心
海西政务大数据应用协同创新中心
中国科学院地理科学与资源研究所资源与环境信息系统国家重点实验室
中国科学院文献情报中心
出处
《地球信息科学学报》
CSCD
北大核心
2018年第7期871-879,共9页
基金
国家自然科学基金重点项目(41631177)
数字福建建设项目(闽发改网数字函[2014]191号
+2 种基金
[2016]23号
[2016]77号)
福建省科技创新平台项目(2015H2001)~~
文摘
地理实体关系语料库是地理信息获取与地理知识服务的基础数据资源,其规模直接影响机器学习模型训练的效果。快速更新的网络文本不断涌现新的关系实例,要求语料库及时更新以覆盖更丰富的关系实例。手工构建和更新语料库成本高昂,亟需一种快速构建大规模地理实体关系语料库的方法。本文提出一种基于回标技术的地理实体关系语料库构建方法。首先,参考地理实体分类标准与语义关系、空间关系分类标准,针对地理实体关系的自然语言描述习惯,建立地理实体关系的标注体系;然后,结合精确匹配与模糊匹配策略,提高客体匹配的覆盖率;接着,基于优序图法建立句子打分规则,实现种子三元组到句子映射的定量评价;最后,使用中文百度百科文本验证方法的有效性。实验结果显示,本文方法平均回标成功率为67.83%,关系标注的准确率为76.36%。相比人工构建空间关系标注语料库的过程,本文提出的语料自动构建方法,标注速度快,规模大,为自动扩充标注语料库提出了可行方案。同时,该方法兼顾了地理实体间的语义关系和空间关系,且关系类型不受限,可用于开放式关系抽取任务。
关键词
地理实体关系
语料库构建
自动回标
地理 信息抽取
标注体系
Keywords
geographical relations
corpus construction
automatic annotation
geographical information extraction
annotation scheme
分类号
P208
[天文地球—地图制图学与地理信息工程]
题名 基于语义文法的地理实体位置关系的获取
被引量:3
5
作者
周琦
陆叶
李婷玉
王亚
张再跃
曹存根
机构
江苏科技大学计算机科学与工程学院
中国科学院计算技术研究所智能信息处理重点实验室
出处
《计算机科学》
CSCD
北大核心
2016年第7期208-216,共9页
基金
国家自然科学基金项目(91224006
61173063
+1 种基金
61203284)
科技部项目(201303107)资助
文摘
地理信息与数据是客观知识世界的重要组成部分。研究如何从大量非结构化的信息中自动抽取地理实体位置关系具有重要意义。提出一种基于语义文法的地理实体位置关系获取方法,该方法可准确地从网页文本中获取多个地理实体之间的复合位置关系。首先,设计一种反映地理实体位置关系的语义文法GeoRSG。GeoRSG反映了地理实体位置关系的层次分类关系,并采用基于规则的方式刻画地理实体位置关系在文本中的语言表达方式。然后,实现地理实体位置关系解析器GeoRSG Parser。该解析器利用GeoRSG对文本进行解析,获得谓词表达形式的位置关系知识。实验结果显示,该方法从1000条语句中获取了81条三元和816条二元地理实体位置关系,并且取得了88.85%的正确率。
关键词
地理 实体 位置关系
语义文法
知识抽取
Keywords
Relationship between geographic entities, Semantic grammar, Knowledge acquisition from text
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
题名 基于通用知识库的地理实体开放关系过滤方法
被引量:5
6
作者
高嘉良
余丽
仇培元
陆锋
机构
中国科学院地理科学与资源研究所资源与环境信息系统国家重点实验室
中国科学院大学
中国科学院文献情报中心
江苏省地理信息资源开发与利用协同创新中心
出处
《地球信息科学学报》
CSCD
北大核心
2019年第9期1392-1401,共10页
基金
国家自然科学基金重点项目(41631177)~~
文摘
文本数据为地理知识服务提供了海量资源。面向文本数据的地理实体关系抽取是地理知识图谱构建的核心技术,直接影响地理知识推理与服务的质量。由于文本数据不可避免地含有噪声,从文本中抽取的地理实体关系需要质量评价和信息过滤。本文提出一种基于通用知识库的地理实体关系过滤方法,针对已抽取的地理实体关系从中筛选出高质量的结果:先利用"本体知识"、"事实知识"和"同义词知识"构建地理关系知识库,作为信息过滤的参照数据;再基于分布式向量表示模型度量已抽取的地理实体关系与参照数据之间的语义相似性,以提高地理知识图谱的丰度与鲜度。实验结果表明,相比业界流行的"Stanford OpenIE"工具,本文所提出的方法可将置信度区间[0, 0.2]和[0.8, 1]的MSE(Mean Square Error)从59.27%降至3.94%,AUC(Area Under the ROC Curve)从0.51提升至0.89。
关键词
文本数据
地理实体关系 抽取
地理 知识图谱构建
通用知识库
开放关系 抽取
地理 信息质量评价
信息过滤
Keywords
text data
geo-entity relations extraction
geo-KG building
common knowledge bases
open relation extraction
evaluation of geographic information quality
information filtering
分类号
P208
[天文地球—地图制图学与地理信息工程]