-
题名基于文本解析的栅格类图表知识抽取方法
- 1
-
-
作者
黄梓航
陈令羽
蒋秉川
-
机构
战略支援部队信息工程大学研究生院
战略支援部队信息工程大学地理空间信息学院
-
出处
《地理空间信息》
2023年第10期23-27,共5页
-
基金
国家重点研发计划资助项目(2017YFB0503500)
国家自然科学基金重点资助项目(4213000495)。
-
文摘
栅格类图表包含了丰富的时空含义,文本信息是其知识特征的主要体现。提出一种基于文本解析的栅格类图表知识抽取方法。首先,通过CRAFT+CRNN的方法,进行图表文本信息的定位与矢量化;其次,在分析大规模样本数据的基础上,解析了常见图表数据的结构特征,并提出采用模板和机器学习2种方法进行文本块的结构类别判断;最后,利用自然语言处理方法,构建栅格类图表的知识标签体系。实验表明,该方法在栅格类图表的文本定位矢量化、文本块的结构判断等方面具有较高的准确率,能够进行栅格图表的知识标签体系构建,抽取图表中包含的知识,为海量数据的快速检索和理解提供支撑。
-
关键词
栅格图表
文本解析
知识抽取
矢量化
结构判断
自然语言处理
-
Keywords
raster chart
text parsing
knowledge extraction
vectorization
structure judgment
natural language processing
-
分类号
P208
[天文地球—地图制图学与地理信息工程]
-
-
题名面向中医古籍的单篇文本知识标引与结构解析技术
被引量:1
- 2
-
-
作者
刘耀
李冠霖
李浣青
-
机构
中国科学技术信息研究所
巴黎理工学院Samovar实验室
北京大学软件与微电子学院
-
出处
《图书情报工作》
CSSCI
北大核心
2022年第24期118-127,共10页
-
基金
国家社会科学基金项目“数字资源知识共享与知识再利用模式与方法研究”(项目编号:21BTQ011)
国家重点研发计划“数据驱动的科技咨询服务平台建设”(项目编号:2018YFB143502)研究成果之一。
-
文摘
[目的/意义]在无标注资源的情况下,对中医古籍文本领域的分词和命名实体识别技术进行研究,基于分词与命名实体识别模型,对中医领域文本进行分词并进行语言模型的训练。[方法/过程]在训练过程中,研究采用实体概念排序预测与遮罩词预测的多任务学习框架,有效将词典中的先验概念知识融入到语言模型中,得到融合语篇语义与先验知识的语言模型。从模型训练中使用的MLM任务出发,设计基于完形填空类型的文本生成任务来进行单篇古籍文本的知识标引,以短句一实体为路径,遍历单篇文本中所有的短句并进行知识概念的全标引,并基于先验规则的挖掘,从单篇文本中发现隐性知识结构,从而构建隐性篇章结构。[结果/结论]对比实验显示,在仅有5个标注样本的情况下,研究提出的文本标引方式能够有效利用模型的先验知识;相较于传统方法,能更好地解决标注缺失情况下的中医古籍文本知识标引的问题,为进一步实现中医古籍单篇文本的解析提供解决方法。对中医古籍进行整理、校注,挖掘其中蕴含的知识,对中医学与现代医学的发展,以及医学史的研究都有重要的理论与现实意义。
-
关键词
单篇文本知识结构解析
知识标引
先验知识
词微调语言模型
实体概念识别
-
Keywords
single text knowledge structure parsing
knowledge priming
priorknowledge
word fine-tuning
language models
entity concept identification
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-