-
题名基于预训练模型的文博数据命名实体识别方法
被引量:1
- 1
-
-
作者
赵卓
田侃
张殊
张晨
吴涛
姜丰
游小琳
-
机构
重庆中国三峡博物馆文物信息部
重庆邮电大学网络空间安全与信息学院
-
出处
《计算机应用》
CSCD
北大核心
2022年第S01期48-53,共6页
-
基金
国家自然科学基金资助项目(61802039)
重庆市自然科学基金资助项目(cstc2020jcyj⁃msxmX0804)。
-
文摘
在对文博数据进行知识图谱的构建时,从文本中抽取出有效的三元组尤为重要,因而命名实体识别成为挖掘文博数据的首要任务。传统的中文实体命名识别方法多采用深度神经网络模型,此类方法在对词进行向量化处理时只是将词映射成单一的词向量,并不能很好地表示词的多义性。预训练语言模型能够有效地对字进行向量化表示,将语义信息充分地结合。因此,针对文博数据提出一种基于BERT的预训练实体识别模型,采用BERT预训练模型进行词嵌入,通过利用双向长短期记忆网络(BiLSTM)模型结合上下文信息来增强词向量的语义信息,然后利用条件随机场(CRF)模型进行解码。与传统长短期记忆(LSTM)网络和BiLSTM-CRF模型相比,该模型在微软公开数据集(MSRA)以及自行标注文博知识数据集上表现突出,在文博知识数据集中,模型的准确率达到93.57%,召回率达到75.00%,F1值达到73.58%。
-
关键词
命名实体识别
预训练
知识图谱
自然语言处理
深度学习
-
Keywords
named entity recognition
pre-training
knowledge graph
natural language processing
deep learning
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名面向智慧文博的知识图谱构建综述
被引量:4
- 2
-
-
作者
赵卓
田侃
张殊
张晨
吴涛
张浩然
-
机构
重庆中国三峡博物馆文物信息部
重庆邮电大学网络空间安全与信息法学院
-
出处
《软件导刊》
2022年第5期1-8,共8页
-
基金
国家自然科学基金项目(61802039)
重庆市自然科学基金项目(cstc2020jcyj-msxmX0804)。
-
文摘
知识图谱是大数据与人工智能交叉融合的一个研究热点,能抽取与表达数据中潜在的知识,进而支撑复杂的推理计算与多样化智能应用的构建。近年来,知识图谱在互联网、金融、医疗保险等领域展开初步应用,然而关于知识图谱与文博领域交叉融合的研究较少。以文化与科技融合创新为背景助力智慧博物馆建设,对当前文博知识图谱构建的背景及必要性进行论述,对近年来相关学者在该研究领域取得的成果进行总结分析,提出文博知识图谱系统的构建框架,阐述知识抽取与关系推理的相关方法与技术,总结基于知识图谱的相关应用以及文博知识图谱运营管理中可能面临的问题,并对文博知识图谱构建面临的挑战以及未来可能的工作方向进行分析与展望。
-
关键词
知识图谱
文化大数据
智慧博物馆
知识抽取
-
Keywords
knowledge graph
cultural big data
smart cultural museums
knowledge extraction
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-