期刊文献+

面向数字人文的典籍语义词汇抽取研究——以SikuBERT预训练模型为例 被引量:3

Study on Keyword Extraction from Ancient Chinese Classics in the Context of Digital Humanities:Taking SikuBERT Pre-training Model for Example
下载PDF
导出
摘要 利用关键词抽取技术可以帮助读者提取高度凝练的文本主题,快速获得古籍文本的中心内容,对普及古汉语知识和传播中华优秀传统文化有着重要意义。文章以先秦两汉时期的“儒家”“史书”数据库语料为分析对象,测试SikuBERT预训练模型在古汉语文本关键词抽取任务中的性能。实验结果表明,从两类语料中分别抽取的20个关键词基本能体现出相应典籍类别的主题内容:前者与所抽儒家典籍文本的相似度为76%~78%,后者与所抽史书文本的相似度为75%~78%。实验验证了SikuBERT模型在古籍文本关键词抽取中的适用性,能为开展古汉语文本主题分类、聚类和知识深度开发提供参考。 Keyword extraction technology could help readers to obtain the themes as well as the core content of highly-condensed ancient Chinese classics more effectively,which is of great significance to the popularization of ancient Chinese as well as the dissemination of traditional Chinese culture.With Pre-Qin and Han Confucian works and historical works as the corpus,this paper tries to testify SikuBER’s performance in keyword extraction from ancient Chinese classics.The result shows that the 20 keywords extracted from Pre-Qin and Han Confucian works bear a similarity of 76%~78%to the themes of the target texts,while the 20 keywords extracted from Pre-Qin and Han historical works bear a similarity of 75%~78%to the themes of the target texts.Since its applicability in keyword extraction from ancient Chinese classics is verified,SikuBERT could be further used in the thematic classification,text clustering and knowledge mining of ancient Chinese texts.
作者 孙文龙 张逸勤 王凡铭 鱼汇沐 刘江峰 王东波 SUN Wenlong;ZHANG Yiqin;WANG Fanming;YU Huimu;LIU Jiangfeng;WANG Dongbo
出处 《图书馆论坛》 CSSCI 北大核心 2022年第10期31-41,共11页 Library Tribune
基金 国家社科基金重大项目“中国古代典籍跨语言知识库构建及应用研究”(项目编号:21&ZD331) 江苏省社会科学基金项目“人工智能辅助青少年传统文化教育研究”(项目编号:20JYB004)研究成果。
关键词 数字人文 SikuBERT 关键词提取 汉语典籍 Digital Humanities SikuBERT keyword extraction ancient Chinese classics
  • 相关文献

参考文献16

二级参考文献186

共引文献453

同被引文献90

引证文献3

二级引证文献1

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部