期刊文献⁺

任意字段

题名或关键词

题名

关键词

文摘

作者

第一作者

机构

刊名

分类号

参考文献

作者简介

基金资助

栏目信息

面向数字人文的典籍语义词汇抽取研究——以SikuBERT预训练模型为例被引量：3

Study on Keyword Extraction from Ancient Chinese Classics in the Context of Digital Humanities:Taking SikuBERT Pre-training Model for Example

下载PDF

导出

摘要利用关键词抽取技术可以帮助读者提取高度凝练的文本主题,快速获得古籍文本的中心内容,对普及古汉语知识和传播中华优秀传统文化有着重要意义。文章以先秦两汉时期的“儒家”“史书”数据库语料为分析对象,测试SikuBERT预训练模型在古汉语文本关键词抽取任务中的性能。实验结果表明,从两类语料中分别抽取的20个关键词基本能体现出相应典籍类别的主题内容:前者与所抽儒家典籍文本的相似度为76%~78%,后者与所抽史书文本的相似度为75%~78%。实验验证了SikuBERT模型在古籍文本关键词抽取中的适用性,能为开展古汉语文本主题分类、聚类和知识深度开发提供参考。 Keyword extraction technology could help readers to obtain the themes as well as the core content of highly-condensed ancient Chinese classics more effectively,which is of great significance to the popularization of ancient Chinese as well as the dissemination of traditional Chinese culture.With Pre-Qin and Han Confucian works and historical works as the corpus,this paper tries to testify SikuBER’s performance in keyword extraction from ancient Chinese classics.The result shows that the 20 keywords extracted from Pre-Qin and Han Confucian works bear a similarity of 76%~78%to the themes of the target texts,while the 20 keywords extracted from Pre-Qin and Han historical works bear a similarity of 75%~78%to the themes of the target texts.Since its applicability in keyword extraction from ancient Chinese classics is verified,SikuBERT could be further used in the thematic classification,text clustering and knowledge mining of ancient Chinese texts.

作者孙文龙张逸勤王凡铭鱼汇沐刘江峰王东波 SUN Wenlong;ZHANG Yiqin;WANG Fanming;YU Huimu;LIU Jiangfeng;WANG Dongbo

机构地区南京工业大学外国语言文学学院南京大学信息管理学院南京熙道文化传播有限公司南京农业大学信息管理学院

出处《图书馆论坛》 CSSCI 北大核心 2022年第10期31-41,共11页 Library Tribune

基金国家社科基金重大项目“中国古代典籍跨语言知识库构建及应用研究”(项目编号:21&ZD331) 江苏省社会科学基金项目“人工智能辅助青少年传统文化教育研究”(项目编号:20JYB004)研究成果。

关键词数字人文 SikuBERT 关键词提取汉语典籍 Digital Humanities SikuBERT keyword extraction ancient Chinese classics

分类号 G250.7 [文化科学—图书馆学] G255.1 [文化科学—图书馆学]

引文网络
相关文献

参考文献16

1柯平,宫平.数字人文研究演化路径与热点领域分析[J].中国图书馆学报,2016,42(6):13-30. 被引量：173
2王东波,刘畅,朱子赫,刘江峰,胡昊天,沈思,李斌.SikuBERT与SikuRoBERTa:面向数字人文的《四库全书》预训练模型构建及应用研究[J].图书馆论坛,2022,42(6):30-43. 被引量：49
3刘畅,王东波,胡昊天,张逸勤,李斌.面向数字人文的融合外部特征的典籍自动分词研究——以SikuBERT预训练模型为例[J].图书馆论坛,2022,42(6):44-54. 被引量：23
4耿云冬,张逸勤,刘欢,王东波.面向数字人文的中国古代典籍词性自动标注研究——以SikuBERT预训练模型为例[J].图书馆论坛,2022,42(6):55-63. 被引量：11
5胡昊天,张逸勤,邓三鸿,王东波,冯敏萱,刘浏,李斌.面向数字人文的《四库全书》子部自动分类研究——以SikuBERT和SikuRoBERTa预训练模型为例[J].图书馆论坛,2022,42(12):138-148. 被引量：15
6徐润华,王东波,刘欢,梁媛,陈康.面向古籍数字人文的《资治通鉴》自动摘要研究——以SikuBERT预训练模型为例[J].图书馆论坛,2022,42(12):129-137. 被引量：9
7刘江峰,冯钰童,王东波,胡昊天,张逸勤.数字人文视域下SikuBERT增强的史籍实体识别研究[J].图书馆论坛,2022,42(10):61-72. 被引量：18
8胡少虎,张颖怡,章成志.关键词提取研究综述[J].数据分析与知识发现,2021,5(3):45-59. 被引量：35
9许晓昕,李安贵.一种基于TFIDF的网络聊天关键词提取算法[J].计算机技术与发展,2006,16(3):122-123. 被引量：15
10张建娥.基于TFIDF和词语关联度的中文关键词提取方法[J].情报科学,2012,30(10):1542-1544. 被引量：43

二级参考文献186

1俞敬松,魏一,张永伟,杨浩.基于非参数贝叶斯模型和深度学习的古文分词研究[J].中文信息学报,2020(6):1-8. 被引量：16
2程宁,李斌,葛四嘉,郝星月,冯敏萱.基于BiLSTM-CRF的古汉语自动断句与词法分析一体化研究[J].中文信息学报,2020(4):1-9. 被引量：21
3吴智嘉.民族古籍数字化的现状及科学保护问题研究[J].黑龙江民族丛刊,2019(5):108-114. 被引量：3
4董淑平.浅论中国古代法律思想对现代法治的作用[J].法制博览,2019,0(36):247-248. 被引量：2
5钱爱兵,江岚.基于改进TF-IDF的中文网页关键词抽取——以新闻网页为例[J].情报理论与实践,2008,31(6):945-950. 被引量：29
6陈悦,陈超美,刘则渊,胡志刚,王贤文.CiteSpace知识图谱的方法论功能[J].科学学研究,2015,33(2):242-253. 被引量：7143
7樊嘉禄,陈发俊.“盲人摸象”的认识论启示[J].安徽农业大学学报（社会科学版）,2001,10(1):33-34. 被引量：4
8马杰,付海波,刘菲.论《左传》的语言特色[J].辽宁工程技术大学学报（社会科学版）,2004,6(4):412-413. 被引量：2
9王来华,刘毅.2004年舆情研究综述[J].天津大学学报（社会科学版）,2005,7(4):309-313. 被引量：32
10周强.规则和统计相结合的汉语词类标注方法[J].中文信息学报,1995,9(3):1-10. 被引量：43

共引文献453

1陈佳,王陈欣.基于CiteSpace的国外混合式语言学习知识图谱分析及启示[J].语言政策与语言教育,2020(1):93-107.
2余本功,曹雨蒙,陈杨楠,杨颖.基于nLD-SVM-RF的短文本分类研究[J].数据分析与知识发现,2020,4(1):111-120. 被引量：10
3熊回香,黄晓捷,陈子薇,李昕然.基于图数据库Neo4j的学者合作图谱分析——以数字人文领域为例[J].知识管理论坛,2022(4):465-476. 被引量：2
4朱丽雅,张珺,洪亮,罗绍辉,兰度.数字人文领域的知识图谱:研究进展与未来趋势[J].知识管理论坛,2022(1):87-100. 被引量：5
5陈慧,南梦洁.数字人文视域下大型体育赛事档案资源整合模式研究[J].山西档案,2022(1):27-39. 被引量：9
6李锋亮,舒宜彬.大学优秀学生集体形成要素的实证分析——以清华大学为例[J].教育发展研究,2020(13):50-56. 被引量：1
7黄水清,刘浏,王东波.国内外数字人文研究进展[J].情报学进展,2022(1):50-84. 被引量：11
8刘阳.我国信息资源管理领域数字人文研究的内容及特征识别[J].情报科学,2023,41(11):170-175. 被引量：1
9丁华东,周子晴.数字人文:数字时代社会记忆再生产的新景观[J].情报科学,2023,41(11):1-7. 被引量：2
10张景素,魏明珠.基于加权多策略选样的古文断句模型研究——以古籍《宋史》为例[J].情报科学,2022,40(10):164-170.

同被引文献90

1陈大康.从数理语言学看后四十回的作者——与陈炳藻先生商榷[J].红楼梦学刊,1987(1):293-318. 被引量：54
2李贤平.《红楼梦》成书新说[J].复旦学报（社会科学版）,1987,29(5):3-16. 被引量：66
3林仲湘,肖培.类书索引和电脑化[J].广西大学学报（哲学社会科学版）,1995,17(1):103-108. 被引量：2
4蒋寅.语象·物象·意象·意境[J].文学评论,2002(3):69-75. 被引量：161
5肖怀志,李明杰.基于本体的历史年代知识元在古籍数字化中的应用——以《三国志》历史年代知识元的抽取、存储和表示为例[J].图书情报知识,2005,22(3):28-33. 被引量：15
6王美艳,赵伟.基于唐诗语料库“词”的提取及深入研究[J].长春工业大学学报,2005,26(3):217-220. 被引量：2
7傅间莲,陈群秀.一种新的自动文摘系统评价方法[J].计算机工程与应用,2006,42(18):176-177. 被引量：9
8周学文,江荻.《元朝秘史》的计算机自动校勘方法[J].语言文字应用,2007(3):136-142. 被引量：2
9夏南强.类书知识组织方法及其现代学术意义[J].图书情报工作,2007,51(12):95-98. 被引量：2
10黄建年,侯汉清.农业古籍断句标点模式研究[J].中文信息学报,2008,22(4):31-38. 被引量：28

引证文献3

1刘懋霖,赵萌,王昊.面向古诗词的物象库构建方法及其分布规律研究[J].图书馆杂志,2024,43(1):96-108. 被引量：1
2吴娜,刘畅,刘江峰,王东波.AIGC驱动古籍自动摘要研究:从自然语言理解到生成[J].图书馆论坛,2024,44(9):111-123.
3李明杰,郑翔,关思雨.数字人文在古籍整理领域的应用路径及发展策略[J].中国图书馆学报,2024,50(4):21-38.

二级引证文献1

1黄劲伟,苗文權.基于CiteSpace的多学科地名研究可视化分析[J].绵阳师范学院学报,2024,43(7):86-102.

1乌云(文/图).蒙古族在传统与现代之间[J].中国国家旅游,2022(4):100-109.
2徐雷,秦翠玉,李娇.科技文献数据化及组织呈现路径研究[J].中国图书馆学报,2022,48(3):25-42. 被引量：9
3潘杰.古汉语学科课程思政教学体系的建构与实施[J].山西教育（管理版）,2022(5):64-65.
4王红,杨晴.数字人文视域下图书馆古籍资源的开发与利用[J].图书情报导刊,2022,7(7):1-6. 被引量：12
5黄红梅,任广慧.国外高校图书馆数字人文服务实践与启示[J].大学图书情报学刊,2022,40(5):139-144. 被引量：3
6唐素雪.巧借故事,为文言文教学注入灵动的智慧[J].四川教育,2021(30):36-36.
7林立涛,王东波,刘江峰,李斌,冯敏萱.数字人文视域下典籍动物命名实体识别研究——以SikuBERT预训练模型为例[J].图书馆论坛,2022,42(10):42-50. 被引量：10
8徐宏,李颖彦,申启武.数字时代有声阅读的跨媒介叙事机理[J].中国广播,2022(4):3-8. 被引量：2
9《大学图书情报学刊》2022年征稿启事[J].大学图书情报学刊,2022,40(5).
10王飞,徐芳.我国图情档领域关联数据的研究现状与前沿热点[J].图书馆理论与实践,2022(5):96-104. 被引量：2

图书馆论坛

2022年第10期

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...

;

使用帮助返回顶部