SikuBERT与SikuRoBERTa:面向数字人文的《四库全书》预训练模型构建及应用研究被引量：39

Construction and Application of Pre-trained Models of Siku Quanshu in Orientation to Digital Humanities

下载PDF

导出

摘要数字人文研究需要大规模语料库和高性能古文自然语言处理工具的支持。面向英语和现代汉语的预训练语言模型已在相关领域提升了文本挖掘精度,数字人文研究的兴起亟须面向古文自动处理领域的预训练模型。文章以校验后的高质量《四库全书》全文语料作为无监督训练集,基于BERT模型框架,构建面向古文智能处理任务的SikuBERT和SikuRoBERTa预训练语言模型。实验进一步设计面向《左传》语料的古文自动分词、断句标点、词性标注和命名实体识别等验证任务,分别对SikuBERT、SikuRoBERTa预训练模型和其他3种基线模型(BERT-base、RoBERTa、GuwenBERT)进行对比试验。结果显示:SikuBERT和SikuRoBERTa模型在全部4个下游验证任务中的表现均超越其他基线预训练模型,表明文章提出的预训练模型具有较强的古文词法、句法、语境学习能力和泛化能力。基于验证任务效果最优的SikuRoBERTa预训练模型,进一步构建“SIKUBERT典籍智能处理平台”。该平台提供典籍自动处理、检索和自动翻译等在线服务,可以辅助哲学、文学、历史学等领域学者在不具备数据挖掘与深度学习的专业背景下,以直观可视化方式对典籍文本进行高效率、多维度、深层次、细粒化的知识挖掘与分析。 Digital humanities research needs the support of large-scale text corpuses and high performance natural language processing tools.Pre-trained language models for English and modern Chinese have greatly improved the accuracy of text mining in related fields.The rise of digital humanities research calls for pre-trained models for automatic processing of ancient texts.Based on the BERT model framework,SikuBERT and SikuRoBERTa pretrained language models for intelligent processing of ancient texts are constructed by using the proofread and highquality full-text corpus of Siku Quanshu as the unsupervised training set.In this study,automatic word segmentation,sentence punctuation,part-of-speech tagging and named entity recognition tasks for the corpus of Zuo Zhuan are further designed.SikuBERT and SikuRoBERTa pre-trained models are used to compare with three other baseline models,i.e.,BERT-base,RoBERTa and GuwenBERT.The results show that the performances of SikuBERT and SikuRoBERTa models in all four downstream validation tasks are better than other benchmark pretrained models.This fact indicates that the pre-trained models as proposed in this paper have a stronger ability to learn the morphology,syntax,context and generalization of ancient Chinese texts.Furthermore,based on the SikuRoBERTa pre-trained model with the best verification task effect,this paper constructs the"SikuBERT intelligent processing platform for classical books".The platform provides books with three types of online services,i.e.,automatic processing,retrieval and translation.These services can help scholars in areas such as philosophy,literature and history,who do not have the professional background of data mining and deep learning,to gain highly efficient,multi-dimensional,in-depth and refined knowledge mining and analysis through intuitive visual text techniques.

作者王东波刘畅朱子赫刘江峰胡昊天沈思李斌 WANG Dongbo;LIU Chang;ZHU Zihe;LIU Jiangfeng;HU Haotian;SHEN Si;LI Bin

机构地区南京农业大学信息管理学院南京大学信息管理学院南京理工大学经济管理学院南京师范大学文学院

出处《图书馆论坛》 CSSCI 北大核心 2022年第6期30-43,共14页 Library Tribune

基金国家社会科学基金重大项目“中国古代典籍跨语言知识库构建及应用研究”(项目编号:21&ZD331) 江苏省社会科学基金青年项目“人文计算视角下的先秦人物知识获取及分析研究”(项目编号:19TQC003)研究成果。

关键词数字人文四库全书预训练模型深度学习 digital humanities Siku Quanshu pre-trained models deep learning

分类号 G250.7 [文化科学—图书馆学]

引文网络
相关文献

参考文献11

1王乃钰,叶育鑫,刘露,凤丽洲,包铁,彭涛.基于深度学习的语言模型研究进展[J].软件学报,2021,32(4):1082-1115. 被引量：37
2QIU XiPeng,SUN TianXiang,XU YiGe,SHAO YunFan,DAI Ning,HUANG XuanJing.Pre-trained models for natural language processing: A survey[J].Science China(Technological Sciences),2020,63(10):1872-1897. 被引量：136
3余同瑞,金冉,韩晓臻,李家辉,郁婷.自然语言处理预训练模型的研究综述[J].计算机工程与应用,2020,56(23):12-22. 被引量：42
4李明杰,张纤柯,陈梦石.古籍数字化研究进展述评(2009-2019)[J].图书情报工作,2020,64(6):130-137. 被引量：26
5欧阳剑.面向数字人文研究的大规模古籍文本可视化分析与挖掘[J].中国图书馆学报,2016,42(2):66-80. 被引量：105
6郑永晓,段海蓉.古籍数字化、数字人文与古代文学研究——访中国社会科学院郑永晓教授[J].吉首大学学报（社会科学版）,2020,41(2):144-151. 被引量：13
7何宗美.四库学建构的思考[J].苏州大学学报（哲学社会科学版）,2017,38(1):172-181. 被引量：11
8邓洪波,张洪志.2011-2015年四库学研究综述[J].湖南大学学报（社会科学版）,2016,30(6):31-37. 被引量：1
9崔丹丹,刘秀磊,陈若愚,刘旭红,李臻,齐林.基于Lattice LSTM的古汉语命名实体识别[J].计算机科学,2020,47(S02):18-22. 被引量：13
10王倩,王东波,李斌,许超.面向海量典籍文本的深度学习自动断句与标点平台构建研究[J].数据分析与知识发现,2021,5(3):25-34. 被引量：10

二级参考文献131

1司马朝军.台湾四库学论著目录(三)[J].文献,2002(1):154-157. 被引量：2
2司马朝军.台湾四库学论著目录(一)[J].文献,2001(2):238-243. 被引量：2
3周积明.“四库学”:历史与思考[J].清史研究,2000(3):50-62. 被引量：17
4陈筱芳.“春秋五霸”质疑与四霸之成功[J].西南民族大学学报（人文社会科学版）,1992,13(5):83-88. 被引量：2
5罗志田.走向国学与史学的“赛先生”——五四前后中国人心目中的“科学”一例[J].近代史研究,2000(3):59-94. 被引量：47
6汪受宽,刘凤强.《四库全书》研究的回顾与思考[J].史学史研究,2005(1):62-66. 被引量：12
7阚景忠.古文不标点断句的文化阐释[J].徐州师范大学学报（哲学社会科学版）,2005,31(2):67-69. 被引量：2
8陈占山.《四库总目》对中国传统星占学的否定[J].河北师范大学学报（哲学社会科学版）,2006,29(3):121-127. 被引量：2
9王浩畅,赵铁军.基于SVM的生物医学命名实体的识别[J].哈尔滨工程大学学报,2006,27(B07):570-574. 被引量：18
10何琳,曹玲.农业古籍本体的构建及其检索机制研究[J].现代图书情报技术,2006(12):37-39. 被引量：13

共引文献398

1刘石,李飞跃.大数据技术与传统文献学的现代转型[J].中国社会科学,2021(2):63-81. 被引量：33
2丁美荣,冯伟森,黄荣翔,罗嘉俊.基于预训练模型和基础词典扩展的酒店评论情感分析[J].计算机系统应用,2022,31(11):296-308. 被引量：3
3雷珏莹,侯西龙,王晓光.数智时代古籍数字化再造的逻辑与进路[J].数字人文研究,2022,2(2):46-56. 被引量：15
4陈慧,南梦洁.数字人文视域下大型体育赛事档案资源整合模式研究[J].山西档案,2022(1):27-39. 被引量：4
5范春义.《四库全书》特质与四库学学科体系构想[J].四库学,2020(1):159-173. 被引量：1
6高远.20世纪70年代以来台湾地区四库学研究[J].四库学,2020(1):24-67.
7张景素,魏明珠.基于加权多策略选样的古文断句模型研究——以古籍《宋史》为例[J].情报科学,2022,40(10):164-170.
8阿布都克力木·阿布力孜,张雨宁,阿力木江·亚森,郭文强,哈里旦木·阿布都克里木.预训练语言模型的扩展模型研究综述[J].计算机科学,2022,49(S02):43-54. 被引量：6
9王伟,阮文翰,孟祥福.融合对抗训练的中文GPT对话模型研究[J].辽宁工程技术大学学报（自然科学版）,2023(3):378-384.
10邱凯锋,王则远,何志超,付凯利,梅童霖,关英杰,高飞,伍俊妍.人工智能技术在超说明书用药循证中的应用研究[J].中华临床医师杂志（电子版）,2023,17(12):1212-1218.

同被引文献476

1陈美杉,夏晨曦.肝癌患者在线提问的命名实体识别研究:一种基于迁移学习的方法[J].数据分析与知识发现,2019,3(12):61-69. 被引量：13
2赵薇.数字时代人文学研究的变革与超越——数字人文在中国[J].探索与争鸣,2021(6):191-206. 被引量：28
3马开颜,萧瑶,陈骞,郝梦瑶,杨冠灿.数字人文视域下中国当代文学作品中的植物意象研究[J].数字人文研究,2022,2(2):35-45. 被引量：2
4肖瑞,胡冯菊,裴卫.基于BiLSTM-CRF的中医文本命名实体识别[J].世界科学技术-中医药现代化,2020,22(7):2504-2510. 被引量：30
5黄水清,刘浏,王东波.国内外数字人文研究进展[J].情报学进展,2022(1):50-84. 被引量：6
6张璐,彭雪莹,陈静.突发公共卫生事件中大学生健康信息搜寻意图研究[J].情报科学,2022,40(10):51-59. 被引量：6
7李斌,袁义国,芦靖雅,冯敏萱,许超,曲维光,王东波.第一届古代汉语分词和词性标注国际评测[J].中文信息学报,2023,37(3):46-53. 被引量：4
8俞敬松,魏一,张永伟,杨浩.基于非参数贝叶斯模型和深度学习的古文分词研究[J].中文信息学报,2020(6):1-8. 被引量：14
9程宁,李斌,葛四嘉,郝星月,冯敏萱.基于BiLSTM-CRF的古汉语自动断句与词法分析一体化研究[J].中文信息学报,2020(4):1-9. 被引量：16
10黄覺弘.孔繼涵《杜諤〈春秋會義〉所引書目》辨正[J].历史文献研究,2021(1):120-131. 被引量：1

引证文献39

1黄水清,刘浏,王东波.国内外数字人文研究进展[J].情报学进展,2022(1):50-84. 被引量：6
2张景素,魏明珠.基于加权多策略选样的古文断句模型研究——以古籍《宋史》为例[J].情报科学,2022,40(10):164-170.
3李斌,袁义国,芦靖雅,冯敏萱,许超,曲维光,王东波.第一届古代汉语分词和词性标注国际评测[J].中文信息学报,2023,37(3):46-53. 被引量：4
4刘欢,刘浏,王东波.数字人文视角下的领域知识图谱自动问答研究[J].科技情报研究,2022,4(1):46-59. 被引量：3
5王东波,陆昊翔,彭运海,包平,徐晨飞.面向《方志物产》的自动断句深度学习模型构建研究[J].中国科技史杂志,2022,43(2):192-203. 被引量：3
6孙文龙,张逸勤,王凡铭,鱼汇沐,刘江峰,王东波.面向数字人文的典籍语义词汇抽取研究——以SikuBERT预训练模型为例[J].图书馆论坛,2022,42(10):31-41. 被引量：1
7林立涛,王东波,刘江峰,李斌,冯敏萱.数字人文视域下典籍动物命名实体识别研究——以SikuBERT预训练模型为例[J].图书馆论坛,2022,42(10):42-50. 被引量：8
8谢靖,刘江峰,王东波.古代中国医学文献的命名实体识别研究——以Flat-lattice增强的SikuBERT预训练模型为例[J].图书馆论坛,2022,42(10):51-60. 被引量：6
9王进,张义.古汉语自动分词技术研究现状及进展[J].海南开放大学学报,2022,23(3):61-69.
10蒋艳,刘宇琳.基于数字人文技术的张謇水利思想研究[J].河海大学学报（哲学社会科学版）,2022,24(5):14-21.

二级引证文献98

1武利红,侯惠宁,张丝雨.我国图书馆数字人文相关研究可视化分析[J].玉林师范学院学报,2023,44(3):115-122.
2张锦胜,林泽斐.数字人文视角下多日记人物关系联合挖掘及可视化研究——以西南联大相关日记为例[J].知识管理论坛,2023(3):171-182.
3康钧博.浅谈AIGC技术在广电行业的应用[J].黑龙江广播电视技术,2023(4):24-26.
4林立涛,王东波.古籍文本挖掘技术综述[J].科技情报研究,2023,5(1):78-91. 被引量：4
5孙燕,刘浏,王东波.《春秋左传正义》引书计算人文研究[J].图书情报工作,2023,67(2):119-130. 被引量：2
6张朦,刘忠宝.数字人文环境下融入多特征的词命名实体识别[J].计算机系统应用,2023,32(3):300-308.
7贾楠,龚蛟腾.数字人文视域下古籍研究进展及趋势探析[J].图书馆研究与工作,2023(4):23-29. 被引量：3
8张贞港,余传明.基于实体与关系融合的知识图谱补全模型研究[J].数据分析与知识发现,2023,7(2):15-25.
9包平,陈佳勇,左亮.基于数字人文的方志物产知识库实践与思考[J].南京师范大学文学院学报,2023(1):44-52.
10储节旺,杜秀秀,李佳轩.人工智能生成内容对智慧图书馆服务的冲击及应用展望[J].情报理论与实践,2023,46(5):6-13. 被引量：33

1杨莹霞,何山.北魏《邴勖墓志》释文校补[J].保定学院学报,2021,34(2):95-99.
2寻霖.集众书为一帙,汇众善于一书——王晚霞《濂溪志新编》简评[J].湖南第一师范学院学报,2020,20(2):111-113.
3赵鹏,邹毅,张硕通讯作者.在“暖冬”背景下浅谈“冬不藏精,春必病温”[J].大健康,2020,0(14):0104-0104.
4杨文柏,伍文彬,陈崇利,曾子键,梁超.从扶木以助先后天之本探讨调肝之法的应用[J].世界最新医学信息文摘,2021(15):313-314.
5柳士博,张艳,王艳霞.基于肾藏精起亟论治慢性心力衰竭[J].光明中医,2022,37(3):533-536.
6邬满,文莉莉,孙苗.注意力机制海洋场景图像理解算法[J].计算机工程与应用,2022,58(10):231-239. 被引量：1
7王书才.中华书局版《史记》修订本本纪部分标点献疑五则[J].佳木斯大学社会科学学报,2021,39(4):152-154.
8李建新.数字孪生海河建设及关键技术[J].中国水利,2022(9):17-20. 被引量：9
9段刚龙,王妍,马鑫,杨泽阳.银行客户分类的数据特征选择方法与实证研究[J].计算机工程与应用,2022,58(11):302-312. 被引量：2
10刘贤娴,张艳,徐瑶,孙晓宁,邹文聪,申欣宜,王雅琴.基于“肾藏精起亟”理论观察补肾活血复方通过干预klotho改善心梗后心衰大鼠心肌纤维化[J].中医药临床杂志,2021,33(12):2359-2364. 被引量：6

图书馆论坛

2022年第6期

浏览历史

内容加载中请稍等...

SikuBERT与SikuRoBERTa:面向数字人文的《四库全书》预训练模型构建及应用研究被引量：39

参考文献11

二级参考文献131

共引文献398

同被引文献476

引证文献39

二级引证文献98

相关作者

相关机构

相关主题

浏览历史

SikuBERT与SikuRoBERTa:面向数字人文的《四库全书》预训练模型构建及应用研究 被引量：39

参考文献11

二级参考文献131

共引文献398

同被引文献476

引证文献39

二级引证文献98

相关作者

相关机构

相关主题

浏览历史

SikuBERT与SikuRoBERTa:面向数字人文的《四库全书》预训练模型构建及应用研究被引量：39