面向数字人文的《四库全书》子部自动分类研究——以SikuBERT和SikuRoBERTa预训练模型为例被引量：15

Automatic Text Classification of“Zi”Part of Siku Quanshu from the Perspective of Digital Humanities:Based on SikuBERT and SikuRoBERTa Pre-trained Models

下载PDF

导出

摘要文章基于面向古文自然语言处理的SikuBERT和SikuRoBERTa预训练语言模型,在《四库全书》子部14个类别的古籍文本上开展典籍自动分类模型的构建,并与BERT、BERT-wwm、RoBERTa和RoBERTa-wwm基线模型进行对比。文章提出的两种分类模型效果均优于基线模型,SikuBERT模型取得90.39%的整体分类F值,在天文算法类古籍上的分类F值达98.83%。在类别自动识别任务中,SikuRoBERTa的预测正确率达95.30%。基于SikuBERT和SikuRoBERTa预训练语言模型的四库自动分类体系可以将典籍文本划分为所属子部类别,构建的分类工具为高效自动化典籍分类提供了新途径。 The Siku classification system has a far-reaching influence.In order to solve the difficulty of identifying the right category of existing ancient books and provide tools for research in the field of digital humanities,based on SikuBERT and SikuRoBERTa pre-trained language models for natural language processing of ancient Chinese,an automatic classification model of classical texts of a total of 14 categories of books in the“Zi”part of Siku Quanshu is built.It will also be compared with BERT,BERT-wwm,RoBERTa and RoBERTa-wwm baseline models.The new classification method based on the two pre-trained models as proposed in this paper is found better than the baseline models.The SikuBERT model has achieved a classification F-score of 90.39%,and a F-score of98.83%in astronomical calculation books.In the automatic category recognition task,the prediction accuracy of SikuRoBERTa has reached 95.30%.The proposed automatic classification system based on SikuBERT and SikuRoBERTa pre-trained language models can effectively classify classical texts and the classification tool constructed can provide a new way for efficient automatic classification of classical texts.

作者胡昊天张逸勤邓三鸿王东波冯敏萱刘浏李斌 HU Haotian;ZHANG Yiqin;DENG Sanhong;WANG Dongbo;FENG Minxuan;LIU Liu;LI Bin

机构地区南京大学信息管理学院南京农业大学信息管理学院南京师范大学文学院

出处《图书馆论坛》 CSSCI 北大核心 2022年第12期138-148,共11页 Library Tribune

基金国家社科基金重大项目“中国古代典籍跨语言知识库构建及应用研究”(项目编号:21&ZD331)研究成果。

关键词预训练模型 SikuBERT 文本分类数字人文《四库全书》子部 pre-trained models SikuBERT text classification digital humanities “Zi”part of Siku Quanshu

分类号 G256 [文化科学—图书馆学] G250.7 [文化科学—图书馆学]

引文网络
相关文献

参考文献4

1何宗美.《四库全书总目》明代子部的佛禅批评——思想史、文学史考察的一个侧面[J].武汉大学学报（哲学社会科学版）,2019,72(6):77-88. 被引量：7
2QIU XiPeng,SUN TianXiang,XU YiGe,SHAO YunFan,DAI Ning,HUANG XuanJing.Pre-trained models for natural language processing: A survey[J].Science China(Technological Sciences),2020,63(10):1872-1897. 被引量：154
3邓三鸿,胡昊天,王昊,王东波.古文自动处理研究现状与新时代发展趋势展望[J].科技情报研究,2021,3(1):1-20. 被引量：26
4王东波,何琳,黄水清.基于支持向量机的先秦诸子典籍自动分类研究[J].图书情报工作,2017,61(12):71-76. 被引量：10

二级参考文献56

1程宁,李斌,葛四嘉,郝星月,冯敏萱.基于BiLSTM-CRF的古汉语自动断句与词法分析一体化研究[J].中文信息学报,2020(4):1-9. 被引量：21
2董淑平.浅论中国古代法律思想对现代法治的作用[J].法制博览,2019,0(36):247-248. 被引量：2
3金敏.《管子·明法》与《韩非子·有度》比较[J].中外法学,1997,9(6):111-113. 被引量：2
4李盼池,许少华.支持向量机在模式识别中的核函数特性分析[J].计算机工程与设计,2005,26(2):302-304. 被引量：98
5常娥,侯汉清,曹玲.古籍自动校勘的研究和实现[J].中文信息学报,2007,21(2):83-88. 被引量：16
6周学文,江荻.《元朝秘史》的计算机自动校勘方法[J].语言文字应用,2007(3):136-142. 被引量：2
7郭锐,宋继华,廖敏.基于自动句对齐的相似古文句子检索[J].中文信息学报,2008,22(2):87-91. 被引量：15
8曾艳,侯汉清.古籍文本抽词研究[J].图书情报工作,2008,52(1):132-135. 被引量：10
9于丽丽,丁德鑫,曲维光,陈小荷,李惠.基于条件随机场的古汉语词义消歧研究[J].微电子学与计算机,2009,26(10):45-48. 被引量：13
10张开旭,夏云庆,宇航.基于条件随机场的古汉语自动断句与标点方法[J].清华大学学报（自然科学版）,2009(10):1733-1736. 被引量：34

共引文献193

1李斌,袁义国,芦靖雅,冯敏萱,许超,曲维光,王东波.第一届古代汉语分词和词性标注国际评测[J].中文信息学报,2023,37(3):46-53. 被引量：5
2王伟,阮文翰,孟祥福.融合对抗训练的中文GPT对话模型研究[J].辽宁工程技术大学学报（自然科学版）,2023(3):378-384.
3毕梦曦,张力元.机器学习方法对不明归属二程文献的判断[J].数字人文研究,2021,1(2):21-35. 被引量：1
4邱凯锋,王则远,何志超,付凯利,梅童霖,关英杰,高飞,伍俊妍.人工智能技术在超说明书用药循证中的应用研究[J].中华临床医师杂志（电子版）,2023,17(12):1212-1218.
5董庆兴,李华阳,曹高辉,夏立新.基于深度学习的MOOC论坛探索型对话识别方法研究[J].图书情报工作,2019,63(5):92-99. 被引量：10
6谭章禄,王兆刚,胡翰.一种基于χ~2统计的特征分类选择方法研究[J].数据分析与知识发现,2019,3(2):72-78. 被引量：3
7徐晨飞,赵文娟.我国数字人文研究领域作者合著网络分析[J].图书馆论坛,2019,39(11):14-24. 被引量：16
8唐晓波,高和璇.基于关键词词向量特征扩展的健康问句分类研究[J].数据分析与知识发现,2020,4(7):66-75. 被引量：9
9余同瑞,金冉,韩晓臻,李家辉,郁婷.自然语言处理预训练模型的研究综述[J].计算机工程与应用,2020,56(23):12-22. 被引量：49
10邓三鸿,胡昊天,王昊,王东波.古文自动处理研究现状与新时代发展趋势展望[J].科技情报研究,2021,3(1):1-20. 被引量：26

同被引文献328

1刘石,李飞跃.大数据技术与传统文献学的现代转型[J].中国社会科学,2021(2):63-81. 被引量：35
2赵薇.数字时代人文学研究的变革与超越——数字人文在中国[J].探索与争鸣,2021(6):191-206. 被引量：31
3俞敬松,魏一,张永伟,杨浩.基于非参数贝叶斯模型和深度学习的古文分词研究[J].中文信息学报,2020(6):1-8. 被引量：16
4李思琪,孙志莹.数字人文视阈下地图档案资源开发探究[J].中国档案研究,2020(2):115-127. 被引量：2
5毕梦曦,张力元.机器学习方法对不明归属二程文献的判断[J].数字人文研究,2021,1(2):21-35. 被引量：1
6王正立,王明星.稷下学宫的人物及思想探析[J].作家,2011(14):130-131. 被引量：1
7洪声.广西古代铜鼓研究[J].考古学报,1974(1):45-90. 被引量：24
8胡家聪.稷下学宫史钩沉[J].文史哲,1981(4):25-33. 被引量：24
9陈大康.从数理语言学看后四十回的作者——与陈炳藻先生商榷[J].红楼梦学刊,1987(1):293-318. 被引量：54
10李贤平.《红楼梦》成书新说[J].复旦学报（社会科学版）,1987,29(5):3-16. 被引量：66

引证文献15

1孙文龙,张逸勤,王凡铭,鱼汇沐,刘江峰,王东波.面向数字人文的典籍语义词汇抽取研究——以SikuBERT预训练模型为例[J].图书馆论坛,2022,42(10):31-41. 被引量：3
2冯梦莹,白如江,张玉洁,王效岳,耿振东,王志民.面向数字人文的稷下思想自动分类研究[J].图书情报工作,2022,66(19):26-35. 被引量：1
3李娜.基于深度学习的《方志物产》用途实体自动识别模型构建与应用[J].数字图书馆论坛,2022(12):19-28. 被引量：1
4林立涛,王东波.古籍文本挖掘技术综述[J].科技情报研究,2023,5(1):78-91. 被引量：7
5张亚辉,白如江,张玉洁,耿振东,王志民.数字人文视域下稷下人物知识重构与时空可视化研究[J].数字图书馆论坛,2023,19(6):1-12.
6李明.数字人文驱动下我国古籍数字化研究的演进特征及内在逻辑分析[J].图书馆理论与实践,2023(4):121-127. 被引量：7
7豆志磊.2020年—2022年档案学界与图书情报学界开展数字人文研究的比较分析[J].档案管理,2023(4):27-30.
8高丹,何琳.数智赋能视域下的数字人文研究:数据、技术与应用[J].图书馆论坛,2023,43(9):107-119. 被引量：8
9张逸勤,邓三鸿,胡昊天,王东波.预训练模型视角下的跨语言典籍风格计算研究[J].数据分析与知识发现,2023,7(10):50-62. 被引量：3
10胡昊天,邓三鸿,王东波,沈思,沈健威.情报学视角下的预训练语言模型研究进展[J].图书情报工作,2024,68(3):130-150. 被引量：1

二级引证文献30

1韩怡星.“华亭周氏图书”述略[J].兰台内外,2023(18):78-80.
2唐海龙,孟祥娟.新文科视域下汉语言文学专业建设与内涵式发展的思考与探索[J].北华大学学报（社会科学版）,2023,24(5):126-134.
3张兴旺,段雪纯,辛杰.数智时代中国古舆图文献的知识化描述框架及其应用场景研究[J].农业图书情报学报,2023,35(9):4-14.
4邹淑梅,龚蛟腾,王凤姣.图书馆新型公共文化空间建设进展、挑战与方略[J].高校图书馆工作,2023,43(5):21-28. 被引量：1
5武帅,杨秀璋,何琳.多视图融合DJ-TextRCNN的古籍文本主题推荐研究[J].情报学报,2024,43(1):61-75.
6胡谦锋.我国公共图书馆古籍数据库建设的问题与对策研究[J].数字图书馆论坛,2024,20(1):79-84.
7刘懋霖,赵萌,王昊.面向古诗词的物象库构建方法及其分布规律研究[J].图书馆杂志,2024,43(1):96-108. 被引量：1
8马步遥.用户视角下公共图书馆家谱阅读推广策略探索[J].图书馆杂志,2024,43(2):64-72.
9吴梦成,林立涛,吴娜,许乾坤,王东波.融合不同语义知识的中国古代典籍机器翻译研究[J].情报资料工作,2024,45(2):97-104.
10朱丹浩,赵志枭,胡蝶,赵文华,孙光耀,王东波.领域大语言模型下的古籍词性标注应用研究[J].科技情报研究,2024,6(2):21-29.

1胡晨光.典籍分类与学术演进——论《葆醇堂藏书录》的八分法体系[J].大学图书馆学报,2020,38(2):99-105.
2田伊茗,李涛,王蕊,王翠娟,陆强,王锐.以中性粒细胞与淋巴细胞比值为基础的中老年患者糖尿病肾病的临床预测模型[J].国际老年医学杂志,2022,43(6):714-719. 被引量：5
3吴根友,黄燕强.《汉书·艺文志》中的学问——知识谱系与经子关系论的当代启迪意义[J].文史知识,2021(12):110-114.

图书馆论坛

2022年第12期

浏览历史

内容加载中请稍等...

面向数字人文的《四库全书》子部自动分类研究——以SikuBERT和SikuRoBERTa预训练模型为例被引量：15

参考文献4

二级参考文献56

共引文献193

同被引文献328

引证文献15

二级引证文献30

相关作者

相关机构

相关主题

浏览历史

面向数字人文的《四库全书》子部自动分类研究——以SikuBERT和SikuRoBERTa预训练模型为例 被引量：15

参考文献4

二级参考文献56

共引文献193

同被引文献328

引证文献15

二级引证文献30

相关作者

相关机构

相关主题

浏览历史

面向数字人文的《四库全书》子部自动分类研究——以SikuBERT和SikuRoBERTa预训练模型为例被引量：15