AIGC助力数字人文研究的实践探索:SikuGPT驱动的古诗词生成研究被引量：9

A Practical Exploration of AIGC-Powered Digital Humanities Research:A SikuGPT Driven Research of Ancient Poetry Generation

下载PDF

导出

摘要 [目的/意义]诗词创作是数字人文领域自然语言生成研究的重要方向,对古诗词遣词造句的版本争议判断、自动诗词问答等具有一定意义,然而当前尚未出现能够自动生成繁体中文古诗词的预训练模型,已有研究着眼于根据使用者需求创作不同风格的简体古诗词。[方法/过程]文章基于CLM使用繁体《四库全书》无标点语料、繁体中文古诗词语料在gpt2-chinese-cluecorpussmall上进行继续预训练构建SikuGPT2、SikuGPT2-poem模型。采用困惑度、BLEU、专家打分、图灵测试等验证模型性能。[结果/结论]实验显示SikuGPT2-poem模型困惑度较低,生成的诗歌BLUE评分较基准模型低0.053左右,在人工打分中较基准模型平均高1.93分。总体而言,文章提出的模型表现优异且通过图灵测试,提出的古汉语生成式系列模型的预训练语料集尚小。模型在古诗生成方面表现较好,但尚不能满足赋、曲等体裁的需要。 [Purpose/significance]Poetry composition is an important direction for natural language generation research in the digital humanities,with implications for version dispute judgment of ancient poetry phrasing and automatic poetry quizzes.Yet no pre-training model capable of automatically generating ancient poems in traditional Chinese has emerged,and existing research has focused on creating different styles of simplified ancient poetry according to user needs.[Method/process]This paper constructs SikuGPT2 and SikuGPT2-poem models based on CLM using the traditional Si Ku Quan Shu unpunctuated corpus and the traditional Chinese ancient poetry corpus on gpt2-chinese-cluecorpussmall for continued pre-training.Perplexity,BLEU,expert scoring,and the Turing test were used to verify the model performance.[Result/conclusion]The experiments show that the SikuGPT2-poem model has a lower perplexity,generated poems with BLUE scores around 0.053 lower than the benchmark model,and scores on average 1.93 points higher than the benchmark model in manual scoring.Overall,the model proposed in this paper performed well and passed the Turing test.The pre-trained corpus set of the series generative model of ancient Chinese proposed in this paper is still small.The model performs well in the generation of ancient poems but cannot yet meet the needs of genres such as fugue and song.

作者刘江峰刘雏菲齐月刘浏李斌刘畅王东波 Liu Jiangfeng

机构地区南京农业大学信息管理学院南京师范大学文学院

出处《情报理论与实践》北大核心 2023年第5期23-31,共9页 Information Studies:Theory & Application

基金国家社会科学基金重大项目“中国古代典籍跨语言知识库构建及应用研究”的成果,项目编号:21&ZD331。

关键词四库全书 SikuGPT 预训练语言模型诗歌生成数字人文 Si Ku Quan Shu SikuGPT pre-trained language model poetry generation digital humanities

分类号 G250.7 [文化科学—图书馆学] TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献11

1马路路,潘百齐.唐代帝王诗歌镜像中的中华民族共同体构建[J].西北民族大学学报（哲学社会科学版）,2022(2):48-57. 被引量：1
2刘桂珍.论中华“诗乐传统”[J].兰州大学学报（社会科学版）,2021(1):123-133. 被引量：5
3刘秋芝.论藏族诗人伊丹才让诗歌的家国情怀[J].西藏大学学报（社会科学版）,2021,36(2):141-146. 被引量：2
4董迎春,覃才.论少数民族诗歌的族性本体、文化书写及共同体价值[J].西北民族大学学报（哲学社会科学版）,2021(1):155-164. 被引量：11
5邱伟云,严程.心寄乐园,凝望人间:中唐诗空间方位的数字人文研究[J].西南民族大学学报（人文社会科学版）,2020,41(8):161-171. 被引量：8
6赵小克,丁绪辉,傅柱.面向数字人文的顾城诗歌解读——基于词频分析法[J].图书馆杂志,2020,39(11):106-119. 被引量：9
7卫万成,黄文明,王晶,邓珍荣.基于多任务学习的古诗和对联自动生成[J].中文信息学报,2019,33(11):115-124. 被引量：5
8吕敬,褚丽莉,龚瑞雪.基于改进的深度学习古诗自动生成系统研究[J].现代信息科技,2021,5(19):97-100. 被引量：1
9蒋锐滢,崔磊,何晶,周明,潘志庚.基于主题模型和统计机器翻译方法的中文格律诗自动生成[J].计算机学报,2015,38(12):2426-2436. 被引量：15
10梁健楠,孙茂松,矣晓沅,杨成,陈慧敏,刘正皓.基于神经网络的集句诗自动生成[J].中文信息学报,2019,33(3):126-135. 被引量：9

二级参考文献91

1陈忠海.古人的家国情怀[J].中国发展观察,2021(5):63-64. 被引量：1
2李鸿然.少数民族文学:概念的提出与确定[J].民族文学研究,1999,17(2):62-64. 被引量：13
3王长俊.诗乐异同论[J].南京师大学报（社会科学版）,1985(3):63-69. 被引量：2
4张捷鸿.童话的天真──论顾城的诗歌创作[J].当代作家评论,1999(1):68-81. 被引量：26
5公木.歌诗与诵诗——兼论诗歌与音乐的关系[J].文学评论,1980(6):39-51. 被引量：22
6张颐武.一个童话的终结──顾城之死与当代文化[J].当代作家评论,1994(2):95-100. 被引量：6
7陈大康.从数理语言学看后四十回的作者——与陈炳藻先生商榷[J].红楼梦学刊,1987(1):293-318. 被引量：53
8李贤平.《红楼梦》成书新说[J].复旦学报（社会科学版）,1987,29(5):3-16. 被引量：65
9黄健.一代人的心灵雕塑──论顾城的诗《一代人》[J].浙江大学学报（社会科学版）,1995,25(4):108-111. 被引量：3
10李咏吟.红楼幻境与顾城的生死哲学[J].江苏社会科学,1995(5):124-128. 被引量：3

共引文献89

1黄水清,刘浏,王东波.国内外数字人文研究进展[J].情报学进展,2022(1):50-84. 被引量：6
2张景素,魏明珠.基于加权多策略选样的古文断句模型研究——以古籍《宋史》为例[J].情报科学,2022,40(10):164-170.
3覃才,董迎春.离散与当代少数民族女性诗歌的生发[J].内蒙古大学学报（哲学社会科学版）,2022,54(4):79-86.
4覃才,苏仲乐.新世纪少数民族文学的研究路径、开拓空间及新可能——以学术著作为考察中心[J].满族研究,2021(4):82-89. 被引量：1
5李斌,袁义国,芦靖雅,冯敏萱,许超,曲维光,王东波.第一届古代汉语分词和词性标注国际评测[J].中文信息学报,2023,37(3):46-53. 被引量：4
6张睿.基于短语相似度的统计机器翻译系统设计[J].自动化与仪器仪表,2017(8):66-67. 被引量：6
7刁琦,古丽米拉·克孜尔别克,钟丽峰,张健,张志强.基于循环神经网络序列标注的中文分词研究[J].计算机技术与发展,2017,27(10):65-68. 被引量：4
8张海洋.基于语义选择的机器翻译方法研究[J].自动化与仪器仪表,2018,0(8):29-32. 被引量：3
9徐琳宏,林鸿飞,祁瑞华,杨亮.基于多特征融合的谐音广告语生成模型[J].中文信息学报,2018,32(10):109-117. 被引量：1
10邓金,史国阳,蔡天鸿,朱晋,怀丽波.基于TF-IDF算法的唐代著名诗僧残缺诗句的填充方法研究[J].现代计算机,2019,25(8):7-11. 被引量：1

同被引文献275

1安子栋,敬卿,郝志超,余奕.基于生成式AI技术的图书馆文献资源管理创新策略[J].图书馆工作与研究,2023(S01):9-16. 被引量：4
2张捷,郭洪豹.文化产业创新视角下非遗文化创意产业人才的培养路径[J].山西财经大学学报,2022,44(S02):4-6. 被引量：5
3高曼曼,吴艳梅.文化自信视域下中华优秀传统音乐文化的创造性转化与创新性发展[J].民族教育研究,2022(6):142-147. 被引量：7
4张重毅,牛欣悦,孙君艳,祁丽娟,方梅.ChatGPT探析:AI大型语言模型下学术出版的机遇与挑战[J].中国科技期刊研究,2023,34(4):446-453. 被引量：14
5姚建华.自动化新闻与新闻劳动的重构:技能变迁的视角[J].福建师范大学学报（哲学社会科学版）,2021(1):106-114. 被引量：20
6李贵卿,黄寰,李政.中医药产业科技创新能力提升的策略——以成都市为例[J].当代经济,2007,24(4):14-15. 被引量：3
7陈少峰.以文化和科技融合促进文化产业发展模式转型研究[J].同济大学学报（社会科学版）,2013,24(1):55-61. 被引量：29
8李雅秋.唐宋年间鹦鹉洲的诗文呈现[J].安徽文学（下半月）,2014(2):1-3. 被引量：1
9邱婷,黄勇,徐安.文化与科技融合视角下的景德镇陶瓷文化创意产业发展对策研究[J].陶瓷学报,2014,35(1):109-112. 被引量：16
10郜书锴.场景理论的内容框架与困境对策[J].当代传播,2015(4):38-40. 被引量：157

引证文献9

1马乐存,詹希旎,朱齐宇,孙榕,李白杨.AIGC驱动的GLAM数智融合创新发展研究[J].农业图书情报学报,2023,35(5):4-15. 被引量：2
2陈祺焘,倪璟雯,徐君,高晓涵,夏丽珍.生成式人工智能GPT-4驱动的中药处方生成研究[J].中国药房,2023,34(23):2825-2828. 被引量：3
3刘莉,邵波.生成式AI赋能智慧图书馆的融合路径探析——以扎耶德大学图书馆为例[J].图书馆学研究,2023(12):34-43.
4陈静,张璐.感受性视角下人智交互研究:主题挖掘、方法识别、未来发展[J].情报理论与实践,2024,47(2):98-106.
5韩春磊,姚啸华,张宏玲,刘英捷,沈立力.新时代古籍智慧化服务实践探讨——以古典小说续作研究场景为例[J].图书馆杂志,2023,42(12):58-68. 被引量：1
6高琳霞,周树斌,周洪,张强.数字人文视域下景观诗歌知识图谱构建研究——以鹦鹉洲诗歌为例[J].文献与数据学报,2023,5(4):42-54.
7胡昊天,邓三鸿,王东波,沈思,沈健威.情报学视角下的预训练语言模型研究进展[J].图书情报工作,2024,68(3):130-150. 被引量：1
8王伟,许鑫.科技赋能非遗转化与发展路径研究[J].农业图书情报学报,2024,36(1):58-70.
9王海蓓,潘辉.我国ChatGPT研究领域热点主题识别与演化路径分析[J].图书馆学研究,2024(3):2-12.

二级引证文献7

1郁从蕾.智媒时代高校摄影学科建设策略研究[J].旅游与摄影,2024(3):148-150.
2邓胜利,汪璠.AIGC治理的研究进展与发展趋势[J].数字图书馆论坛,2023,19(11):20-28. 被引量：3
3杨小丽,龚致平,浦科学,董彩凤.人工智能赋能中医临床诊疗的现状、问题和对策[J].重庆医学,2024,53(4):613-616. 被引量：1
4王忠田.人工智能大模型时代的古籍整理出版审思[J].出版广角,2024(4):41-45.
5屠鑫,张伟,李继东,李美姣,龙相波.面向智能在线教学的英语时态习题自动分类研究[J].计算机科学,2024,51(4):353-358.
6中药临床使用合理性评价与合理化改进专家组,金锐,李云.十八反十九畏理论的分层分类认识及其用于临床安全风险评估的药学专家共识[J].医药导报,2024,43(6):841-849.
7楚博文.人工智能在中医药领域应用前景探析[J].甘肃中医药大学学报,2024,41(2):101-104.

1蹇令香,郭姝璇,宋雪亚.人工智能驱动中国现代流通业高质量发展研究[J].商业经济研究,2023(9):5-9. 被引量：1
2姜宇,潘家铮,陈何淮,符凌智,齐红.基于分割方法的繁体中文报纸文本检测[J].吉林大学学报（工学版）,2023,53(4):1146-1154. 被引量：1
3吴俊熹.近代“士”的认同与转型——论许南英的南洋经验及其诗词创作[J].世界华文文学论坛,2023(1):119-128.
4康井泉.周恩来写诗用诗[J].当代青年,2022(8):6-7.
5郭厚强,张瑾,李同杰.基于EDEM的双向螺旋式排肥器排肥性能分析[J].安徽科技学院学报,2023,37(1):69-76. 被引量：2
6周敬东,高伟周,张三强,谢柏林,陈源,周天.基于EDEM的植保机动力分配模型研究[J].农机化研究,2023,45(9):14-19.
7徐洋.基于困惑表情识别的学习者听课状态诊断及推荐[J].微型电脑应用,2023,39(3):165-168. 被引量：1
8宋明炜.“流动性”与“此时此刻”--关于《哈佛新编中国现代文学史》[J].读书,2023(5):158-165.
9欧阳鼎,黄华,李嘉鹏,胡枫涛.改进yolov5s模型的航拍图像目标检测算法[J].福建电脑,2023,39(5):7-15. 被引量：2
10孙伟平.智能时代的新型人机关系及其构建[J].湖北大学学报（哲学社会科学版）,2023,50(3):18-25. 被引量：9

情报理论与实践

2023年第5期

浏览历史

内容加载中请稍等...

AIGC助力数字人文研究的实践探索:SikuGPT驱动的古诗词生成研究被引量：9

参考文献11

二级参考文献91

共引文献89

同被引文献275

引证文献9

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

AIGC助力数字人文研究的实践探索:SikuGPT驱动的古诗词生成研究 被引量：9

参考文献11

二级参考文献91

共引文献89

同被引文献275

引证文献9

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

AIGC助力数字人文研究的实践探索:SikuGPT驱动的古诗词生成研究被引量：9