基于机器阅读理解的古文事件抽取研究被引量：1

Research on Event Extraction from Ancient Books Based on Machine Reading Comprehension

下载PDF

导出

摘要准确地梳理古文典籍脉络,抽取典籍中蕴含的事件和事件论元,对古籍从文本数据向智能化数据转化具有重要意义。针对古文事件的抽取研究主要有基于模式匹配、机器学习和神经网络三种方式,本文在现有的基于神经网络的方法中融入机器阅读理解模式,将事件抽取中出现的“事件类型”和“论元角色”糅合为问题形式,由此输出的答案即为事件论元。分别选取编年体史书《左传》和纪传体史书《史记》作为训练和泛化的数据,在具体的泛化过程中引入混淆句以验证模型效果,为古文事件抽取提供了可参照的思路。 Exploring the context of ancient Chinese classics and extracting the events and event arguments contained in ancient Chinese classics are critical to read and understand the content of the text quickly.At present,research on event extractions from ancient books is mainly based on pattern matching,machine learning,and neural networks.This paper integrates the machine reading understanding mode into the existing neural network-based methods and combines the“event type”and“argument role”in event extraction into the form of questions so that the answer is event argument.Zuo Zhuan(in annalistic style)and The Historical Records(in annal-biography style)are selected as the training and generalization data,respectively,and the confused sentences are introduced in the specific generalization process to verify the effect of the model,which provides a reference idea for ancient Chinese event extraction.

作者喻雪寒何琳王献琪 Yu Xuehan;He Lin;Wang Xianqi(College of Information Management,Nanjing Agricultural University,Nanjing 210095;Research Center for Humanities and Social Computing,Nanjing Agricultural University,Nanjing 210095)

机构地区南京农业大学信息管理学院南京农业大学人文与社会计算研究中心

出处《情报学报》 CSCD 北大核心 2023年第3期316-326,共11页 Journal of the China Society for Scientific and Technical Information

基金国家社会科学基金一般项目“基于典籍的中华传统文化知识表达体系自动构建方法研究”(18BTQ063)。

关键词古籍文本机器阅读理解事件抽取 RoBERTa 混淆句 ancient books machine reading comprehension event extraction RoBERTa confused sentences

分类号 I206.2 [文学—中国文学] TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献10

1王大盈.《中国基本古籍库》和《瀚堂典藏》两大古籍数据库比较研究[J].情报杂志,2011,30(B06):157-158. 被引量：11
2季培培.常见10种古籍全文数据库的比较研究[J].图书馆学研究,2020(20):71-80. 被引量：20
3赵文友,林世田.“中华古籍保护计划”成果--以“中华古籍资源库”建设为中心的古籍数字化工作[J].新世纪图书馆,2018(3):12-15. 被引量：12
4王菁薇,肖莉,骆嘉伟,晏峻峰.基于《伤寒论》的命名实体识别研究[J].计算机与数字工程,2021,49(8):1584-1587. 被引量：6
5肖怀志,李明杰.基于本体的历史年代知识元在古籍数字化中的应用——以《三国志》历史年代知识元的抽取、存储和表示为例[J].图书情报知识,2005,22(3):28-33. 被引量：15
6李娜.面向方志类古籍的多类型命名实体联合自动识别模型构建[J].图书馆论坛,2021,41(12):113-123. 被引量：14
7程结晶,王璞钰.古籍中人物史料的关联组织研究--以《汉书·艺文志》中西汉经学家群体为例[J].图书馆论坛,2023,43(3):64-74. 被引量：6
8姜吉发.一种事件信息抽取模式获取方法[J].计算机工程,2005,31(15):96-98. 被引量：27
9李旭晖,程威,唐小雅,于滔,陈壮,钱铁云.基于多层卷积神经网络的金融事件联合抽取方法[J].图书情报工作,2021,65(24):89-99. 被引量：15
10蔡镜浩.精心剪裁字字斟酌——《史记》、《左传》对比评议[J].当代修辞学,1985(4):55-57. 被引量：1

二级参考文献77

1肖瑞,胡冯菊,裴卫.基于BiLSTM-CRF的中医文本命名实体识别[J].世界科学技术-中医药现代化,2020,22(7):2504-2510. 被引量：31
2李妮,关焕梅,杨飘,董文永.基于BERT-IDCNN-CRF的中文命名实体识别方法[J].山东大学学报（理学版）,2020,55(1):102-109. 被引量：54
3李璐.古籍全文数据库建设的技术与实践[J].图书馆学研究,2004(11):22-25. 被引量：22
4来新夏.中国地方志的史料价值及其利用[J].国家图书馆学刊,2005,14(1):5-8. 被引量：39
5张晓艳,王挺,陈火旺.命名实体识别研究[J].计算机科学,2005,32(4):44-48. 被引量：66
6孙琴.两大中文古籍数据库比较研究[J].新世纪图书馆,2007(1):52-53. 被引量：8
7http://www, er07. corn/product, do? method =show Product & id = 30[ EB/OL] ,2011.02.23.
8http ://www. hytung, cn/[ EB/OL] ,2011.02.23.
9陈尚君.《中国基本古籍库》初感受[N].东方早报.2009-08-09.
10杨琳.大陆古籍数字化的现状及存在的问题[C].第一届中国古籍数字化国际研讨会论文集.北京:五洲传播出社,2009.

共引文献116

1谢玮,衡雨,邱菊芯.面向《天工开物》版本图像资源的知识图谱应用研究[J].包装工程,2023,44(S01):480-492. 被引量：2
2赵文友.基于开放共享理念的古籍数字资源服务——以“中华古籍保护计划”为中心[J].古籍保护研究,2020(2):21-28. 被引量：6
3李玉海,宋艳辉.面向数字图书馆的古籍数字化模型构建[J].图书馆学研究,2008(8):24-26. 被引量：4
4仲兆满,刘宗田,周文,付剑锋.事件关系表示模型[J].中文信息学报,2009,23(6):56-60. 被引量：23
5周迪,宋登汉.中文古籍数字化开发研究综述[J].图书情报知识,2010,27(6):40-49. 被引量：13
6孙中友,李培峰,朱巧明.事件信息抽取中的数据预处理方法研究[J].计算机应用与软件,2011,28(8):35-37. 被引量：3
7王伟,赵东岩,赵伟.中文新闻关键事件的主题句识别[J].北京大学学报（自然科学版）,2011,47(5):789-796. 被引量：18
8韦楠华.基于文献计量学的中文古籍数字化研究分析[J].现代情报,2011,31(10):107-111. 被引量：4
9孙荣,周文,刘宗田.用规则抽取句子中事件信息[J].小型微型计算机系统,2011,32(11):2309-2314. 被引量：10
10丁侃,柳长华.国内知识元相关研究现状[J].数字图书馆论坛,2011(12):72-78. 被引量：4

同被引文献8

1丁波涛.计算社会科学相关概念的比较与辨析[J].情报资料工作,2018,39(6):60-67. 被引量：11
2张卫,王昊,邓三鸿,张宝隆.面向数字人文的古诗文本情感术语抽取与应用研究[J].中国图书馆学报,2021,47(4):113-131. 被引量：22
3黄水清,刘浏,王东波.计算人文的发展及展望[J].科技情报研究,2021,3(4):1-12. 被引量：15
4张琪,王东波,黄水清,邓三鸿.史书多维知识重组与可视化研究--以《史记》为对象[J].情报学报,2022,41(2):130-141. 被引量：16
5梁柱,沈思,叶文豪,王东波.基于结构内容特征的裁判文书自动推荐研究[J].情报学报,2022,41(2):167-175. 被引量：7
6王东波,刘畅,朱子赫,刘江峰,胡昊天,沈思,李斌.SikuBERT与SikuRoBERTa:面向数字人文的《四库全书》预训练模型构建及应用研究[J].图书馆论坛,2022,42(6):30-43. 被引量：49
7黄水清,刘浏,王东波.计算人文学科的内涵、体系及机遇[J].图书与情报,2023(1):1-11. 被引量：6
8张瑞祥,赵志枭.人工智能视域下计算法学的概念、探究及趋势[J].图书与情报,2023(1):39-47. 被引量：2

引证文献1

1赵志枭,胡蝶,刘畅,沈思,王东波.人文社科领域中文通用大模型性能评测[J].图书情报工作,2024,68(13):132-143.

1林立涛,王东波.古籍文本挖掘技术综述[J].科技情报研究,2023,5(1):78-91. 被引量：7
2彭丹.探寻亮点,以读促写[J].初中生天地,2023(7):36-38.
3李佩琪,王昊,任秋彤,范涛.融合结构特性的语义增强式古籍句读识别方法研究[J].情报学报,2023,42(2):150-163. 被引量：4
4张景素,魏明珠.基于加权多策略选样的古文断句模型研究——以古籍《宋史》为例[J].情报科学,2022,40(10):164-170.
5孟宪实,卜天舒.关于《唐大诏令集》的史源问题[J].史学月刊,2023(4):16-25.
6张自然,杨敏.《左传》中的“龙”[J].汉字文化,2022(24):132-134.
7林敏.历代“正史”知多少[J].当代老年,2023(2):60-60.
8姚伯岳,周余姣,王鸷嘉.古籍传承性保护再认识[J].中国图书馆学报,2023,49(1):58-67. 被引量：26
9王强.中国传统纪传体史书“类传”概念研究[J].汕头大学学报（人文社会科学版）,2022,38(10):62-68.
10陶源,崔珊.初始规范视角下婚礼礼制的文化传递——以《左传》最新合译本为例[J].中华文化海外传播研究,2022(2):264-279.

情报学报

2023年第3期

浏览历史

内容加载中请稍等...

基于机器阅读理解的古文事件抽取研究被引量：1

参考文献10

二级参考文献77

共引文献116

同被引文献8

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于机器阅读理解的古文事件抽取研究 被引量：1

参考文献10

二级参考文献77

共引文献116

同被引文献8

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于机器阅读理解的古文事件抽取研究被引量：1