结合大语言模型的教科书语步识别及应用

Recognition and application of textbook moves facilitated by large language model

下载PDF

导出

摘要为解决纸质图书存在的无法快速定位知识概念、从字面难以把握教科书写作的逻辑结构和难以建立知识间的关联等问题,提出了一种结合大语言模型的教科书语步识别方法。首先,设计教科书语步结构,构建教科书语步分类数据集;然后,利用生成式大语言模型分别对稀缺语步和无明显特征语步进行语料生成和特征增强;最后,结合语步识别数据集和增强后语步数据,微调教科书语步识别初始模型,得到结合大语言模型的教科书语步识别模型。实验结果表明,与初始模型BERT-wwm-ext相比,经过大语言模型辅助的语步识别模型总体准确率提升5.06百分点,达到95.44%,Macro-F1值提升2.54百分点,达到93.51%。利用该语步识别模型自动构建了教科书知识图谱及书后索引,较清晰地展现了教科书写作的逻辑结构。 To solve the problems existing in printed textbooks,such as the inability to quickly locate knowledge concepts,the difficulty to grasp the logical structure of textbook writing literally,and the difficulty to establish the correlation between knowledge,textbook moves recognition method facilitated by large language model was proposed.Firstly,textbook move structure was designed and a dataset for textbook move classification was constructed.Then,a generative large language model was used to generate corpus and enhance features for scarce and indistinct steps,respectively.Finally,by combining the move recognition dataset and enhanced move data,the initial model of textbook move recognition was fine-tuned to obtain a textbook move recognition model that combines the large language model.The experimental results show that compared with the initial model BERT-wwm-ext,the overall accuracy of the move recognition model facilitated by the large language model has increased by 5.06 percentage points,reaching 95.44%,and the Macro-F1 value has increased by 2.54 percentage points,reaching 93.51%.Furthermore,the move recognition model was utilized to construct a knowledge graph and an after-book-index,effectively elucidating the logical structure of textbook with heightened clarity.

作者王润欣李宁 WANG Runxin;LI Ning(Computer School,Beijing Information Science&Technology University,Beijing 102206,China)

机构地区北京信息科技大学计算机学院

出处《北京信息科技大学学报（自然科学版）》 2024年第4期71-80,共10页 Journal of Beijing Information Science and Technology University

基金国家自然科学基金项目(61672105)。

关键词数字教材语步识别大语言模型知识图谱书后索引 digital textbook move recognition large language model knowledge graph after-book-index

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1杜新玉,李宁.中文学术论文全文语步识别研究[J].数据分析与知识发现,2024,8(2):74-83. 被引量：2
2欧石燕,陈嘉文.科学论文全文语步自动识别研究[J].现代情报,2021,41(11):3-11. 被引量：10
3郭航程,何彦青,兰天,吴振峰,董诚.基于Paragraph-BERT-CRF的科技论文摘要语步功能信息识别方法研究[J].数据分析与知识发现,2022,6(2):298-307. 被引量：9
4刘熠,张智雄,王宇飞,李雪思.基于语步识别的科技文献结构化自动综合工具构建[J].数据分析与知识发现,2024,8(2):65-73. 被引量：1
5温浩,何茜茹,王杰,乔晓东,张鹏.基于ERNIE-BiGRU模型的摘要语步自动识别研究[J].中文信息学报,2022,36(11):91-100. 被引量：3
6习海旭,何胜,黄纯国.融合语步和文本多特征的科技论文结构化摘要生成[J].情报学报,2023,42(10):1176-1186. 被引量：1

二级参考文献49

1张智雄,刘欢,丁良萍,吴朋民,于改红.不同深度学习模型的科技论文摘要语步识别效果对比研究[J].数据分析与知识发现,2019,3(12):1-9. 被引量：23
2李雪思,张智雄,刘欢.基于BERT模型实现概念定义句自动识别[J].情报科学,2022,40(8):160-166. 被引量：2
3屠可伟,李俊.句法分析前沿动态综述[J].中文信息学报,2020(7):30-41. 被引量：12
4卫佳君,宋继华.自动文摘的方法研究[J].计算机技术与发展,2011,21(8):188-191. 被引量：3
5白光祖,何远标,马建霞,刘建华,邹益民.利用小样本量机器学习实现学术文摘结构的自动识别[J].现代图书情报技术,2014(7):34-40. 被引量：9
6陆伟,黄永,程齐凯.学术文本的结构功能识别——功能框架及基于章节标题的识别[J].情报学报,2014,33(9):979-985. 被引量：52
7朱丽萍,李洪奇,杨中国,刘蔷.一种面向科技文献引言的信息抽取方法[J].山东大学学报（理学版）,2015,50(7):23-30. 被引量：6
8黄永,陆伟,程齐凯.学术文本的结构功能识别——基于章节内容的识别[J].情报学报,2016,35(3):293-300. 被引量：41
9陈海华,黄永,张炯,陆伟.基于引文上下文的学术文本自动摘要技术研究[J].数字图书馆论坛,2016(8):43-49. 被引量：4
10王立非,刘霞.英语学术论文摘要语步结构自动识别模型的构建[J].外语电化教学,2017(2):45-50. 被引量：20

共引文献17

1赵旸,张智雄,刘欢,李婕.基金项目摘要的语步识别系统设计与实现[J].情报理论与实践,2022,45(8):162-168. 被引量：8
2赵旸,张智雄,李婕.项目申请书摘要文本的语步识别语料构建[J].图书情报工作,2022,66(21):97-106. 被引量：1
3吕琦,上官燕红,张琳,黄颖.基于文本内容自动分类的跨学科测度研究[J].数据分析与知识发现,2023,7(4):56-67. 被引量：4
4张辉,串丽敏,郑怀国,赵静娟,齐世杰.基于LDA和语步标注的主题识别与分析方法研究[J].数据与计算发展前沿,2023,5(5):107-118.
5刘江峰,冯钰童,刘浏,沈思,王东波.领域双语数据增强的学术文本摘要结构识别研究[J].数据分析与知识发现,2023,7(8):105-118. 被引量：5
6习海旭,何胜,黄纯国.融合语步和文本多特征的科技论文结构化摘要生成[J].情报学报,2023,42(10):1176-1186. 被引量：1
7孟旭阳,白海燕.面向学术检索系统的摘要语步识别效果测评与应用策略研究[J].情报杂志,2023,42(11):161-167.
8韦向峰,缪建明,张全,袁毅.英汉双语富媒体知识图谱构建工程研究——以CNS英文期刊为例[J].情报工程,2023,9(5):84-96.
9徐雷,张亚菲,叶均玲.科技文献创新内容的识别、组织与应用进展[J].情报学报,2024,43(2):237-250.
10胡忠义,税典程,吴江.基于ERNIE和DPCNN的科技文献摘要结构要素识别[J].数据分析与知识发现,2024,8(1):125-134.

1周浩,谭清方,丁智勇,朱盼景.基于行动导向的高职核心课程配套数字教材开发[J].包装工程,2024,45(S02):211-215.
2赵玉.“双减”背景下课外阅读在小学语文教学中的作用分析[J].山西教育（教学版）,2024(7):55-56.
3孙华泽,朱志勇.培智学校劳动技能数字教材的编写思路——从学生发展的视角出发[J].现代特殊教育,2024(15):30-34.
4郭娟,迟秀文,刘丹.基于知识图谱的高职护理综合实训交互式数字教材建设[J].科教文汇,2024(17):136-140.
5徐曦.听书算不算读书?[J].读书,2024(9):47-55.
6刘憬佳.新媒体时代纸质图书发展的路径探寻[J].造纸信息,2024(7):137-139.
7林松.基于项目化学习的小学科学单元整体设计——以“我的蒸汽船”主题为例[J].湖北教育,2024(16):70-72.
8谢妍妍.纸媒依恋:物质性与像似性观照下的纸书阅读价值分析[J].现代传播（中国传媒大学学报）,2024,46(7):21-29.
9布里布里·阿布坎.新媒体时代图书出版编辑工作的创新探索[J].新疆新闻出版广电,2024(4):73-75.
10戴高阳,孟小艳,张容祯.基于深度学习的畜牧业知识图谱构建[J].计算机与数字工程,2024,52(6):1746-1753.

北京信息科技大学学报（自然科学版）

2024年第4期

浏览历史

内容加载中请稍等...

结合大语言模型的教科书语步识别及应用

参考文献6

二级参考文献49

共引文献17

相关作者

相关机构

相关主题

浏览历史