期刊文献⁺

任意字段

题名或关键词

题名

关键词

文摘

作者

第一作者

机构

刊名

分类号

参考文献

作者简介

基金资助

栏目信息

英文文献的《中图法》分类号自动标注研究--基于文本增强与类目映射策略被引量：3

Research on Automatic Chinese Library Classification Labeling for English Literature based on Text Data Augmentation and Classification Mapping Strategies

下载PDF

导出

摘要给英文文献自动标注《中图法》分类号,能减轻图书馆与文献数据库工作人员的负担,促进跨语言知识检索与中外知识交流。面对既有的标注《中图法》分类号的英文文献数据不足的问题,本文面向预训练语言模型BERT,提出中文文献机器翻译、原始英文文本插入标点或语法词以增强分类模型泛化能力等文本增强策略,以及《美国国会图书馆分类法》到《中图法》的类目映射策略扩充文本数据。实验表明,3种策略均能有效提高文本分类效果。通过上述策略,分类的正确率与宏F1值分别提升约6.1个百分点与7.4个百分点。最后开发并发布了一个小程序,实现给英文文献自动、批量标注《中图法》20类一级分类号的功能。 Automatic Chinese Library Classification labeling can reduce library or literature database staff’s burden,promote cross-lingual knowledge retrieval and knowledge communication at home and abroad.Confronting lacking of English literature annotated with Chinese Library Classification label,faced with the BERT model,this paper proposes text augmentation strategies which include Chinese literature translating to English and punctuation or grammatical words inserting to improve generalization ability of models.In addition,it proposes the classification mapping from Library of Congress Classification to Chinese Library Classification to augment text data.Experiments show that these 3 strategies can optimize the performance of text classification.After these strategies,accuracy and Macro F1 score of classification model have respectively increased by 6.1%and 7.4%.Finally,this paper developed and released a programme,which implements automatic and large-batch 20-class Chinese Library Classification labeling for English literature.

作者蒋彦廷吴钰洁 JIANG YanTing;WU YuJie(Chengdu Aeronautic Polytechnic,Chengdu 610100,P.R.China;School of Chinese Language and Literature,Beijing Normal University,Beijing 100875,P.R.China)

机构地区成都航空职业技术学院北京师范大学文学院

出处《数字图书馆论坛》 CSSCI 2022年第5期39-46,共8页 Digital Library Forum

关键词预训练语言模型《中国图书馆分类法》机器翻译文本增强类目映射 Pre-trained Language Model Chinese Library Classification Machine Translation Data Augmentation for Text Classification Mapping

分类号 G250.2 [文化科学—图书馆学]

引文网络
相关文献

参考文献10

1曹晓宽.如何提高英文图书分类标引的效率[J].农业图书情报学刊,2009,21(8):74-78. 被引量：2
2蒋彦廷,胡韧奋.自然语言处理在其他学科领域的影响考察——基于CNKI的中文文献挖掘[J].情报杂志,2021,40(12):169-176. 被引量：6
3陈瑞,贾君枝.基于众包模式的分类法映射研究[J].情报理论与实践,2020,43(7):137-143. 被引量：7
4何贤敏,李茂西,何彦青.基于孪生BERT网络的科技文献类目映射[J].计算机研究与发展,2021,58(8):1751-1760. 被引量：6
5贾君枝,郝倩倩.DDC到《中图法》类目映射方法研究[J].中国图书馆学报,2013,39(1):43-50. 被引量：10
6徐烨,肖明.CLC与LCC类目同现映射方法研究——以图情领域为例[J].图书馆论坛,2019,39(12):11-17. 被引量：2
7童刘奕,张鹏翼.《中国图书馆分类法》和《美国国会图书馆图书分类法》人工映射分析与差异性探究[J].数字图书馆论坛,2018(3):53-58. 被引量：4
8王昊,严明,苏新宁.基于机器学习的中文书目自动分类研究[J].中国图书馆学报,2010,36(6):28-39. 被引量：38
9邓三鸿,傅余洋子,王昊.基于LSTM模型的中文图书多标签分类研究[J].数据分析与知识发现,2017,1(7):52-60. 被引量：27
10蒋彦廷,胡韧奋.基于BERT模型的图书表示学习与多标签分类研究[J].新世纪图书馆,2020(9):38-44. 被引量：8

二级参考文献111

1冯洋,邵晨泽.神经机器翻译前沿综述[J].中文信息学报,2020(7):1-18. 被引量：36
2叶红.论LCC的编制原则及类目安排特点[J].南京晓庄学院学报,2005,21(4):98-101. 被引量：1
3戴剑波,侯汉清.图书分类法映射系统设计原理——以《中国图书馆分类法》和《杜威十进分类法》为例[J].情报学报,2005,24(3):299-303. 被引量：29
4陈立孚,周宁,李丹.基于机器学习的自动文本分类模型研究[J].现代图书情报技术,2005(10):23-27. 被引量：9
5刘华梅,侯汉清.近十年情报检索语言互操作研究进展[J].图书馆理论与实践,2006(4):31-34. 被引量：12
6苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：389
7曾德良.关于《中图法》第四版类名规范化研究[J].中国图书馆学报,2006,32(5):102-104. 被引量：14
8戴剑波,侯汉清.文献分类法自动映射系统的构建——以《中国图书馆分类法》与《杜威十进分类法》为例[J].情报学报,2006,25(5):594-599. 被引量：19
9何琳,侯汉清,白振田,张雪英.基于标引经验和机器学习相结合的多层自动分类[J].情报学报,2006,25(6):725-729. 被引量：19
10杨岭雪.《中图法》与《国会法》关于图书馆学类目体系的比较[J].中国图书馆学报,1996,22(2):86-90. 被引量：2

共引文献88

1宋培彦,刘稚楠,刘冰.基于ISO 25964的公共卫生领域术语语义映射机制研究[J].图书与情报,2021(5):31-38.
2王昊,邓三鸿,苏新宁.基于字序列标注的中文关键词抽取研究[J].现代图书情报技术,2011(12):39-45. 被引量：7
3邓三鸿,王昊,秦嘉杭,苏新宁.基于字角色标注的中文书目关键词标引研究[J].中国图书馆学报,2012(2):38-49. 被引量：10
4杨敏,谷俊.基于SVM的中文书目自动分类及应用研究[J].图书情报工作,2012,56(9):114-119. 被引量：18
5黄莉,李湘东.基于《中图法》的自动分类研究现状与展望[J].图书情报知识,2012,29(4):30-36. 被引量：7
6张瑾.基于《中图法》的语义本体相似度技术研究[J].情报科学,2013,31(8):71-76. 被引量：3
7施晓华,李芳.知识体系互操作中贝叶斯学习方法应用研究[J].情报杂志,2013,32(8):165-168. 被引量：2
8贾世杰,郜瑞芹.基于PHOG特征及支持向量机的弯道自动检测[J].计算机工程与设计,2014,35(7):2531-2535. 被引量：3
9张爱民,贾君枝,郝倩倩.中图法与DDC类目自动映射研究[J].现代图书情报技术,2014(7):17-23. 被引量：3
10李湘东,胡逸泉,巴志超,黄莉.数字图书馆多种类型文献混合自动分类研究[J].图书馆杂志,2014,33(11):42-48. 被引量：8

同被引文献35

1黄月.IPC与中图法编制体例特征差异[J].中国民航大学学报,2005,23(z1):277-278. 被引量：5
2孙笑明,崔文田,林军.一种网络展现文献检索结果的理论模型[J].情报学报,2011,30(2):146-154. 被引量：4
3司莉.知识组织系统的互操作及其实现[J].现代图书情报技术,2007(3):29-34. 被引量：26
4曹晓宽.如何提高英文图书分类标引的效率[J].农业图书情报学刊,2009,21(8):74-78. 被引量：2
5王昊,严明,苏新宁.基于机器学习的中文书目自动分类研究[J].中国图书馆学报,2010,36(6):28-39. 被引量：38
6赖院根.期刊论文与专利文献的链接研究[J].图书情报知识,2011,28(1):63-69. 被引量：18
7靳雪茹,齐建东,王立臣,周林志.基于机器学习的类目映射方法——国际专利分类法与中国图书馆分类法[J].计算机应用,2011,31(7):1781-1784. 被引量：10
8周沫.《中图法(第五版)》在西文编目中的应用与发展[J].江苏科技信息,2011(7):51-53. 被引量：2
9韩翠峰.大数据时代图书馆的服务创新与发展[J].图书馆,2013(1):121-122. 被引量：227
10原小玲.DDC22与CLC5化学类目映射分析[J].图书馆理论与实践,2013(3):71-74. 被引量：5

引证文献3

1蒋彦廷.依据《中国图书馆分类法》的英文图书分类探索[J].北京大学学报（自然科学版）,2023,59(1):11-20. 被引量：1
2邢立宁,孙进强,谭旭.基于协同过滤和TransH改进的图书智能推荐算法[J].深圳信息职业技术学院学报,2024,22(3):1-6.
3宋艳辉,陈歆琦.基于作者研究相似性的CLC与IPC类目同现映射研究[J].情报学报,2024,43(8):927-935.

二级引证文献1

1罗鹏程,王继民,聂磊.基于生成式大语言模型的文献资源自动分类研究[J].情报理论与实践,2024,47(12):174-182.

1姜鹏.基于BERT的《中图法》文本分类系统及其影响因素分析[J].图书馆研究与工作,2022(5):43-48. 被引量：3
2何贤敏,李茂西,何彦青.基于孪生BERT网络的科技文献类目映射[J].计算机研究与发展,2021,58(8):1751-1760. 被引量：6
3《中文核心期刊要目总览》入编通知[J].实用放射学杂志,2022,38(5).
4无.《中文核心期刊要目总览》入编通知[J].现代防御技术,2022,50(3).
5陈炳权,朱熙,汪政阳,梁寅聪.基于深度多级小波U-Net的车牌雾图去雾算法[J].湖南大学学报（自然科学版）,2022,49(6):124-134. 被引量：2
6李清,侯荣理,张馨.取消《中国图书馆分类法》同类书排列注释的探讨[J].新世纪图书馆,2022(5):22-25.
7佘朝阳,严馨,徐广义,陈玮,邓忠莹.融合数据增强与半监督学习的药物不良反应检测[J].计算机工程,2022,48(6):314-320. 被引量：3
8刘菡.新兴跨学科领域在主要分类法中如何设类——以女性研究为例[J].图书馆杂志,2021,40(10):34-39.
9边宁,韩先培,何苯,孙乐.面向高考历史科目试题的自动答题系统[J].中文信息学报,2022,36(4):137-145. 被引量：1
10范馨月,崔雷,邵春莹,迟鑫姝,郭佳琦,张珊珊,李宇男,杨清.2011至2021年中英文文献中医学人文教育研究趋势和热点对比分析[J].中华医学教育杂志,2022,42(6):490-495. 被引量：1

数字图书馆论坛

2022年第5期

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...

;

使用帮助返回顶部