基于迁移学习的铝硅合金文献的文本识别被引量：1

Text Recognition of Al-Si Alloy Literature Based on Transfer Learning

下载PDF

导出

摘要近年来,材料基因组计划(material genome initiative,MGI)已成为全球热点。数据源的缺乏和数据存储方法的不规范导致材料领域缺乏可用于机器学习模型训练的结构化数据,这成为了研究人员对材料性能进行预测的瓶颈。随着材料科学的不断发展,材料领域文本中包含的大量信息,已成为材料领域研究人员应用机器学习的主要数据来源,如何获取大量有效的材料数据是成为现阶段的一项具有挑战意义的工作。本论文采用自然语言处理技术从铝硅合金材料文献中获取有效数据。命名实体识别是自然语言处理中一项重要的子任务,旨在识别文本中具有特定意义的实体。具体研究方法是从材料科学文献中选择五类实体,手工标注构建了铝硅合金材料实体识别数据集,包括5347个句子,2835个实体。为了减少自然语言处理任务对标注语料的依赖,利用迁移学习将语言模型预训练后应用到特定领域任务中;结合实体特征,基于ALBERT(A Lite BERT)预训练语言模型与条件随机场(conditional random fields,CRF)进行联合建模,并将预训练模型基于主动学习应用于合金材料实体识别。在基于少量标注的训练集样本下,结合主动学习,使得模型的F1值、精确率、召回率分别提高了0.61%,2.68%,0.29%。实验证明结合预训练和主动学习能够进一步减少实体识别任务模型对标注数据的依赖及人工标注的成本。论文研究成果可解决材料数据孤岛问题,改善材料基因组机器学习一直处于小规模数据集的困境,将促进铝硅合金的研发进程,为材料基因组新材料设计提供科学依据。 In recent years,Material Genome Initiative(MGI)has become a global hot spot.The lack of data sources and irregular data storage methods have led to a lack of structured data that can be used for machine learning model training in the materials field,which has become a bottleneck for researchers in predicting material performance.With the continuous development of materials science,a large amount of information contained in the materials field text has become the focus of attention for researchers,and has become the main data sources for materials field personnel to apply machine learning.How to obtain a large amount of effective materials data is a new challenge at this stage.This article uses natural language processing technology to obtain valid data from the aluminum-silicon alloy materials literature.Named entity recognition is an important subtask in natural language processing,which aims to identify entities with meaning in text.In.this paper,five types of entities are selected from the material science literature,and an aluminum-silicon alloy material entity recognition data set is constructed by hand annotation,which includes 5347 sentences and 2835 entities.In order to reduce the dependence of natural language processing tasks on annotation expectations,transfer learning is used to pre-train the language model and apply it to specific domain tasks.Combining entity characteristics,joint modeling is carried out based on ALBERT(A Lite BERT)pre-training language model and conditional random fields(CRF),and the pre-training model is applied to alloy material entity recognition based on active learning.Based on a small number of labeled training set samples,com bined with active learning,the F1 value,accuracy rate,and recall rate of the model are increased by 0.61%,2.68%,and 0.29%,respectively.Experiments prove that combining pre training and active learning can further reduce the dependence of entity recognition task models on labeled data and the cost of manual labeling.The research results of this paper can solve the problem of material data islands and improve the problem of material genome machine learning,which has been in the dilemma of small-scale data sets.It will promote the development of aluminum-silicon alloys and provide a scientific basis for the design of new materials for material genomes.

作者刘英莉李武亮牛琛么长慧尹建成沈韬 LIU Yingli;LI Wuliang;NIU Chen;YAO Changhui;YIN Jiancheng;SHEN Tao(Yunnan Key Laboratory of Computer Technology Application,Kunming University of Science and Technology,Kunming 650500,China;Faculty of Information Engineering and Automation,Kunming University of Science and Technology,Kunming 650500,China;Faculty of Materials Science and Engineering,Kunming University of Science and Technology,Kunming 650500,China)

机构地区昆明理工大学云南省计算机技术应用重点实验室昆明理工大学信息工程与自动化学院昆明理工大学材料科学与工程学院

出处《材料科学与工程学报》 CAS CSCD 北大核心 2022年第4期640-645,667,共7页 Journal of Materials Science and Engineering

基金国家自然科学基金资助项目(52061020,61971208,51864027) 云南计算机技术应用重点实验室开放基金资助项目(2020103)。

关键词材料基因组文本识别材料命名实体识别迁移学习预训练语言模型 Material genome Text recognition Material named entity recognition Transfer learning Pre-trained language model

分类号 TG146.21 [金属学及工艺—金属材料] TP39.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1杨锦锋,关毅,何彬,曲春燕,于秋滨,刘雅欣,赵永杰.中文电子病历命名实体和实体关系语料库构建[J].软件学报,2016,27(11):2725-2746. 被引量：106
2宋千光,赵彬,耿小亮,邓俊艳,刘畅.温度和应力比对航空铝合金疲劳裂纹扩展规律的影响及其机理[J].材料科学与工程学报,2015,33(2):157-162. 被引量：16
3谢壮德,沈平,董寅生,周彼德,李庆春.快速凝固铝硅合金材料及其在汽车中的应用[J].材料科学与工程,1999,17(4):101-104. 被引量：27
4葛治,王志,孙丽媛,谢克强,马文会,钱伟涛.Al-Si合金熔渣精炼过程中Al和B在渣金两相间的迁移与分配规律[J].中国有色金属学报,2018,28(5):1016-1023. 被引量：2
5王灿让,陈鼎,陈振华,范才河,何武强.大尺寸重力铸造A356铝硅合金管坯楔压致密化[J].材料科学与工程学报,2011,29(2):237-241. 被引量：3

二级参考文献62

1邱光汉.气体喷雾－水淬工艺制造Al－Si合金粉末[J].中南工业大学学报,1995,26(4):484-487. 被引量：5
2丁传富,刘建中,吴学仁.TC4钛合金和7475铝合金的长裂纹和小裂纹扩展特性的研究[J].航空材料学报,2005,25(6):11-17. 被引量：17
3邱光汉.粉末热锻Al－Si合金[J].中国有色金属学报,1996,6(2):117-120. 被引量：6
4袁晓光,徐达鸣,张卫方,李庆春.双级雾化快速凝固高硅铝合金粉末形貌及组织特征[J].金属学报,1996,32(10):1034-1038. 被引量：15
5冉广,周敬恩,王永芳.铸造A356铝合金的拉伸性能及其断口分析[J].稀有金属材料与工程,2006,35(10):1620-1624. 被引量：58
6杨贤金,李国俊,姚家鑫,曹阳,陈复民.离心雾化法制取快速凝固Al-Si合金粉末的研究[J].粉末冶金技术,1990,8(4):206-212. 被引量：6
7赵鸿.铝在汽车上的应用[J].汽车工艺与材料,1997(1):19-24. 被引量：34
8孙章明,陈振华,丁道云.微量元素对快冷高硅铝合金粉末特性的影响[J].中国有色金属学报,1997,7(1):151-154. 被引量：5
9陈振华,贺毅强,陈志钢,尹显觉,陈刚.SiCp/Al-8.5Fe-1.3V-1.7Si复合材料的显微组织及室温力学性能[J].中国有色金属学报,2007,17(6):858-864. 被引量：25
10程德元.金属材料学[M].西安:陕西人民教育出版社,1989.143-146.

共引文献149

1周永称,范少萍,晏归来,安新颖.精准医学文本语料库构建研究[J].医学信息学杂志,2019,40(12):41-47. 被引量：4
2赵奎,杜昕娉,高延军,马慧敏.融合文字与标签的电子病历命名实体识别[J].计算机系统应用,2022,31(10):375-381. 被引量：1
3昝红英,刘涛,牛常勇,赵悦淑,张坤丽,穗志方.面向儿科疾病的命名实体及实体关系标注语料库构建及应用[J].中文信息学报,2020,34(5):19-26. 被引量：17
4吴婷,李明扬,孔芳.基于同义推理的篇章级实体上下位关系语料库构建[J].中文信息学报,2020(4):38-46. 被引量：1
5曹若麟,杜渂.面向实体标注的公安警情领域语料库的构建[J].电信快报,2021(3):20-24. 被引量：2
6陈宇强,张浩,张文涛,潘素平,刘文辉,宋宇锋.服役环境对高强铝合金疲劳损伤行为影响的研究进展[J].机械工程材料,2020,44(1):1-7. 被引量：5
7管桂生,卢德宏,蒋业华,周荣.冷却速度对电磁搅拌过共晶Al-Si合金初生Si的影响[J].特种铸造及有色合金,2005,25(z1):22-23. 被引量：3
8甘卫平,陈招科,杨伏良,周兆锋.高硅铝合金轻质电子封装材料研究现状及进展[J].材料导报,2004,18(6):79-82. 被引量：46
9丁向群,何国求,陈成澍,刘小山,朱正宇.6000系汽车车用铝合金的研究应用进展[J].材料科学与工程学报,2005,23(2):302-305. 被引量：98
10李素萍,毛协民,梁红玉,胡志恒.快速凝固雾化工艺对铝合金粉末形貌和粒度分布的影响[J].铸造技术,2005,26(4):264-267. 被引量：6

同被引文献6

1宿彦京,付华栋,白洋,姜雪,谢建新.中国材料基因工程研究进展[J].金属学报,2020,56(10):1313-1323. 被引量：84
2Rampi Ramprasad,Rohit Batra,Ghanshyam Pilania,Arun Mannodi-Kanakkithodi,Chiho Kim.Machine learning in materials informatics:recent applications and prospects[J].npj Computational Materials,2017(1):1-13. 被引量：72
3Ziheng Lu.Computational discovery of energy materials in the era of big data and machine learning:A critical review[J].Materials Reports(Energy),2021,1(3):2-19. 被引量：2
4魏晓,王晓鑫,陈永琪,张惠然.基于自然语言处理的材料领域知识图谱构建方法[J].上海大学学报（自然科学版）,2022,28(3):386-398. 被引量：3
5Weiren Wang,Xue Jiang,Shaohan Tian,Pei Liu,Depeng Dang,Yanjing Su,Turab Lookman,Jianxin Xie.Automated pipeline for superalloy data by text mining[J].npj Computational Materials,2022(1):58-69. 被引量：9
6Tanishq Gupta,Mohd Zaki,N.M.Anoop Krishnan,Mausam.MatSciBERT:A materials domain language model for text mining and information extraction[J].npj Computational Materials,2022(1):940-950. 被引量：7

引证文献1

1黄星瑞.基于语义块识别的材料科学文献工艺数据实体关系抽取[J].化工自动化及仪表,2024,51(3):507-515.

1鲁秀国,肖火青,王海龙,张慧敏.磁性Mn_(0.02)Fe_(1.10)O_(2)/碳纳米管活化过硫酸盐降解四环素的效用及机理探究[J].环境污染与防治,2021,43(12):1500-1505. 被引量：9
2东方日立智慧型光储一体机开发成功[J].变频器世界,2022(6):66-67.
3柯进华,林虹雨,王宁.后疫情时代中外携手共建生态共同体——第15届克莱蒙生态文明国际论坛暨第4届国际生态文明青年论坛综述[J].鄱阳湖学刊,2022(3):118-123. 被引量：2
42021版《中国学术期刊影响因子年报》发布辽宁中医药大学主办的三种期刊名次靠前,并再次进入Q1区名单[J].辽宁中医杂志,2022,49(5):130-130.
52021版《中国学术期刊影响因子年报》发布辽宁中医药大学主办的三种期刊名次靠前,并再次进入Q1区名单[J].辽宁中医杂志,2022,49(7):147-147.
62021版《中国学术期刊影响因子年报》发布辽宁中医药大学主办的三种期刊名次靠前,并再次进入Q1区名单[J].辽宁中医杂志,2022,49(4):170-170.
7汪韦宏,梁晨晨,张发明.肠道菌群重建在肿瘤治疗中的研究进展[J].中国肿瘤,2022,31(4):292-300. 被引量：3
8夏凡(编译),叶东鑫(编译).历史视角下的中央银行数字货币——货币历史上的又一个十字路口[J].金融言行（杭州金融研修学院学报）,2022(7):61-64. 被引量：1
92021版《中国学术期刊影响因子年报》发布辽宁中医药大学主办的三种期刊名次靠前,并再次进入Q1区名单[J].辽宁中医杂志,2022,49(2):186-186.
10苏金龙,陈乐群,谭超林,周友翔,翁飞,姚西凌,蒋福林,滕杰.基于机器学习的增材制造过程优化与新材料研发进展[J].中国激光,2022,49(14):3-14. 被引量：10

材料科学与工程学报

2022年第4期

浏览历史

内容加载中请稍等...

基于迁移学习的铝硅合金文献的文本识别被引量：1

参考文献5

二级参考文献62

共引文献149

同被引文献6

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于迁移学习的铝硅合金文献的文本识别 被引量：1

参考文献5

二级参考文献62

共引文献149

同被引文献6

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于迁移学习的铝硅合金文献的文本识别被引量：1