期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
数据驱动的机器学习在电化学储能材料研究中的应用 被引量:14
1
作者 施思齐 涂章伟 +3 位作者 邹欣欣 孙拾雨 杨正伟 刘悦 《储能科学与技术》 CAS CSCD 北大核心 2022年第3期739-759,共21页
储能电池的关键是材料。继实验观测、理论研究和计算模拟之后,数据驱动的机器学习具有快速捕捉材料成分-结构-工艺-性能间复杂构效关系的优势,有望为电化学储能材料的研发提供新的范式。本文从结构化和非结构化数据驱动两方面,系统评述... 储能电池的关键是材料。继实验观测、理论研究和计算模拟之后,数据驱动的机器学习具有快速捕捉材料成分-结构-工艺-性能间复杂构效关系的优势,有望为电化学储能材料的研发提供新的范式。本文从结构化和非结构化数据驱动两方面,系统评述了机器学习在电化学储能材料研究中的最新进展。全面概括了可用于电化学储能材料机器学习的国内外材料数据库,分析了其数据的收集、共享和质量检测存在的问题;重点阐述了电化学储能材料中机器学习的工作流程和应用,包括结构化数据驱动下数据收集、特征工程和机器学习建模以及图形、表征图像和文献文本这类非结构化数据驱动下的模型构建和应用。进一步,厘清电化学储能材料领域机器学习面临的三大矛盾且给出对策,即高维度与小样本数据的矛盾与协调、模型复杂性与易用性的矛盾与统一、模型学习结果与专家经验的矛盾与融合,并提出构建“领域知识嵌入的机器学习方法”有望调和这些矛盾。本文将为机器学习在电化学储能材料设计和性能优化中的应用提供参考。 展开更多
关键词 电化学储能材料 机器学习 材料数据库 领域知识
下载PDF
高质量的材料科学文本挖掘数据集构建方法 被引量:2
2
作者 刘悦 刘大晖 +4 位作者 葛献远 杨正伟 马舒畅 邹喆乂 施思齐 《物理学报》 SCIE EI CAS CSCD 北大核心 2023年第7期41-54,共14页
科学文献中蕴含的大量历史数据和经验知识,对材料设计与研发具有重要参考价值.文本挖掘尽管能高效地探索并利用被存储在海量科学文献中的信息,但高质量文本数据的获取困难阻碍了其在材料领域更广泛的应用.本文从品质和数量双视角剖析了... 科学文献中蕴含的大量历史数据和经验知识,对材料设计与研发具有重要参考价值.文本挖掘尽管能高效地探索并利用被存储在海量科学文献中的信息,但高质量文本数据的获取困难阻碍了其在材料领域更广泛的应用.本文从品质和数量双视角剖析了材料领域的文本数据质量问题及其相关研究工作,提出高质量的材料科学文本挖掘数据集构建方法.该方法通过可溯源的文献自动获取方案确保文本数据的源头可追溯;以下游任务为驱动对文献进行预处理以提升预标注文本语料的质量;基于材料四面体准则定义适配全体系的标签注释方案以完成对语料的高品质标注;利用融合材料领域知识的有条件文本数据增强模型实现材料文本数据量的扩充.在不同体系数据集上的实验结果表明,该方法可有效地提升下游文本挖掘模型的预测精度,其中在NASICON型固态电解质材料实体识别任务上的F1值达84%.本文为文本挖掘在材料领域的深入应用提供理论指导和解决方案,并有望推进数据与知识双向驱动的材料设计与研发. 展开更多
关键词 材料科学文本挖掘 数据增强 数据质量
下载PDF
融合材料领域知识的数据准确性检测方法 被引量:3
3
作者 施思齐 孙拾雨 +3 位作者 马舒畅 邹欣欣 钱权 刘悦 《无机材料学报》 SCIE EI CAS CSCD 北大核心 2022年第12期1311-1320,I0001-I0005,共15页
材料数据由于小样本、高维度、噪音大等特性,用于机器学习建模时常常会产生与领域专家认知不一致的结果。面向机器学习全流程,开发材料领域知识嵌入的机器学习模型是解决这一问题的有效途径。材料数据的准确性直接影响了数据驱动的材料... 材料数据由于小样本、高维度、噪音大等特性,用于机器学习建模时常常会产生与领域专家认知不一致的结果。面向机器学习全流程,开发材料领域知识嵌入的机器学习模型是解决这一问题的有效途径。材料数据的准确性直接影响了数据驱动的材料性能预测的可靠性。本研究针对机器学习应用过程中的数据预处理阶段,提出了融合材料领域知识的数据准确性检测方法。该方法首先结合材料专家认知构建了材料领域知识库。然后,将其与数据驱动的数据准确性检测方法结合,从数据和领域知识两个角度对材料数据集进行基于描述符取值规则的单维度数据正确性检测、基于描述符相关性规则的多维度数据相关性检测以及基于多维相似样本识别策略的全维度数据可靠性检测。对于每一阶段识别出的异常数据,结合材料领域知识进行修正,并将领域知识融入到数据准确性检测方法的全过程以确保数据集从初始阶段就具有较高准确性。最后该方法在NASICON型固态电解质激活能预测数据集上的实验结果表明:本研究提出的方法可以有效识别异常数据并进行合理修正。与原始数据集相比,基于修正数据集的6种机器学习模型的预测精度都有不同程度的提升。其中,在最优模型上R2提升了33%。 展开更多
关键词 机器学习 材料科学 数据质量 领域知识
下载PDF
材料领域知识嵌入的机器学习 被引量:27
4
作者 刘悦 邹欣欣 +1 位作者 杨正伟 施思齐 《硅酸盐学报》 EI CAS CSCD 北大核心 2022年第3期863-876,共14页
数据驱动的机器学习因其能够快速拟合历史数据中的潜在模式并实现材料性能的精准预测,已被广泛应用于材料性能优化和新材料设计。然而,由于缺乏描述符间关联关系、材料性能驱动机制等材料领域知识的指导,数据驱动的机器学习在实际应用... 数据驱动的机器学习因其能够快速拟合历史数据中的潜在模式并实现材料性能的精准预测,已被广泛应用于材料性能优化和新材料设计。然而,由于缺乏描述符间关联关系、材料性能驱动机制等材料领域知识的指导,数据驱动的机器学习在实际应用中常常出现与材料基础理论认知或原理不一致的结果。本工作通过分析材料数据的特点和数据驱动的机器学习建模原理,厘清了数据驱动的机器学习应用于材料领域面临的三大矛盾:高维度与小样本数据的矛盾、模型准确性与易用性的矛盾、模型学习结果与领域专家知识的矛盾。藉此提出材料领域知识嵌入的机器学习作为上述矛盾的调和策略。进一步,面向“目标定义–数据准备–数据预处理–特征工程–模型构建–模型应用”的机器学习全流程,通过剖析相关的基础性和探索性工作,探讨了在机器学习各阶段实现材料领域知识嵌入的关键技术。最后,展望了材料领域知识嵌入机器学习的发展机遇和挑战。 展开更多
关键词 材料设计 机器学习 材料数据
原文传递
面向材料领域机器学习的数据质量治理 被引量:7
5
作者 刘悦 马舒畅 +2 位作者 杨正伟 邹欣欣 施思齐 《硅酸盐学报》 EI CAS CSCD 北大核心 2023年第2期427-437,共11页
数据驱动的机器学习凭借其准确高效的预测能力广泛应用于材料的性能预测和构效关系研究。数据决定了机器学习的上限。然而,目前材料领域的数据存在来源广、噪音大、样本少、维度高等数据质量问题,阻碍了机器学习在材料领域更广泛的应用... 数据驱动的机器学习凭借其准确高效的预测能力广泛应用于材料的性能预测和构效关系研究。数据决定了机器学习的上限。然而,目前材料领域的数据存在来源广、噪音大、样本少、维度高等数据质量问题,阻碍了机器学习在材料领域更广泛的应用。本文从数据品质和数据数量2个视角系统梳理并全面剖析了材料领域数据质量问题及其相关治理工作,发现数据品质与数据数量共同决定数据质量。基于此,提出了面向材料领域机器学习全过程的领域知识嵌入的数据质量治理框架。该框架定义了12种维度用于解析材料数据质量的内涵;构建了数据质量治理的生命周期模型以确保数据质量治理活动有序进行;建立了一系列数据质量治理处理模型,从领域知识与数据驱动2个方面对数据质量进行精准全面治理,为生命周期模型的具体实施提供技术支持。该框架实现了材料数据质量的综合评估与提升,为高质量数据获取提供理论指导与候选方案,加速机器学习在材料研发中的深入应用。 展开更多
关键词 材料科学 机器学习 数据质量 领域知识
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部