-
题名面向选煤厂领域知识图谱的数据分类方法
- 1
-
-
作者
赵欣
张树森
-
机构
中煤华晋集团有限公司
中煤天津设计工程有限责任公司
-
出处
《选煤技术》
CAS
2024年第2期73-79,共7页
-
文摘
工业数据资源的开放共享是工业大数据产业发展的重要途径,选煤厂数据的自动分类有利于实现高效的数据管理。然而选煤厂数据纷繁复杂,数据之间存在交叉重叠和孤立无关联等问题,导致选煤厂数据缺乏标准化和规范化,制约了面向选煤厂智能化应用的发展。针对选煤厂结构化库表数据中标签数据少、数据交叉重叠等问题,提出一种基于知识图谱的选煤厂结构化库表数据自动分类算法。通过选煤厂领域的主题词列表构建了选煤厂领域知识图谱;以选煤厂领域知识图谱为基础,提出将KG-BERT分类模型用于非主题数据的扩展分类;基于TF-IDF的多主题权重判定模型,利用知识图谱的知识体系增强了文本分类的可控性和可解释性;结合选煤厂领域知识图谱、KG-BERT分类模型以及基于TF-IDF的主题权重判定模型,提出用基于多模型融合的分类模型来实现选煤厂结构化库表数据自动分类。实验数据均来自选煤厂结构化库表数据全量目录,可验证算法的有效性。对比实验表明:KG-BERT分类模型采用了BERT架构,具有一定的泛化能力,相较于CNN,RNN,LSTM模型能较好应对无主题情况下的文本分类任务;从训练数据集上看,KE数据集在模型上表现更好;基于多模型融合的分类模型在选煤厂领域结构化库表数据分类较单一模型具有更好的有效性和适用性。基于多模型融合的分类模型自动分类效果良好,有助于提升选煤厂数据管理效率,进一步挖掘选煤厂数据资源的潜在价值。
-
关键词
数据分类
选煤厂结构化库表数据
知识图谱
KG-BERT分类模型
基于TF-IDF的主题权重判定模型
多模型融合
数据自动分类
-
Keywords
data classification
coal preparation plant database table data
knowledge graph
KG-BERT classific-ation model
TF-IDF-based muti-subject weighted decision model
integrated model
automatic data classifica-tion
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
TD948.9
[矿业工程—选矿]
-