摘要
随着信息技术的发展和教育信息化进程的不断推进,数据资产管理平台中积累了大量的数据,如何合理的分析这些数据,从中提取隐含的并有价值的信息,已经成为亟需解决的问题。提出一种基于机器学习的大数据聚类分类方法,该方法分为离线和在线两部分。离线部分采用LDA主题模型对历史数据进行主题特征提取,结合k-means对LDA的主题特征进行聚类,离线部分加快了运行数据分类的速度。在线部分主要主要采用word2vec对新输入数据进行向量化,直接与表征类向量进行在线对比,自动进行分类。测试结果表明,所提方法在聚类效果上相对传统的聚类方法精确率提高12.2%,在运行数据分类上准确率超过97.5%,提高了数据资产管理能力。
作者
陈彬
徐欢
杨秋勇
高伟
陈韩霏
CHEN Bin;XU Huan;YANG Qiu-yong;GAO Wei;CHEN Han-fei
出处
《制造业自动化》
北大核心
2023年第8期32-38,共7页
Manufacturing Automation
基金
南方电网公司科技项目(0002200000086700)。