LAMOST(郭守敬望远镜)提供了大量的天文光谱数据,而天体分类是天文学中得到广泛关注的问题,由于天体数量大,数据维度高,如何使用机器学习的方法对光谱进行处理,成为近些年的热点。针对天体分类问题,提出了HSODM(High-dimensional Spectr...LAMOST(郭守敬望远镜)提供了大量的天文光谱数据,而天体分类是天文学中得到广泛关注的问题,由于天体数量大,数据维度高,如何使用机器学习的方法对光谱进行处理,成为近些年的热点。针对天体分类问题,提出了HSODM(High-dimensional Spectral with Outlier Data Mining),这是一种改进的高维离群数据识别方法,其采用无监督学习方式,基于随机距离将大量高维光谱数据中的极少数未知天体或离群数据识别出来,便于后续天体分类、离群数据挖掘等相关处理。项目中运用数据预处理、主成分分析降维、长短期记忆神经网络模型建立与训练、参数调优、结果预测与分析,最终通过评估方法和数据可视化等手段对模型进行评价与展示。研究中提出的改进方法和优化的神经网络可以缩短训练时间,提高模型预测准确度。经过实验发现,改进方法对ROC(receiver operating characteristic)曲线面积、P-R曲线面积、F1分数和G-mean分数都有相应的提高。展开更多
文摘LAMOST(郭守敬望远镜)提供了大量的天文光谱数据,而天体分类是天文学中得到广泛关注的问题,由于天体数量大,数据维度高,如何使用机器学习的方法对光谱进行处理,成为近些年的热点。针对天体分类问题,提出了HSODM(High-dimensional Spectral with Outlier Data Mining),这是一种改进的高维离群数据识别方法,其采用无监督学习方式,基于随机距离将大量高维光谱数据中的极少数未知天体或离群数据识别出来,便于后续天体分类、离群数据挖掘等相关处理。项目中运用数据预处理、主成分分析降维、长短期记忆神经网络模型建立与训练、参数调优、结果预测与分析,最终通过评估方法和数据可视化等手段对模型进行评价与展示。研究中提出的改进方法和优化的神经网络可以缩短训练时间,提高模型预测准确度。经过实验发现,改进方法对ROC(receiver operating characteristic)曲线面积、P-R曲线面积、F1分数和G-mean分数都有相应的提高。