摘要
针对随机森林算法在序列数据趋势预测中存在子特征空间信息不足和在处理大规模数据时效率低下的问题,文章提出了一种基于PCA分层抽样的并行随机森林PSS-PRF预测算法。该算法通过PCA特征变换和分层抽样进行特征选择,保证每个基决策树都具有较多的特征信息,并在Spark大数据框架下进行算法的并行优化设计。文章选取沪深300成分股的股票序列数据为实验对象,以预测股价的涨跌趋势,结果表明该算法具有较高的预测准确率,并在大规模数据集上具有较高的训练效率。
出处
《中国管理信息化》
2022年第24期172-176,共5页
China Management Informationization
基金
国家自然科学基金项目“社交媒体中用户创新价值度测量模型及互动创新管理方法研究”(71672128)
上海市科技创新行动计划(22692108300)。