将机器学习算法和文本挖掘融入酱卤肉制品货架期预测中,基于对文献数据库中酱卤肉制品的货架期及其影响因素(包装方式、储藏方式、保鲜剂和二次杀菌)进行收集,构建原始数据集;通过比较多种编码方法(JamesStein、BaseNEncoder、TargetEnc...将机器学习算法和文本挖掘融入酱卤肉制品货架期预测中,基于对文献数据库中酱卤肉制品的货架期及其影响因素(包装方式、储藏方式、保鲜剂和二次杀菌)进行收集,构建原始数据集;通过比较多种编码方法(JamesStein、BaseNEncoder、TargetEncoder、OrdinalEncoder、PolynomialEncoder),选择效果较好的JamesStein编码作为分类型特征变量的编码方式。通过比较多种机器学习算法(包括随机森林算法、K最近邻算法、逻辑回归、XGboost和多层感知机分类器),结果显示最优模型为随机森林算法[其准确度为0.95、精确度为0.97、曲线下面积(area under curve,AUC)值为0.99,F1-score 0.91]。通过对酱牛肉和盐水鸭的实际样品测试分析,发现该模型在预测不同酱卤肉制品的货架期方面均具有较高的准确性。此外,该文从另一个角度验证储藏温度、包装方式、保鲜剂和二次杀菌等因素对酱卤肉制品货架期的显著影响。展开更多
文摘将机器学习算法和文本挖掘融入酱卤肉制品货架期预测中,基于对文献数据库中酱卤肉制品的货架期及其影响因素(包装方式、储藏方式、保鲜剂和二次杀菌)进行收集,构建原始数据集;通过比较多种编码方法(JamesStein、BaseNEncoder、TargetEncoder、OrdinalEncoder、PolynomialEncoder),选择效果较好的JamesStein编码作为分类型特征变量的编码方式。通过比较多种机器学习算法(包括随机森林算法、K最近邻算法、逻辑回归、XGboost和多层感知机分类器),结果显示最优模型为随机森林算法[其准确度为0.95、精确度为0.97、曲线下面积(area under curve,AUC)值为0.99,F1-score 0.91]。通过对酱牛肉和盐水鸭的实际样品测试分析,发现该模型在预测不同酱卤肉制品的货架期方面均具有较高的准确性。此外,该文从另一个角度验证储藏温度、包装方式、保鲜剂和二次杀菌等因素对酱卤肉制品货架期的显著影响。