文章搜集了678部电影并将其作为数据,选择电影制式、电影题材、制片地区、发行公司、是否I P续集、主演、导演、编剧以及档期等作为主要影响因素,使用合理方法将这些影响因素进行量化并归一化处理后,随机选取其中300部电影使用随机森林...文章搜集了678部电影并将其作为数据,选择电影制式、电影题材、制片地区、发行公司、是否I P续集、主演、导演、编剧以及档期等作为主要影响因素,使用合理方法将这些影响因素进行量化并归一化处理后,随机选取其中300部电影使用随机森林算法计算特征重要性,并使用对数变换计算权重,之后使用BP神经网络对剩余电影进行票房预测。实验表明,对电影影响因素赋予权重后的模型十折交叉验证R-Sq ua red均值为0.7998,高于未进行权重赋予的0.6641,并且在对知名电影进行预测时,权重赋予后的模型的预测值总体上也更接近实际值,可见使用随机森林特征重要性分数进行权重赋予可以在一定程度上提高票房预测效果。展开更多
基金国家语言资源监测与研究少数民族语言中心项目(National Language Resources Monitoring and Research Center for Minority Languages):上下文相关的藏文情感资源库构建研究(NMLR201601)。
文摘文章搜集了678部电影并将其作为数据,选择电影制式、电影题材、制片地区、发行公司、是否I P续集、主演、导演、编剧以及档期等作为主要影响因素,使用合理方法将这些影响因素进行量化并归一化处理后,随机选取其中300部电影使用随机森林算法计算特征重要性,并使用对数变换计算权重,之后使用BP神经网络对剩余电影进行票房预测。实验表明,对电影影响因素赋予权重后的模型十折交叉验证R-Sq ua red均值为0.7998,高于未进行权重赋予的0.6641,并且在对知名电影进行预测时,权重赋予后的模型的预测值总体上也更接近实际值,可见使用随机森林特征重要性分数进行权重赋予可以在一定程度上提高票房预测效果。