基于二次组合的特征工程与XGBoost模型的用户行为预测被引量：21

User Behavior Prediction Based on Feature Engineering of Quadratic Combination and XGBoost Model

下载PDF

导出

摘要特征构造的难题在数据挖掘过程中一直存在,传统固化的特征工程对于业务场景千变万化的数据挖掘任务所带来的效益十分有限,因此解决特征工程的特征构造问题已经成为数据挖掘的瓶颈之一;尤其在机器学习算法快速发展的情况下,特征逐渐成为模型中急需重视的部分。基于电商平台的用户行为数据,在原有特征群的基础上提出了二次组合统计特征的构建方法。利用二次交叉衍生出丰富而又切合业务场景的特征群,同时结合两种滑动窗口的方法,分别是定长滑动窗口获取更多的训练样本,变长滑动窗口获取具有时间权重的训练特征,以此来最大限度地还原出用户真实的行为习惯。最后,使用不同的特征组合结合降维的方法建立对照检验模型;并利用线性的逻辑回归模型、线性支持向量机以及树模型极端随机森林与XGBoost对模型进行交叉验证。结果表明,组合特征在树模型的算法中得到了非常好的表达效果;而且无论在线性模型还是树模型中衍生特征群模型的F1值都优于基础特征群。 Constructing feature has always been a problem in the process of data mining when conventional ways for feature engineering do not satisfy the need of various data mining mission any more. As machine learning is in a state of rapid development,feature engineering has been playing an important role gradually. The data of user behavior was used to construct statistical combination feature based on the original feature,which is particularly suitable for the business scene. At the same time two different window sliding method is used,in other words,fixed length window sliding to obtain more training samples,and variable length window sliding to get more feature from different time dimension,for the purpose of reproducing the real habit of user in daily life as much as possible. In the end of this paper,different combinations of features will be used for control experiment,while different models such as LR,SVM,ET and XGBoost are all used for experiment as well. The results show that no matter in the linear model or tree model,the F1 value of the combination feature group is better than the original feature group.

作者杨立洪白肇强 YANG Li-hong;BAI Zhao-qiang(Department of Mathematics, South China University of Technology, Guangzhou 510640,China)

机构地区华南理工大学数学学院

出处《科学技术与工程》北大核心 2018年第14期186-189,共4页 Science Technology and Engineering

基金广东省产学研协同创新成果转化项目(2016B090918041) 广州市产学研协同创新重大专项(201504302222568)资助

关键词特征工程二次组合特征用户行为预测 XGBoost feature engineering feature combination user behavior prediction XGBoost

分类号 TP391.41 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1罗冬梅.网络协议流不平衡环境下基于机器学习算法的在线流量分类方法[J].科学技术与工程,2017,17(28):103-107. 被引量：4
2冯晨,张旭翔.数据挖掘技术及算法综述[J].电脑知识与技术,2009,5(5):3331-3332. 被引量：6
3YIN YunFei,GONG GuangHong,HAN Liang.Theory and techniques of data mining in CGF behavior modeling[J].Science China(Information Sciences),2011,54(4):717-731. 被引量：4
4王考杰,郑雪峰,宋一丁.一种基于滑动窗口的数据流相似性查询算法[J].计算机科学,2010,37(10):169-172. 被引量：2

二级参考文献32

1曾莹,陈晓柱.数据挖掘及算法浅谈[J].中国科技信息,2005(14):75-75. 被引量：2
2邹志文,朱金伟.数据挖掘算法研究与综述[J].计算机工程与设计,2005,26(9):2304-2307. 被引量：52
3贺玲,吴玲达,蔡益朝.数据挖掘中的聚类算法综述[J].计算机应用研究,2007,24(1):10-13. 被引量：222
4Franky Kin-Pong C, Ada Wai-chee F, Clement Y. Haar Wavelets for Efficient Similarity Search of Time-series:With and Without Time Warping [J]. IEEE Trans. on Knowl. and Data Eng., 2003,15 (3): 686-705.
5Popivanov I, Miller R J. Similarity Search Over Time-Series Data Using Wavelets[C]//Proceedings of the 18th International Conference on Data Engineering. IEEE Computer Society, 2002: 212-216.
6Liabotis I, Theodoulidis B, Saraaee M. Improving Similarity Search in Time Series Using Wavelets[J]. International Journal of Data Warehousing and Mining, 2006,2 (2).
7Yingyi B, Lei C, Ada Wai-Chee F, et al. Efficient anomaly monitoring over moving object trajectory streams[C]//Proceedings of the 15th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Paris, France, ACM, 2009: 159-168.
8Hao-Ping H, Ming-Syan C. Efficient range-constrained similarity search on wavelet synopses over multiple streams[C]//Proceedings of the 15th ACM International Conference on Information and Knowledge Management. Arlington, Virginia, USA, ACM, 2006 : 327-336.
9Mayur D, Aristides G, Piotr I, et al. Maintaining stream statistics over sliding windows [C]// Proceedings of the Thirteenth Annual ACM-SIAM Symposium on Discrete Algorithms. San Francisco, California, Society for Industrial and Applied Mathematics, 2002 : 635-644.
10Lukasz G, David D, Erik D D, et al. Identifying frequent items in sliding windows over on-line packet streams[C]//Proceedings of the 3rd ACM SIGCOMM Conference on Internet Measurement. Miami Beach, FL, USA, ACM, 2003: 173-178.

共引文献12

1何瑞珍,李小勇,孟庆法.基于3S的森林立地分类决策支持系统设计[J].西北林学院学报,2011,26(4):172-174. 被引量：6
2李爱飞,冀振燕,王经纬.一种基于页面价值和跳转偏爱度挖掘频繁访问路径的模型[J].计算机系统应用,2013,22(3):96-99.
3尹云飞,关海超,曾亚飞,王晓楠,孙天昊.飞行员动态行为评估方法[J].重庆大学学报（自然科学版）,2013,36(6):154-160. 被引量：3
4王少鹏,闻英友,李志,赵宏.一种关于数据流区间Disjoint查询的快速处理算法[J].计算机研究与发展,2014,51(5):1136-1148. 被引量：1
5李红利,柳干,张荣华,刘元建,王舒欢,修春波.基于空间聚类分析的LED颜色检测方法[J].天津工业大学学报,2015,34(4):58-62.
6孔令信.数据挖掘网格中决策树并行算法设计及性能[J].才智,2012,0(4):52-53.
7CHENG Liang,YAN ZhaoJin,XIAO YiJia,CHEN YanMing,ZHANG FangLi,LI ManChun.Using big data to track marine oil transportation along the 21st-century Maritime Silk Road[J].Science China(Technological Sciences),2019,62(4):677-686. 被引量：3
8欧华杰.基于机器学习反馈的黑暗环境车辆路况自动化识别方法[J].环境技术,2019,37(5):172-176.
9段淼,粱杰.序列模式匹配在大数据流频繁序列异常检测中的应用[J].现代电子技术,2021,44(3):59-64. 被引量：1
10苏红,王银泉.数字人文时代高校智慧型外语教师信息素养提升策略研究[J].外语电化教学,2022(2):55-63. 被引量：10

同被引文献151

1郑周练,赵长荣,崔碧海,王蔚佳.建筑安装工程质量的模糊评定[J].重庆建筑大学学报,2000,22(z1):113-117. 被引量：11
2薛可,李增智,刘浏,宋承谦.基于ARIMA模型的网络流量预测[J].微电子学与计算机,2004,21(7):84-87. 被引量：30
3虞晓芬,傅玳.多指标综合评价方法综述[J].统计与决策,2004,20(11):119-121. 被引量：508
4孟文清,石华旺,李万庆.基于人工神经网络的建筑工程质量模糊综合评价[J].工程建设与设计,2004(12):67-69. 被引量：6
5石美娟.ARIMA模型在上海市全社会固定资产投资预测中的应用[J].数理统计与管理,2005,24(1):69-74. 被引量：55
6潘明华,朱国力.盾构机自动导向系统的测量方法研究[J].施工技术,2005,34(6):34-36. 被引量：24
7刘煜,孙新良,刘基勋.一种覆冰污秽绝缘子闪络电压的理论计算模型[J].电网技术,2005,29(14):73-76. 被引量：14
8戴晓枫,肖庆宪.时间序列分析方法及人民币汇率预测的应用研究[J].上海理工大学学报,2005,27(4):341-344. 被引量：46
9吕国岭,黄威然,庞红军.盾构自动导向方法的应用研究[J].隧道建设,2005,25(5):11-14. 被引量：11
10王娟,慈林林,姚康泽.特征选择方法综述[J].计算机工程与科学,2005,27(12):68-71. 被引量：64

引证文献21

1陈检.基于神经网络与因子分解机的点击率预估应用研究[J].信息技术与信息化,2018(8):204-207. 被引量：3
2张远汀,龚伟伟,叶钰,徐希源,徐勋建,蔡泽林,陆佳政,韩俊浩,叶飞,许婧.应用机器学习技术预测强雨雪天气过程中的积雪[J].科学技术与工程,2019,19(15):58-69. 被引量：5
3郁豹,李振华,张凯,胡安翔.基于DeepFM模型的广告推荐系统研究[J].计算机应用与软件,2019,36(7):307-310. 被引量：6
4李建路,徐立坤,陈海平,王林,朱鹏宇.基于层次分析法的电力通信传输设备在线监测[J].计算机与现代化,2019,0(12):101-107. 被引量：7
5周江兵,吕杭炳.基于树模型的虚拟测量算法在半导体制造中的应用[J].电子设计工程,2020,28(1):49-54.
6刘斌,陈凯.基于SMOTE和XGBoost的贷款风险预测方法[J].计算机与现代化,2020,0(2):26-30. 被引量：6
7王智远,陈榕,任崇广.基于集成学习的云平台异常点检测[J].计算机工程与设计,2020,41(5):1288-1294. 被引量：11
8张银杰,揣锦华,翟晓惠.基于特征工程与集成学习的恶意软件预测研究[J].计算机时代,2020(7):7-11. 被引量：1
9刘沐阳.基于监管数据和XGBoost模型的建设工程质量评价方法研究[J].项目管理技术,2020,18(11):56-62. 被引量：2
10谢坤,容钰添,胡奉平,陈桓,姚小龙.基于数据集成的随机森林算法[J].计算机工程,2020,46(12):290-298. 被引量：13

二级引证文献73

1罗朗,王利,周志平,赵卫东.基于DeepFM模型的科技资源推荐应用研究[J].计算机应用研究,2020,37(S01):31-33. 被引量：1
2郁豹,李振华,张凯,胡安翔.基于DeepFM模型的广告推荐系统研究[J].计算机应用与软件,2019,36(7):307-310. 被引量：6
3陈娟,黄浩勇,刘俊辰,曾波,杨昕睿.基于GA-BP神经网络的长宁地区页岩气水平井产能预测技术[J].科学技术与工程,2020,20(5):1851-1858. 被引量：17
4李春山.设备运维管理系统与信号故障诊断系统的通信研究[J].科学与信息化,2020(24):180-180.
5陈东,王建冬,李慧颖,蔡思航,黄倩倩,易成岐,曹攀.融合机器学习算法和多因素的禽肉交易量预测方法研究[J].数据分析与知识发现,2020,4(7):18-27. 被引量：3
6李天举,谢志峰,张侃弘,陶亦筠,范杰,汤臻.基于集成学习的烟草异常数据挖掘研究与应用[J].计算机技术与发展,2020,30(11):128-135. 被引量：2
7金辉.关于我国通信传输设备管理应用模式的探究[J].通讯世界,2020,27(11):5-6. 被引量：1
8李婧,何贞铭,徐佳琪,王晶晶,陈昊.人工智能在极端天气的应用综述[J].科技与创新,2020(23):59-62. 被引量：1
9陈彬,张荣梅,张琦.DCFM:基于深度学习的混合推荐模型[J].计算机工程与应用,2021,57(3):150-155. 被引量：7
10邱云飞,郭蕾.面向非均衡数据的糖尿病并发症预测[J].数据分析与知识发现,2021,5(2):116-128. 被引量：6

1秦锋,陈增,郑啸,童琨.基于情绪和兴趣的用户访问行为预测[J].计算机系统应用,2018,27(1):28-34. 被引量：2
2卓钧.转炉干法除尘灰在半钢冶炼中的回收利用[J].中国冶金,2018,28(6):52-55. 被引量：5
3陈姝,窦永香,张青杰.基于理性行为理论的微博用户转发行为影响因素研究[J].情报杂志,2017,36(11):147-152. 被引量：26
4桂高山.基于数据挖掘的管理会计信息处理研究[J].湖北广播电视大学学报,2018,38(2):50-55.
5吴一忠,程强.女子少年排球运动员速度素质的训练特征[J].山东体育科技,1983,5(1):7-9.
6解洪胜.支持向量机在大规模数据分类中的应用[J].信息与电脑,2017,29(22):44-45.
7郑程鹏.小学篮球训练方式的研究与探讨[J].青少年体育,2018(4):110-111. 被引量：1
8孙安,于英香,罗永刚,王祺.序列标注模型中的字粒度特征提取方案研究——以CCKS2017:Task2临床病历命名实体识别任务为例[J].图书情报工作,2018,62(11):103-111. 被引量：9
9王振海,李晓昀.面向知乎的个性化推荐模型研究[J].计算机应用与软件,2018,35(5):37-41. 被引量：6
10骆绍烨,刘丽桑.基于特征组合的多人脸跟踪算法[J].延边大学学报（自然科学版）,2018,44(1):63-68.

科学技术与工程

2018年第14期

浏览历史

内容加载中请稍等...

基于二次组合的特征工程与XGBoost模型的用户行为预测被引量：21

参考文献4

二级参考文献32

共引文献12

同被引文献151

引证文献21

二级引证文献73

相关作者

相关机构

相关主题

浏览历史

基于二次组合的特征工程与XGBoost模型的用户行为预测 被引量：21

参考文献4

二级参考文献32

共引文献12

同被引文献151

引证文献21

二级引证文献73

相关作者

相关机构

相关主题

浏览历史

基于二次组合的特征工程与XGBoost模型的用户行为预测被引量：21