考虑潜在高价值旅客特有的数据高度不平衡、旅客特征和价值类别弱相关等问题,提出一种基于三重混合采样和集成学习的潜在高价值旅客发现模型。采用RFM(Recency Frequency Monetary)方法标注旅客类别;使用三重混合采样对不平衡旅客数据...考虑潜在高价值旅客特有的数据高度不平衡、旅客特征和价值类别弱相关等问题,提出一种基于三重混合采样和集成学习的潜在高价值旅客发现模型。采用RFM(Recency Frequency Monetary)方法标注旅客类别;使用三重混合采样对不平衡旅客数据集进行重采样;使用融合特征选择算法遴选旅客特征;使用梯度提升决策树作为分类器,构建旅客价值预测模型,识别潜在高价值旅客。在PNR数据集上的实验结果表明,与基准算法相比,该模型能取得更好的AUC值和F1值,可以较好地识别潜在高价值旅客。展开更多
对于时间序列聚类任务而言,一个有效的距离度量至关重要.为了提高时间序列聚类的性能,考虑借助度量学习方法,从数据中学习一种适用于时序聚类的距离度量.然而,现有的度量学习未注意到时序的特性,且时间序列数据存在成对约束等辅助信息...对于时间序列聚类任务而言,一个有效的距离度量至关重要.为了提高时间序列聚类的性能,考虑借助度量学习方法,从数据中学习一种适用于时序聚类的距离度量.然而,现有的度量学习未注意到时序的特性,且时间序列数据存在成对约束等辅助信息不易获取的问题.提出一种辅助信息自动生成的时间序列距离度量学习(distance metric learning based on side information autogeneration for time series,简称SIADML)方法.该方法利用动态时间弯曲(dynamic time warping,简称DTW)距离在捕捉时序特性上的优势,自动生成成对约束信息,使习得的度量尽可能地保持时序之间固有的近邻关系.在一系列时间序列标准数据集上的实验结果表明,采用该方法得到的度量能够有效改善时间序列聚类的性能.展开更多
当前,民航旅客价值分析把每一个旅客当作彼此不相关联的实体,忽略了旅客间存在的关系。针对这种情况,提出从旅客间的相互影响角度出发,量化这种影响的强弱。基于PNR(Passenger Name Record)数据构建民航旅客社会网络,从系统科学、网络...当前,民航旅客价值分析把每一个旅客当作彼此不相关联的实体,忽略了旅客间存在的关系。针对这种情况,提出从旅客间的相互影响角度出发,量化这种影响的强弱。基于PNR(Passenger Name Record)数据构建民航旅客社会网络,从系统科学、网络关系和互联网搜索这三个角度研究社会网络中节点重要性的评估算法,并把这三种算法应用在民航旅客社会网络中。最后,通过F-度量方法对这三种算法计算出的重要节点进行相似性比较。实验结果表明,该方法能够有效地得到民航旅客社会网络中的重要旅客。展开更多
文摘考虑潜在高价值旅客特有的数据高度不平衡、旅客特征和价值类别弱相关等问题,提出一种基于三重混合采样和集成学习的潜在高价值旅客发现模型。采用RFM(Recency Frequency Monetary)方法标注旅客类别;使用三重混合采样对不平衡旅客数据集进行重采样;使用融合特征选择算法遴选旅客特征;使用梯度提升决策树作为分类器,构建旅客价值预测模型,识别潜在高价值旅客。在PNR数据集上的实验结果表明,与基准算法相比,该模型能取得更好的AUC值和F1值,可以较好地识别潜在高价值旅客。
文摘对于时间序列聚类任务而言,一个有效的距离度量至关重要.为了提高时间序列聚类的性能,考虑借助度量学习方法,从数据中学习一种适用于时序聚类的距离度量.然而,现有的度量学习未注意到时序的特性,且时间序列数据存在成对约束等辅助信息不易获取的问题.提出一种辅助信息自动生成的时间序列距离度量学习(distance metric learning based on side information autogeneration for time series,简称SIADML)方法.该方法利用动态时间弯曲(dynamic time warping,简称DTW)距离在捕捉时序特性上的优势,自动生成成对约束信息,使习得的度量尽可能地保持时序之间固有的近邻关系.在一系列时间序列标准数据集上的实验结果表明,采用该方法得到的度量能够有效改善时间序列聚类的性能.
文摘当前,民航旅客价值分析把每一个旅客当作彼此不相关联的实体,忽略了旅客间存在的关系。针对这种情况,提出从旅客间的相互影响角度出发,量化这种影响的强弱。基于PNR(Passenger Name Record)数据构建民航旅客社会网络,从系统科学、网络关系和互联网搜索这三个角度研究社会网络中节点重要性的评估算法,并把这三种算法应用在民航旅客社会网络中。最后,通过F-度量方法对这三种算法计算出的重要节点进行相似性比较。实验结果表明,该方法能够有效地得到民航旅客社会网络中的重要旅客。