针对经典K–means算法对不均衡数据进行聚类时产生的"均匀效应"问题,提出一种基于近邻的不均衡数据聚类算法(Clustering algorithm for imbalanced data based on nearest neighbor,CABON).CABON算法首先对数据对象进行初始聚...针对经典K–means算法对不均衡数据进行聚类时产生的"均匀效应"问题,提出一种基于近邻的不均衡数据聚类算法(Clustering algorithm for imbalanced data based on nearest neighbor,CABON).CABON算法首先对数据对象进行初始聚类,通过定义的类别待定集来确定初始聚类结果中类别归属有待进一步核定的数据对象集合;并给出一种类别待定集的动态调整机制,利用近邻思想实现此集合中数据对象所属类别的重新划分,按照从集合边缘到中心的顺序将类别待定集中的数据对象依次归入其最近邻居所在的类别中,得到最终的聚类结果,以避免"均匀效应"对聚类结果的影响.将该算法与K–means、多中心的非平衡K_均值聚类方法(Imbalanced K–means clustering method with multiple centers,MC_IK)和非均匀数据的变异系数聚类算法(Coefficient of variation clustering for non-uniform data,CVCN)在人工数据集和真实数据集上分别进行实验对比,结果表明CABON算法能够有效消减K–means算法对不均衡数据聚类时所产生的"均匀效应",聚类效果明显优于K–means、MC_IK和CVCN算法.展开更多
针对现有深度神经网络点击率预测模型在对用户偏好建模时,难以有效且高效地处理用户行为序列的问题,提出长短期兴趣网络(Long and short term interests network,LSTIN)模型,充分利用用户历史记录上下文信息和顺序信息,提升点击率预测...针对现有深度神经网络点击率预测模型在对用户偏好建模时,难以有效且高效地处理用户行为序列的问题,提出长短期兴趣网络(Long and short term interests network,LSTIN)模型,充分利用用户历史记录上下文信息和顺序信息,提升点击率预测精准性和训练效率.使用基于注意力机制的Transformer和激活单元结构完成用户长、短期兴趣建模,对用户短期兴趣进一步使用循环神经网络(Recurrent neural network,RNN)、卷积神经网络(Convolutional neural networks,CNN)进行处理,最后使用全连接神经网络进行预测.在亚马逊公开数据集上开展实验,将提出的模型与基于分解机的神经网络(DeepFM)、深度兴趣网络(Deep interest network,DIN)等点击率预测模型对比,结果表明提出的模型实现了考虑上下文信息和顺序信息的用户历史记录建模,接受者操作特征曲线下面积(Area under curve,AUC)指标为85.831%,相比于基础模型(BaseModel)提升1.154%,相比于DIN提升0.476%.且因区分用户长、短期兴趣,模型能够在提升预测精准性的同时保障训练效率.展开更多
文摘针对经典K–means算法对不均衡数据进行聚类时产生的"均匀效应"问题,提出一种基于近邻的不均衡数据聚类算法(Clustering algorithm for imbalanced data based on nearest neighbor,CABON).CABON算法首先对数据对象进行初始聚类,通过定义的类别待定集来确定初始聚类结果中类别归属有待进一步核定的数据对象集合;并给出一种类别待定集的动态调整机制,利用近邻思想实现此集合中数据对象所属类别的重新划分,按照从集合边缘到中心的顺序将类别待定集中的数据对象依次归入其最近邻居所在的类别中,得到最终的聚类结果,以避免"均匀效应"对聚类结果的影响.将该算法与K–means、多中心的非平衡K_均值聚类方法(Imbalanced K–means clustering method with multiple centers,MC_IK)和非均匀数据的变异系数聚类算法(Coefficient of variation clustering for non-uniform data,CVCN)在人工数据集和真实数据集上分别进行实验对比,结果表明CABON算法能够有效消减K–means算法对不均衡数据聚类时所产生的"均匀效应",聚类效果明显优于K–means、MC_IK和CVCN算法.
文摘针对现有深度神经网络点击率预测模型在对用户偏好建模时,难以有效且高效地处理用户行为序列的问题,提出长短期兴趣网络(Long and short term interests network,LSTIN)模型,充分利用用户历史记录上下文信息和顺序信息,提升点击率预测精准性和训练效率.使用基于注意力机制的Transformer和激活单元结构完成用户长、短期兴趣建模,对用户短期兴趣进一步使用循环神经网络(Recurrent neural network,RNN)、卷积神经网络(Convolutional neural networks,CNN)进行处理,最后使用全连接神经网络进行预测.在亚马逊公开数据集上开展实验,将提出的模型与基于分解机的神经网络(DeepFM)、深度兴趣网络(Deep interest network,DIN)等点击率预测模型对比,结果表明提出的模型实现了考虑上下文信息和顺序信息的用户历史记录建模,接受者操作特征曲线下面积(Area under curve,AUC)指标为85.831%,相比于基础模型(BaseModel)提升1.154%,相比于DIN提升0.476%.且因区分用户长、短期兴趣,模型能够在提升预测精准性的同时保障训练效率.