针对协同过滤推荐系统在稀疏数据集条件下推荐准确度低的问题,提出了推荐支持度模型以及用于该模型计算的邻域线性最小二乘拟合的推荐支持度评分算法(linear least squares fitting,LLSF)。该模型描述用户对被推荐项目更感兴趣的可能性...针对协同过滤推荐系统在稀疏数据集条件下推荐准确度低的问题,提出了推荐支持度模型以及用于该模型计算的邻域线性最小二乘拟合的推荐支持度评分算法(linear least squares fitting,LLSF)。该模型描述用户对被推荐项目更感兴趣的可能性,通过用高支持度的评分估计取代传统的期望估计法来找出用户更喜欢的项目,从而提高推荐的准确度,并从理论上论述了该算法在稀疏数据集条件下相对其他算法具有更强的抗干扰能力。该模型还易于与其他推荐模型融合,具有很好的可拓展性。实验结果表明:LLSF算法显著提升了推荐的准确性,在MovieLens数据集上,F1分数可达到传统的kNN算法的3倍多,对于越是稀疏的数据集,准确率提升幅度越大,在Book-Crossing数据集上,当稀疏度由91%增加到99%时,F1分数的改进由22%提高到125%。同时该方法不会牺牲推荐覆盖率,可以保证长尾项目的挖掘效果。展开更多
样本有限的表格型数据缺乏不变性结构和足够样本,使得传统数据增强方法和生成式数据增强方法难以获得符合原始数据分布且具有多样性的数据.为此,文中依据表格型数据的特点和邻域风险最小化原则,提出基于邻域分布的去噪扩散概率模型(Vici...样本有限的表格型数据缺乏不变性结构和足够样本,使得传统数据增强方法和生成式数据增强方法难以获得符合原始数据分布且具有多样性的数据.为此,文中依据表格型数据的特点和邻域风险最小化原则,提出基于邻域分布的去噪扩散概率模型(Vicinal Distribution Based Denoising Diffusion Probabilistic Model,VD-DDPM)及相应算法.首先,分析样本有限表格型数据的特征,通过先验知识选择弱相关特征,并构建样本的邻域分布.然后,利用邻域分布采样数据构建VD-DDPM模型,并使用VD-DDPM数据生成算法生成符合原始数据分布且具有多样性的数据集.在多个数据集上针对数据生成质量、下游模型性能等进行实验,验证VD-DDPM的有效性.展开更多
旅行推销员问题TSP(Traveling Salesman Problem)问题是组合优化中的经典NP难题,一些典型的遗传算法(GA)在求解TSP问题时的性能并不理想。提出基于"最小邻域接入法"CBMC(Connecting Based on Minimum Circle)思想的改进的遗...旅行推销员问题TSP(Traveling Salesman Problem)问题是组合优化中的经典NP难题,一些典型的遗传算法(GA)在求解TSP问题时的性能并不理想。提出基于"最小邻域接入法"CBMC(Connecting Based on Minimum Circle)思想的改进的遗传算法,并在算法中增加一些控制策略,与其他算法相比,获得了更好的性能和收敛速度。通过用中国33个省会的TSP问题对提出算法进行实验验证,结果证明了改进后的算法在收敛速度和收敛到最优解的概率都优于其他遗传算法。展开更多
文摘针对协同过滤推荐系统在稀疏数据集条件下推荐准确度低的问题,提出了推荐支持度模型以及用于该模型计算的邻域线性最小二乘拟合的推荐支持度评分算法(linear least squares fitting,LLSF)。该模型描述用户对被推荐项目更感兴趣的可能性,通过用高支持度的评分估计取代传统的期望估计法来找出用户更喜欢的项目,从而提高推荐的准确度,并从理论上论述了该算法在稀疏数据集条件下相对其他算法具有更强的抗干扰能力。该模型还易于与其他推荐模型融合,具有很好的可拓展性。实验结果表明:LLSF算法显著提升了推荐的准确性,在MovieLens数据集上,F1分数可达到传统的kNN算法的3倍多,对于越是稀疏的数据集,准确率提升幅度越大,在Book-Crossing数据集上,当稀疏度由91%增加到99%时,F1分数的改进由22%提高到125%。同时该方法不会牺牲推荐覆盖率,可以保证长尾项目的挖掘效果。
文摘样本有限的表格型数据缺乏不变性结构和足够样本,使得传统数据增强方法和生成式数据增强方法难以获得符合原始数据分布且具有多样性的数据.为此,文中依据表格型数据的特点和邻域风险最小化原则,提出基于邻域分布的去噪扩散概率模型(Vicinal Distribution Based Denoising Diffusion Probabilistic Model,VD-DDPM)及相应算法.首先,分析样本有限表格型数据的特征,通过先验知识选择弱相关特征,并构建样本的邻域分布.然后,利用邻域分布采样数据构建VD-DDPM模型,并使用VD-DDPM数据生成算法生成符合原始数据分布且具有多样性的数据集.在多个数据集上针对数据生成质量、下游模型性能等进行实验,验证VD-DDPM的有效性.
文摘旅行推销员问题TSP(Traveling Salesman Problem)问题是组合优化中的经典NP难题,一些典型的遗传算法(GA)在求解TSP问题时的性能并不理想。提出基于"最小邻域接入法"CBMC(Connecting Based on Minimum Circle)思想的改进的遗传算法,并在算法中增加一些控制策略,与其他算法相比,获得了更好的性能和收敛速度。通过用中国33个省会的TSP问题对提出算法进行实验验证,结果证明了改进后的算法在收敛速度和收敛到最优解的概率都优于其他遗传算法。