摘要
在广告或者推荐系统的召回阶段,通常会包含百万到亿级别的候选集,采样和预估就成为很重要的问题;传统的召回模型会做随机负采样,这种方法采样的数据分布和整体样本分布可能存在不一致,影响模型训练效果,在预估服务时线上infer性能也是严峻的考验;针对这两个问题,我们提出了基于树结构的采样预估服务,把全量候选集通过层次聚类构建到一颗二叉树中,所有物料挂在的树的叶子结点,通过二叉树采样可能无偏的来到所有物料,并且线上infer时间复杂度从O(n)降低到O(log(n)),整体提升了模型训练效果和预估时间开销。
出处
《中国新通信》
2022年第16期50-52,共3页
China New Telecommunications