在线社交网络(Online Social Networks, OSNs)数据量庞大,如何以低成本采样获取具有代表性的子图成为当前一个研究热点。现有的大部分采样算法仅仅体现在样本列表的无偏特性上,很多情况下,其采样样本构造的诱导子图难以代表原图结构。...在线社交网络(Online Social Networks, OSNs)数据量庞大,如何以低成本采样获取具有代表性的子图成为当前一个研究热点。现有的大部分采样算法仅仅体现在样本列表的无偏特性上,很多情况下,其采样样本构造的诱导子图难以代表原图结构。本文对各种类型的OSN提出了一种新的采样方法,该算法在原有的随机游走算法基础上重新计算了采样跳转概率,修正采样诱导子图的偏差,使其能够更出色地代表原图。同时,本文的采样算法通过计算权重的方式采集邻接节点,省去了自循环过程,从而大幅度提高了采样效率。实验结果表明,本论文提出的采样算法在度分布、聚类系数、传递性、同配性各个方面综合对比,采样获取的子图更加接近原图的属性结构。最后,该算法在大多数情况下,其性能与表现均优于现有采样算法。展开更多
文摘在线社交网络(Online Social Networks, OSNs)数据量庞大,如何以低成本采样获取具有代表性的子图成为当前一个研究热点。现有的大部分采样算法仅仅体现在样本列表的无偏特性上,很多情况下,其采样样本构造的诱导子图难以代表原图结构。本文对各种类型的OSN提出了一种新的采样方法,该算法在原有的随机游走算法基础上重新计算了采样跳转概率,修正采样诱导子图的偏差,使其能够更出色地代表原图。同时,本文的采样算法通过计算权重的方式采集邻接节点,省去了自循环过程,从而大幅度提高了采样效率。实验结果表明,本论文提出的采样算法在度分布、聚类系数、传递性、同配性各个方面综合对比,采样获取的子图更加接近原图的属性结构。最后,该算法在大多数情况下,其性能与表现均优于现有采样算法。