-
题名基于窗口比较的网站信息增量爬取方法
被引量:1
- 1
-
-
作者
刘学
麻朴方
尤佳莉
脱立恒
-
机构
中国科学院声学研究所国家网络新媒体工程技术研究中心
中国科学院大学
-
出处
《网络新媒体技术》
2017年第4期24-27,共4页
-
基金
中国科学院战略性先导科技专项(编号:XDA06040602)
-
文摘
目前在网站信息增量爬取中,采用布隆过滤器去重是比较有效的方法,但随着存入的元素数量增加,误算率随之增加。为此本文设计并实现了一种基于窗口比较的网站信息增量爬取方法,按照网站数据呈现顺序一次性爬取有限长度的数据,并按照网站数据的呈现顺序放入数据队列,在数据队列末端设定比较窗口,通过检查比较窗口内的数据与已爬取数据的重复度决定是否停止数据爬取。实验表明,针对增量爬取未严格按照时间排序网站信息时,本方法降低了爬取损耗。
-
关键词
增量爬取
爬取效率
HASH
布隆过滤器
-
Keywords
incremental crawling, crawling efficiency, Hash, Bloom filter
-
分类号
TP393.092
[自动化与计算机技术—计算机应用技术]
-
-
题名一种基于马尔可夫模型的加速ICN路径收敛性的方法
被引量:1
- 2
-
-
作者
麻朴方
王劲林
尤佳莉
-
机构
中国科学院声学研究所国家网络新媒体工程技术研究中心
中国科学院大学
-
出处
《计算机与现代化》
2020年第1期28-33,共6页
-
基金
中国科学院战略性科技先导专项基金资助项目(XDC02010701)
-
文摘
在新型的内容中心网络(Information-Centric Networking,ICN)多宿主场景中,主机的标识和地址分离,允许数据包中携带多个地址。多目的地址的数据包在匹配路由表之后获得多个转发端口,在每跳具有路径选择的能力,可以根据网络的动态进行路径调整。然而,这种转发方法打破了根据路由表最短路径转发规则,数据包可能在网络中来回跳动而不能尽快收敛到目的地。本文提出一种基于马尔可夫模型的多地址裁剪方法,该模型能根据历史地址裁剪状态信息进行裁剪决策,从而提高路径的收敛性。实验结果表明该方法与基准方法相比,在保证传输速率几乎相同的同时,平均跳数减少约16%,在路径收敛性方面得到了改善。
-
关键词
多宿主
内容中心网络
多路径路由
马尔可夫模型
路径收敛性
-
Keywords
multi-homing
information-centric networking
multipath routing
Markov model
path convergence
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名基于POF多宿主网络路径选择方法
被引量:1
- 3
-
-
作者
麻朴方
尤佳莉
王劲林
郑策
-
机构
中国科学院声学研究所
中国科学院大学
-
出处
《网络新媒体技术》
2021年第2期31-34,46,共5页
-
基金
中国科学院声学研究所“英才计划”项目:基于SDN的网络Hypervisor关键技术研究(编号:QNYC201716)。
-
文摘
多宿主通过多个接入网络并行使用来提高传输效率,从而为用户带来更优质的服务。目前的多宿主方案采用端到端的路径选择方法,不能在转发过程中通过感知网络的状态来进行动态路径调整,这就会导致不能充分地利用多个路径来提供服务。本文提出一种基于协议无感知转发技术的新型多宿主网络路径选择方法。在该方法中,由于发往多宿主终端的分组中携带多个地址,在每一跳匹配转发表后,将会有多个转发端口,因此可以动态调整转发端口来提高传输效率。本文尝试了不同的端口选择的方法,包括随机选择、轮询选择和根据端口状态进行选择,实验结果表明根据端口的状态进行选择的方法能根据网络的状态动态地调整分组的路径。
-
关键词
多宿主网络
路由
协议无感知转发
-
Keywords
multi-homed network
routing
Protocol-Oblivious Forwarding
-
分类号
TP393.0
[自动化与计算机技术—计算机应用技术]
-