期刊文献+

可扩展的DHT网络爬虫设计和优化 被引量:7

原文传递
导出
摘要 KAD网络是目前基于实际应用的一个最大的DHT网络,针对KAD网络的测量成为研究实际DHT的很好途径.各种针对覆盖网络的基于主动和被动的测量研究也正逐步展开,在主动测量中,网络爬虫是一项很重要的基础工作.通常,这类爬虫从一个起始的已知节点集开始扫描,然后通过迭代式地查询来获取更多的节点信息.设计爬虫的时候通常希望达到3个性能方面的目标:尽快完成对一个已知的节点集的扫描,尽可能抓取到更多的节点信息,尽量减少网络带宽的占用.由于这些目标之间存在互相制约关系,单纯优化其中的一项性能可能降低其它性能.文中提出了一个基本的DHT网络爬虫的框架,并提出基于该框架上可能的扩展,充分利用覆盖网络中的拓扑结构,对爬虫各部分工作的权重进行调整,从而降低爬虫总的工作量,达到对以上目标的优化.
出处 《中国科学:信息科学》 CSCD 2010年第9期1211-1222,共12页 Scientia Sinica(Informationis)
基金 国家重点基础研究发展计划(批准号:2004CB318204) 国家自然科学基金(批准号:60873051) 国家高技术研究发展计划(批准号:2007AA01Z154)资助项目
关键词 DHT 爬虫 网络测量
  • 相关文献

参考文献18

  • 1edonkey. http://www.edonkey2000.com/index.html .
  • 2Kadc. http://kadc.sourceforge.net/ .
  • 3Liang J,Kumar R,Ross K W.The fasttrack overlay:a measurement study. Computer Networks . 2006
  • 4Chun B,Culler D,Roscoe T,et al.Planetlab:an overlay testbed for broad-coverage services. Sigcomm Comput Commun Rev . 2003
  • 5Stoica I,Morris R,Karger D,et al.Chord: A scalable peer-to-peer lookup service for internet applications. Proceedings of 2001 ACM SIGCOMM . 2001
  • 6Ratnasamy S,Francis P,Handley M,et al.A scalable content-addressable network. Proceedings of the 2001 Conference on Applications, Technologies, Architectures, and Protocols for Computer Communications (SIGCOMM 2001) . 2001
  • 7Saroiu S,Gummadi PK,Gribble SD.A measurement study of peer-to-peer file sharing systems. Proceedings of Multimedia Computing and Networking 2002(MMCN’02) . 2002
  • 8Gummadi K P,Dunn R.J,Saroiu S,et al.Measurement,modeling,and analysis of a peer-to-peer file-sharing workload. SOSP‘03:Proceedings of the 19th ACM symposiumon Operating systems principles . 2003
  • 9Sen S,Wang J.Analyzing peer-to-peer traffic across large networks. IEEE ACM Transactions on Networking . 2004
  • 10Yang Zhao,Hou Xiaoxiao,Yang Mao,Dai Yafei."Measurement Study and Application of Social Network in the Maze P2P File-Sharing System,". Proceedings of the First International Conference on Scalable Information Systems . 2006

同被引文献106

  • 1郑纬民,余宏亮,施广宇,陈坚.基于并行离散事件模拟的大规模P2P系统行为预测[J].中国科学:信息科学,2010,40(10):1338-1350. 被引量:1
  • 2周立柱,林玲.聚焦爬虫技术研究综述[J].计算机应用,2005,25(9):1965-1969. 被引量:154
  • 3管磊等.P2P技术揭秘[M].北京:清华大学出版社,2011.
  • 4Chu J, Labonte K, Levine B N. Availability and locality measurements of peer-to-peer file systems//Proceedings of the ITCom'02, Boston, MA, 2002.
  • 5Saroiu S, Gummadi P K, Gribble S D. A measurement study of peer-to-peer file sharing systems//Proeeedings of the MMCN. San Jose, CA, 2002.
  • 6Rhea S, Geels D, Roscoe T et al. Handling churn in a DHT. UC Berkeley: Computer Science Technical Report UCB/ CSD-3 -1299, 2003.
  • 7Rhea S, Geels D, Roscoe T et al. Handling Churn in a DHT//Proceedings of the USENIX Annual Technical Con- ference. Boston, 2004:127 -140.
  • 8Maymounkov P, Mazieres D. Kademlia: A peer to-peer in- formation system based on the XOR metric//Proceedings of the IPTPS'02. Cambridge, 2002:53-65.
  • 9Lindley N H, Churn Perry W. United States Patent Office, 1843(2993):1 -2.
  • 10Li J, Stribling J, Gil T Met al. Comparing the performance of distributed hash tables under ehurn//Proceedings of the IPTPS'04. California, 2004:87-99.

引证文献7

二级引证文献17

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部