DHT网络爬虫

传统的Bittorrent服务

传统的BT服务是由两部份组成的,tracker服务和p2p服务,通过前者用户可以知道谁拥有资源,后者是通过前者向拥有资源的用户发起下载。

Trackerless

目前在大多数国家,提供tracker服务都是非法的。最终有一天tracker服务会像edonkey的服务一样消失。trackerless的需求于是变得迫切起来。

DHT网络

DHT网络就是解决trackerless目前运用最广的方案,核心算法叫Kademlia,也就是所谓的异或算法。在Bittorrent中它叫DHT,在edonkey中它叫Kad,两者算法是一至的,但细节不同,前者更注重文件传输,后者更在意文件分享。

什么是NodeID和InfoHash

在DHT网络中,所有的用户和资源都有一个20bytes的ID,用户叫NodeID,资源叫InfoHash。NodeID通常是根据用户的IP端口计算得出的(但在DHT爬虫中可以随机获取一个20bytes的串,无关紧要),InfoHash是根据torrent种子文件的info字段,用hash sha1计算得出的。在DHT协议中,

NodeID可以通过以下代码简单的得到

const nodeID = crypto.createHash(‘sha1‘).update(Math.random()*100000).digest()

通过种子文件计算得到InfoHash的代码

const infoHash = crypto.createHash(‘sha1‘).update(bencode.decode(‘file.torrent‘).info).digest()

得到可传播的magnet链接就简单了

const magnet = `magnet:?xt=urn:btih:${infoHash.toString(‘hex‘).toUpperCase()}`

可见DHT网络中用户,资源都是无区别的,所以就有了xor算法之说。NodeID之间可以用异或计算出距离,NodeID和InfoHash之间同样可以计算距离,InfoHash之间也可以计算距离。计算方法很简单,把infoHash或NodeID换为数值,然后按位异或,就得到了距离。这很关键,在下面的Routing table中会运用到。异或算法得到的距离的结果虽然不是物理上的距离关系,但是在数学逻辑上是自洽的。

DHT协议

共4条

ping

find_node

get_peers (在edonkey kad中这叫find_value)

announce_peer

ping

是用检查Node状态,用以更新Routing table

find_node

通常是用来初始化Routing table,因为一开始,你在Routing table是空的,需要通过向公共节点发送find_node来填充之。

get_peers

是当用户要下载种子资源时向其它Node发起的。如果Node有该资源,则返回资源的下载端口以供对方下载,如果没有,则根据异或算法在自己的Routing table中寻找离资源最近的Node返回给对方,对方如此递归发送get_peers,直到找到资源为止。

announce_peer

当用用户下载完种子资源,通过种子开始下载时(这里下载行为通常会回倒为tracker式下载,但也有有种子文件是有Nodes字段的,可以通过纯p2p下载)通知所有曾经get_peers咨询过的node。 announce_peer是爬虫的关键,当下载开始,用户就会通知,于是就得到了一个有效的InfoHash。

Routing table

每个Node都要维护一个Routing table以存放Node信息。 Routing table的容器为桶,称为K桶,桶的容量为8(kad中为20)。桶的数量是可以增加的,当桶的个数超过8时,桶就会平均的分裂。桶中的保存的就是Node信息,包含NodeID、IP和端口。 当Node接受到任意一条协议时,都会试图向Routing table中插入对方的NodeID,插入Rule如下:

通过异或算法计算距离,应该往哪个桶插入。

如果这个桶是不满的,则插入成功。

如果这个桶是满的,并且这个桶中不包含自己,则插入失败。反之则分裂这个桶,并且递归的再尝试插入。理解Routing table是DHT爬虫的关键,可以参考协议文档

这里是一个我开发的

爬虫的关键

通过上述基础知识,可以得到以下结论:

尽量认识更多的Node,这点可以通过find_node来实现。

尽量让自己插入到对方的Routing table中,只有这样,当对方下载资源时才会优先通知你。

插入对方的Routing table成功的关键在于自己的NodeID离对方的NodeID足够的近。

爬虫只无需现实所有的协议,只需要实现find_node(query),get_peers(response),announce_peer(response),ping(response)

Engiy 的开源简化Node.js版DHTSpider可以参考,有疑问可以github上给我留言。

php dht爬虫,利用DHT网络,爬取bt种子。相关推荐

  1. python爬虫利用Scrapy框架爬取汽车之家奔驰图片--实战

    先看一下利用scrapy框架爬取汽车之家奔驰A级的效果图 1)进入cmd命令模式下,进入想要存取爬虫代码的文件,我这里是进入e盘下的python_spider文件夹内 C:\Users\15538&g ...

  2. 利用DHT网络,爬取bt种子。

    DHT网络爬虫 传统的Bittorrent服务 传统的BT服务是由两部份组成的,tracker服务和p2p服务,通过前者用户可以知道谁拥有资源,后者是通过前者向拥有资源的用户发起下载. Tracker ...

  3. 03 Python爬虫之Requests网络爬取实战

    目录 实例1:京东商品页面的爬取 实例2:亚马逊商品页面的爬取 实例3:百度搜索关键字提交 实例4:IP地址归属地的自动查询 实例1:京东商品页面的爬取 实例1:京东商品页面的爬取 https://i ...

  4. Python爬虫-利用xpath解析爬取58二手房详细信息

    文章目录 前言 介绍 代码 运行结果截图 前言 简单的Python练习,对页面中的某些部分的文字进行爬取 介绍 xpath解析: 最常用且最便捷高效的一种解析方式.通用型.-xpath解析原理:- 1 ...

  5. python爬虫——利用百度搜索引擎爬取所需图片

    参考:python 爬取动态网页(百度图片) 说明:在上面这位博主的贴子的基础上做了一些改进,解决了有些URL无法访问导致的请求超时异常抛出致使程序退出的问题.话不多说,直接上代码. import r ...

  6. python爬虫requests实战_Python爬虫之requests库网络爬取简单实战

    实例1:直接爬取网页 实例2 : 构造headers,突破访问限制,模拟浏览器爬取网页 实例3 : 分析请求参数,构造请求参数爬取所需网页 实例4: 爬取图片 实例5: 分析请求参数,构造请求参数爬取 ...

  7. python爬取京东商品图片_python利用urllib实现爬取京东网站商品图片的爬虫实例

    本例程使用urlib实现的,基于python2.7版本,采用beautifulsoup进行网页分析,没有第三方库的应该安装上之后才能运行,我用的IDE是pycharm,闲话少说,直接上代码! # -* ...

  8. python爬斗鱼直播_Python爬虫:利用API实时爬取斗鱼弹幕

    原标题:Python爬虫:利用API实时爬取斗鱼弹幕 这些天一直想做一个斗鱼爬取弹幕,但是一直考试时间不够,而且这个斗鱼的api接口虽然开放了但是我在github上没有找到可以完美实现连接.我看了好多 ...

  9. 数据采集与存储案例——基于Python爬虫框架Scrapy的爬取网络数据与MySQL数据持久化

    此案例需要预先安装pymsql python3.7.4 scrapy2.7.1 一.安装scrapy框架 1.使用pip命令安装scrapy pip install scrapy 在这里下载太慢可以使 ...

  10. python爬取图片教程-推荐|Python 爬虫系列教程一爬取批量百度图片

    Python 爬虫系列教程一爬取批量百度图片https://blog.csdn.net/qq_40774175/article/details/81273198# -*- coding: utf-8 ...

最新文章

  1. 从Chrome中的css自定义样式按钮中删除蓝色边框
  2. CA/TA通信的share memory设计思想解读
  3. java会被rust替代吗_Rust 未来会成为主流的编程语言吗?
  4. 一些特殊的电脑快捷键
  5. [转]网易云音乐Android版使用的开源组件
  6. 蓝桥杯 ALGO-139 算法训练 s01串
  7. maven配置testng_TestNG Maven Surefire插件配置
  8. 金融评分卡项目—1.数据分析基础知识
  9. 2022年CXO领导力峰会暨IT东方会技术高管年会
  10. rtmp协议官方规范
  11. 林子雨《大数据技术原理与应用》第五讲——NoSQL数据库
  12. MATLAB实现平滑处理
  13. if、else、else if使用方法
  14. 【服务器搭建个人网站】附:接入的服务商 以及 安全评估报告该如何填写?
  15. vim 编辑器常用操作
  16. 基于JAVA个人交友网站计算机毕业设计源码+系统+mysql数据库+lw文档+部署mp4
  17. 遗传算法求解TSP问题(matlab实现)
  18. uni-app使用教程
  19. python脚本问题:Non-ASCII character '\xe6' in file
  20. 仿个人税务 app html5_你下载的个税APP可能是假的!当心抢你的钱!

热门文章

  1. java代码实现压缩文件.gz格式,解压后无后缀名问题
  2. HTML与CSS面试题汇总
  3. python标注_python怎么标注
  4. html图像设计代码,html——图像设计(示例代码)
  5. 官方ISO9001认证过程管理方法PDCA
  6. java楼盘管理系统_javaweb房产信息管理系统
  7. KSZ9897 switch 交换机
  8. Python_072205_创建一个类方法记录车的品牌mark、颜色color、价格price、速度speed等特征, 并实现增加车辆信息、显示车辆全部信息的功能。
  9. iOS AVPlayer支持播放的格式
  10. 桌面小工具天气连接不到服务器,win10系统桌面天气小工具提示无法连接服务的具体办法...