常见下载方式之BT下载实现过程详解

一、BT下载是怎么来的?

在互联网上下载文件的方式大概有这么几种:FTP、HTTP、BT、eMule(电驴)等, 浏览器会直接支持FTP和HTTP下载,BT和eMule下载一般需要专用的下载软件的支持。

接下来分别简单介绍一下它们的区别:

FTP 是 File Transfer Protocol(文件传输协议)的英文简称,顾名思义,就是提供文件传输的一个协议。首先需要有一个FTP Server,负责文件的存储并接受网络请求(FTP连接和指令)提供下载,然后FTP Client 向FTP Server发起网络请求,并将接受到的文件内容保存到本地。

HTTP是HyperText Transfer Protocol (超文本传输协议)的英文简称,超文本就是我们平时所说的网页,通过网页上的链接把众多的网页组织成一个超级大的信息节点网络,所以叫超级文本。文件下载只是HTTP协议所支持的一个子功能,同样需要HTTP Server (Nginx、Apache、IIS等)和 HTTP Client (各种浏览器)来完成文件的下载。

对以上两种下载方式做一个简单总结:

HTTP下载 1

如果用户想要更快的下载速度呢?

一种选择是,Client使用多线程下载,抢占更多的服务器资源(早期的网际快车FlashGet就是这种方式)。

如果用户量很大,这样无疑对Server造成很大的压力。然后呢,Server提供商(网站方)需要提供更多的服务器和更高的带宽,但是这需要花很多钱。

那么,有没有更低成本的解决方案呢?接下来就出现了BT下载。

BT是BitTorrent的缩写,Torrent是激流、洪流的意思,Bit洪流,看名字就很牛的样子。和以上两种下载方式最大的区别就是用户不再直接从服务器下载文件,而是用户之间相互下载,这种方式叫做P2P (Peer to Peer 点对点)。从下图我们可以看出参与的人越多,下载速度越快

P2P下载 1

二、BitTorrent的P2P下载是怎么做到的?

要做到P2P下载首先需要解决如下两个问题:

     1、 如何知道哪些Client在下载同一个文件?

     2、 对某一个文件,如何做到同时从多个来源进行下载?

对于第一个问题的解决方案:

设计一个TrackerServer(跟踪服务器),每一个Client需要去这里上报自己正在下载的文件以及自己的ip地址和监听的端口。新来的Client先要连接到TrackerServer,根据要下载的文件查询当前正在下载这个文件的Clients (Peers)。

对于第二个问题的解决方法:

Client从TrackerServer获取Peers后,分别向他们发起连接并询问当前的下载进度,然后,同时连接多个Peers分别下载他们已完成的文件片段,最后拼接出完整的文件。

那么对于下载进度应该如何表达呢?

因为文件不是被顺序下载的(因为需要从Peers同时下载不同的片段),所以不可以通过当前已完成的字节数来表示进度。那么,最简单有效的方式就是把文件分割成相同大小的片段(Piece),片段的大小一般是2^n,比如2^18=256K,通过已完成Pieces的序号列表来表示当前的下载进度。

另外,因为Pieces序号是连续的,可以通过BitMap的方式表示每个Piece Index是否已完成。Piece Index所在的bit位为1,表示该Piece已经下载完成。

如果下载任务是一个文件夹(包含很多文件), 可以把这些文件按照固定的顺序连接起来(逻辑上)进行Pieces切分。

当Client获取到Peers的完成列表后,就可以将不同的Pieces分配到对应的Peers进行并行下载,同时将自己已完成的Pieces提供给其他Peers来下载。

互帮互助、互通有无的和谐社会就此开启了。

到目前为止,我们还有几个关键问题没有解决:

1、怎么找到待下载文件的TrackerServer

2、Peers对文件分片的规则是否一致?

3、在TrackerServer上怎么唯一的标识一个下载任务?

4、下载来的Pieces是否在传输过程中出现了错误或者被恶意篡改?

为了解释上面的问题,此处应该有.torrent文件(BT种子)出场了。

 BT种子文件主要包括如下关键信息:

BT种子文件主要信息 1

我们找一个种子文件片段来瞧一下:

是不是有似曾相识却又看不懂的感觉呢?这是因为.torrent文件是bencoding编码表示的。

bencoding编码是一种对象序列化表示法(功能和json是一样的,但是规则不一样),bencoding 编码通过开头的字符来指定接下来的对象的类型,规则如下:

'd'开头表示是dict类型,可以理解为key=>value的集合,'e'表示结束

'l'(小写字母L)开头表示是list类型,'e'表示结束

'i'  开头表示是integer类型,'e'表示结束,可以表示负数

数字 开头表示string类型,数字为string的长度,长度与string内容以':'分割开

上图中标注的地方8:encoding5:UTF-84:infod5:files,按照这个规则解析后得到

encoding=>UTF-8

info => { files=> …}

至此,总结一下BT下载的基本过程, 聪明的你是否已经了解BT下载了呢?

BT种子下载过程 1

接下来是对BT 协议的一些细节描述,对细节感兴趣的话可以继续看一下

三、BT协议之连接TrackerServer

TrackerServer有HTTP和UDP协议两种,这里简单介绍一下HTTP协议的TrackerServer,BTClient通过 HTTP Get请求完成Peers获取和自身的注册。请求的URL格式如下:

Trackerserver-url?info_hash=xxxxxxxxxxxx,peer_id=xxxxxxxxxxx,ip=x.x.x.x,port=xxxx,uploaded=xx,downloaded=xx,left=xx,event=x

URL中各参数需要经过urlencode处理,各个参数的意义如下:

TrackerServer的返回内容为经过bencode的Dict类型,如果返回失败,会包含"failure reason" 键值,内容为可读的失败原因。

"interval":  为向Trackerserver发起常规查询的间隔时间,BTClient需要按照这个间隔时间定期向TrackerServer报告下载状态,同时获取最新的Peers信息。

"peers"  :为一个Peer List,每个Peer包含以下几项内容:

"peer id" :  为20字节的Peer自分配ID

"ip"  : Peer IP地址

"port": Peer 监听的端口

抓包得到的一个TrackerServer的返回内容, 经过bencode解析后如下:

{interval =>1800

peers => [

{

ip => 100.197.121.204,

peer id => -SD0100-\310\225\2576z\264U\240O\034

port => 14678

}

…//其他Peer

]

关于peers列表,当前大多数TrackerServer支持compact peers格式以减少返回内容的长度,该格式下peers属性为一个String,每六个字节为一组,每组表示一个Peer,其中前4个字节 表示PeerIP,后两个字节表示Peer Port。

四、BT协议细节之连接Peers

与Peer建立TCP连接后,首先发送HandShake消息进行协议基本信息的交换,协商成功后,紧接着开始送各自的PiecesBitmap(bitfield消息)。然后向对端发送自己缺失的Pieces请求(request消息),开启Pieces交换下载。

Handshake消息主要是协商协议名称、Info Hash和PeerID,保证对端是相兼容的Peer,如果信息协商不上(比如协议名称不是BitTorrent Protocol, 或者Info Hash不一致), TCP连接将被关闭。HandShake消息格式如下:

HashShake成功之后就开始通过如下一系列peer_msg消息来完成下载控制, peer_msg消息格式如下:

msg_len(4字节)

msg_type(1字节)

payload(若干字节)

如果msg_len = 0 , 这表示KeepAlive消息,KeepAlive用来判断对端是否仍然存活。

消息类型的取值及作用:

如下是一个request和一个piece消息:

choke, unchoke, interested, not interested消息综合完成Peers的流控策略,以期达到更好的网络吞吐以及维持下载的公平性,一个指导思想是更多的上传将获得更多的下载。

在BTClient的实现过程中还会涉及到很多的程序设计问题,比如:异步socket操作、多线程控制、流量控制、缓存策略、下载优先级、文件存储等,这里就不再一一展开了。

注:本文由点量软件整理自互联网

常见下载方式之BT下载实现过程详解相关推荐

  1. web常见性能优化总结(浏览器渲染过程详解)

    文章目录 一.什么是web的性能优化 二.web性能优化的目的 三.web性能优化的原理 3.1 加载文档 3.2 生成dom树 3.3 加载css 和js 3.4 生成CSS OM 3.5 rend ...

  2. Win+TexLive2020+TexStudio安装过程详解附ElsevierLatex模板下载并使用

    Win+TexLive2020+TexStudio安装过程详解附ElsevierLatex模板下载并使用 一.下载并安装Texlive2020 1.下载TexLive2020 2.安装过程 解压之后运 ...

  3. STM32程序DAP下载方式和串口下载方式分析

    STM32程序的DAP下载方式和串口下载方式分析 前提简述 DAP下载方式 串口下载方式 前提简述 本人学习的是STM32F1系列这款单片机.标准库对于新手来说作用还是非常大的,所以接下来关于这款单片 ...

  4. 数据库学习笔记第一弹——MySQL8.0和MySQL5.7的下载、安装与配置(图文详解步骤2022)

    数据库学习笔记第一弹--MySQL8.0和MySQL5.7的下载.安装与配置(图文详解步骤2022) 文章目录 数据库学习笔记第一弹--MySQL8.0和MySQL5.7的下载.安装与配置(图文详解步 ...

  5. linux命令wget的url路径太长,Linux中WGET下载https链接及WGET命令的详解

    Linux中WGET下载https链接及WGET命令的详解 使用如下的命令下载https链接: ```bash wget -r -np -nd --accept=gz --no-check-certi ...

  6. 源代码下载 第六章 注解式控制器详解

    2019独角兽企业重金招聘Python工程师标准>>> 源代码请到附件中下载. 其他下载: 跟着开涛学SpringMVC 第一章源代码下载 第二章 Spring MVC入门 源代码下 ...

  7. Python中常见的__init__.py是什么意思?详解Python import的方式和原理

    Python中常见的__init__.py是什么意思?详解Python import的方式和原理 1 什么是模块化编程? 2 __init__.py文件的作用 3 Python如何import第三方库 ...

  8. linux开发 | 根文件系统构建实验及过程详解

    <2.uboot和系统移植-第19部分-2.19.根文件系统构建实验及过程详解> 第一部分.章节目录 2.19.1.根文件系统的构建路线 2.19.2.busybox的移植实战 2.19. ...

  9. Sonic 开源移动端云真机测试平台 - 设备中心接入安卓设备实例演示,Agent端服务部署过程详解

    Sonic 开源移动端云真机测试平台 - Agent端服务部署与安卓设备接入演示 一加8手机连接效果图展示 第一章:环境准备 ① agent-sources 资源包下载 ② Android SDK安装 ...

  10. MySQL8.0二进制免编译部署过程详解(二)

    一.背景介绍 本文主要介绍MySQL二进制免编译软件包的安装过程详解,之所以选择二进制安装包部署MySQL8.0,是因为官方版本已经内置所有功能,在安装的时候可以指定数据库安装路径. 目前官网MySQ ...

最新文章

  1. C++的多个有序链表合并
  2. bug诞生记——临时变量、栈变量导致的双杀
  3. php禁止指定ip访问网站,方法分享:如何利用.htaccess禁止某个IP访问网站
  4. 协方差、协方差矩阵的解释意义
  5. Mckinsey insights!
  6. C#将json字符串解析成对象
  7. nginx File not found 错误(转)
  8. 基于MATLAB的信号与系统实验指导,《信号与系统及MATLAB实现》实验指导书
  9. [NOIP2014]联合权值
  10. 此上下文中不允许函数定义。_彻底搞懂上下文this,轻松应对,一面就过!!!...
  11. 传送大文件到服务器,大文件传送服务器
  12. r语言plotmds_多元统计分析R语言建模| 11 多维标度法MDS
  13. 利用vw做rem适配(纯css)
  14. 基于SQL Server CE的移动服务系统开发
  15. Mac终端命令失效( command not found)/
  16. 对线性系统用matlab进行仿真,基于线性系统稳定性分析及MATLAB仿真与应用[1]
  17. 教你如何看headers
  18. 玻璃材料封接工艺技术介绍-电连接器封装形式
  19. 计算机二维动画制作流程,计算机二维动画制作的特点
  20. 浏览器交响曲 (一)浏览器中的js执行机制

热门文章

  1. C#Skip和Take的用法
  2. 网页元素3D效果展示
  3. 生活娱乐 360安全卫士和QQ大战
  4. Zookeeper选举机制
  5. 【Codeforces】School Regional Team Contest, Saratov, 2011
  6. tbody css 高度,html – CSS:无法为%滚动设置tbody height
  7. windows 下搭建git服务器,及问题处理。
  8. 显卡属于计算机主机还是外设,计算机硬件组成及作用有哪些
  9. php的seeder是什么,laravel利用seeder实现数据表中填充数据
  10. Uc页面加载完毕后页面字体变大