计算机网络第五弹——运输层

彩蛋

计算机网络谢希仁第七版原版ppt获取方式：公众号后台回复”N3“即可获取。

由于公众号不支持显示LaTeX公式且公众号排版混乱，建议大家关注微信公众号"IT工匠"，后台回复"N4-4"获取xmind源文件以及本文原文pdf文件获取更佳阅读体验。

本文主要内容：

运输层协议概述

进程之间的通信

从通信和信息处理的角度看，运输层向它上面的应用层提供通信服务，它属于面向通信部分的最高层，同时也是用户功能中的最低层，当网络的边缘部分中的两个主机使用网络的核心部分的功能进行端到端的通信时，只有位于网络边缘部分的主机的协议栈才有运输层，而网络核心部分中的路由器在转发分组时都只用到下三层的功能。

“逻辑通信”的意思是“好像是这样通信，但事实上并非真的这样通信”。从IP层来说，通信的两端是两台主机，但**“两台主机之间的通信”这种说法还不够清楚，严格地讲，两台主机进行通信就是两台主机中的应用进程互相通信。从运输层的角度看，通信的真正端点并不是主机而是主机中的进程**，也就是说，端到端的通信是应用进程之间的通信。

即**“主机 A 的某个进程和主机 B 上的另一个进程进行通信”**，简称为“计算机之间通信”。

运输层具有屏蔽作用，即运输层向高层用户屏蔽了下面网络核心的细节，它使应用进程看见的就是好像在两个运输层实体之间有一条端到端的逻辑通信信道。但这条逻辑通信信道对上层的表现却因运输层使用的不同协议而有很大的差别。当运输层采用面向连接的 TCP 协议时，尽管下面的网络是不可靠的（只提供尽最大努力服务），但这种逻辑通信信道就相当于一条全双工的可靠信道。当运输层采用无连接的 UDP 协议时，这种逻辑通信信道是一条不可靠信道。

运输层和网络层的主要区别

网络层为主机之间提供逻辑通信，运输层为应用进程之间提供端到端的逻辑通信
运输层要对报文进行差错检测，在网络层，IP数据报首部中的检验和字段只检验首部是否出现差错而不检查数据部分。

复用

发送方在不同的应用进程可以使用同一个运输层协议传送数据(当然需要加上适当的首部)。

分用

接收方的运输层在剥去报文的首部之后能够把这些数据正确交付给目的进程。

运输层的两个主要协议

如图1-1所示，运输层主要有2个协议：

用户数据报协议 UDP (User Datagram Protocol)
传输控制协议 TCP (Transmission Control Protocol)

图1-1:TCP/IP体系中的运输层协议

按照OSI术语，两个对等运输实体在通信时传送的数据单位叫作运输协议数据单元 TPDU (Transport Protocol Data Unit)，但是在TCP/IP体系中， TCP 传送的数据单位协议是 TCP 报文段(segment)， UDP 传送的数据单位协议是 UDP 报文或用户数据报。

TCP与UDP的对比

对比项	TCP	UDP
是否面向连接	无连接的协议，提供无连接服务；	面向连接的协议，提供面向连接服务；
传输的TPDU	其传送的运输协议数据单元TPDU是 UDP 报文或用户数据报；	其传送的运输协议数据单元TPDU是 TCP 报文；
是否支持单播、多播、广播	支持单播、多播、广播；	支持点对点单播，不支持多播、广播；
是否可靠	不提供可靠交付；	提供可靠服务；
复杂性	简单。适用于很多应用，如：多媒体应用等。	复杂。用于大多数应用，如：万维网、电子邮件、文件传送等。

使用 UDP 和 TCP 的典型应用和应用层协议

图1-2

需要注意的是：

运输层的 UDP 用户数据报与网络层的IP数据报有很大区别。

IP 数据报要经过互连网中许多路由器的存储转发。 UDP 用户数据报是在运输层的端到端抽象的逻辑信道中传送的。
TCP 报文段是在运输层抽象的端到端逻辑信道中传送，这种信道是可靠的全双工信道。但这样的信道却不知道究竟经过了哪些路由器，而这些路由器也根本不知道上面的运输层是否建立了 TCP 连接。

运输层的端口

运行在计算机中的进程是用进程标识符来标志的，但运行在应用层的各种应用进程却不应当让计算机操作系统指派它的进程标识符，这是因为在互联网上使用的计算机的操作系统种类很多，而不同的操作系统又使用不同格式的进程标识符，为了使运行不同操作系统的计算机的应用进程能够互相通信，就必须用统一的方法对 TCP/IP 体系的应用进程进行标志。

但是，把一个特定及其上运行的特定进程指明为互联网上通信的最后终点还是不可行的。这是因为进程的创建和撤销都是动态的，发送方几乎无法识别其他机器上的进程。另外，我们往往需要利用目的主机提供的功能来识别终点，而不需要知道实现这个功能的进程(例如，要和互联网上的某个邮件服务器联系，并不一定要知道这个服务器功能是由目的主机上的哪个进程创建的)。

解决上述问题的方法就是在运输层使用协议端口号 (protocol port number)，或通常简称为端口 (port)。虽然通信的终点是应用进程，但我们可以把端口想象是通信的终点，因为我们只要把要传送的报文交到目的主机的某一个合适的目的端口，剩下的工作（即最后交付目的进程）就由 TCP 来完成。

注意这种在协议栈层间的抽象的协议端口是软件端口，和路由器或交换机上的硬件端口是完全不同的概念，硬件端口是不同硬件设备进行交互的接口，而软件端口是应用层的各种协议进程与运输实体进行层间交互的一种地址。

TCP/IP 运输层端口

端口用一个 16 位端口号进行标志，允许有65,535个不同的端口号。端口号只具有本地意义，即端口号只是为了标志本计算机应用层中的各进程，在互联网中，不同计算机的相同端口号是没有联系的。

由此可见，两个计算机中的进程要互相通信，必须知道对方的端口号（为了找到对方计算机中的应用进程） 和对方的 IP 地址（为了找到对方的计算机）。

端口的分类

图1-3：端口的分类

如图1-3，端口分为以下几类：

服务端使用的端口

熟知端口，数值一般为 0 ~ 1023。
登记端口号，数值为 1024 ~ 49151，为没有熟知端口号的应用程序使用的。使用这个范围的端口号必须在 IANA 登记，以防止重复。

客户端使用的端口

又称为短暂端口号，数值为 49152 ~ 65535，留给客户进程选择暂时使用。当服务器进程收到客户进程的报文时，就知道了客户进程所使用的动态端口号，通信结束后，这个端口号可供其他客户进程以后使用。

常用的熟知端口

如图1-4所示：

图1-4：常用的熟知端口

用户数据报协议UDP

UDP概述

UDP只在IP的数据报服务之上增加了很少一点的功能：

复用和分用
差错检测功能
UDP增加了端口号

UDP的主要特点

UDP 是无连接的，发送数据之前不需要建立连接，因此减少了开销和发送数据之前的时延。
UDP 使用尽最大努力交付，即不保证可靠交付，因此主机不需要维持复杂的连接状态表。
UDP 是面向报文的。UDP 对应用层交下来的报文，既不合并，也不拆分，而是保留这些报文的边界。UDP 一次交付一个完整的报文。
发送方 UDP 对应用程序交下来的报文，在添加首部后就向下交付 IP 层，UDP 对应用层交下来的报文，既不合并，也不拆分，而是保留这些报文的边界，应用层交给 UDP 多长的报文，UDP 就照样发送，即一次发送一个报文。因此，应用程序必须选择合适大小的报文：
- 若报文太长，UDP把它交给IP层之后，IP层传送时可能要进行分片，这会降低IP层的效率。
- 若报文太短，UDP把它交给IP层后，会使IP数据报的首部的相对长度太大，这也降低了IP层的效率。
UDP 没有拥塞控制，因此网络出现的拥塞不会使源主机的发送速率降低，这对某些实时应用（如IP电话、视频会议）要求源主机以恒定的速率发送数据，并且允许在网络发生拥塞时丢失一些数据，但却不允许数据有太大的时延，UDP正好满足这种需求。
UDP 支持一对一、一对多、多对一和多对多的交互通信。
UDP 的首部开销小，只有 8 个字节，比 TCP 的 20 个字节的首部要短。

UDP首部格式

用户数据报 UDP 有两个字段：数据字段和首部字段。

首部字段

首部字段有 8 个字节，由 4 个字段组成，每个字段都是 2 个字节。

图2-1：UDP用户数据报的首部和伪首部

如图2-1，UDP的首部主要由以下4个字段组成：

源端口

在需要对方回信时选用，不需要时可用全0.
目的端口

在终点交付报文的时候必须使用，当运输层从 IP 层收到 UDP 数据报时，就根据首部中的目的端口，把 UDP 数据报通过相应的端口，上交给最后的终点——应用进程。如果接收方UDP发现收到的报文中的目的端口不正确，就是用网际控制报文协议ICMP发送"端口不可达"差错报文给发送放，我们在网络层的文章中提到的traceroute命令就是让发送的UDP用户数据报故意使用一个非法的UDP端口，结果ICMP就返回"端口不可达"报文，因而达到测试的目的。请注意，虽然在 UDP 之间的通信要用到端口号，但由于 UDP 的通信是无连接的，因此不需要使用套接字来建立连接。
长度

UDP用户数据报的长度，其最小值是8(仅有首部)
校验和

检测UDP用户数据报在传输中是否有错，有错就丢弃。

在计算检验和时，要在UDP用户数据报之前增加12字节的伪首部。所谓"伪首部"是因为这种伪首部并不是UDP用户数据报真正的首部，知识在计算检验和时，临时添加在UDP用户数据报前面，得到一个临时的UDP用户数据报。检验和就是按照这个临时的UDP数据报来计算的，伪首部既不向下传送也不向上递交，仅仅是为了计算检验和。

注意这里有一个伪首部，其组成为：

源IP地址
目的IP地址
全0
IP首部中的协议字段的值，UDP为17
UDP用户数据报的长度

UDP计算检验和的方法和IP数据报的检验和的计算方法类似，不同点是IP数据报的检验和只检验IP数据报的首部，但UDP的检验和是把首部和数据部分一起都检测。

检验和的计算方法如图2-2所示：

图2-2:计算UDP检验和的例子

注意：进行反码运算时，最高位如果有进位，应该将进位加到最低位，比如如果是"101"+“100"按照普通二进制加法应该等于"1001”，但是在这里结果就应该是"010"

这里需要注意的是若UDP用户数据报的数据部分不是偶数个字节，则要填入一个全0的字节(但此字节不发送)。

在接收方，把收到的UDP用户数据连同伪首部(以及可能的填充全零字节)一起，按照二进制反码求这些16位字的和，若结果全为1表示无差错，否则说明出现差错，就应该丢弃这个UDP数据报(或者可以上交给上层，但附上有差错的警告)。

传输控制协议TCP概述

TCP最主要的特点

TCP 是面向连接的运输层协议，在无连接的、不可靠的 IP 网络服务基础之上提供可靠交付的服务。为此，在 IP 的数据报服务基础之上，增加了保证可靠性的一系列措施。
每一条 TCP 连接只能有两个端点 (endpoint)，每一条 TCP 连接只能是点对点的（一对一）
TCP 提供可靠交付的服务
TCP 提供全双工通信
面向字节流： TCP 中的**“流”(stream)** 指的是流入或流出进程的字节序列。 “面向字节流”的含义是：虽然应用程序和 TCP 的交互是一次一个数据块，但 TCP 把应用程序交下来的数据看成仅仅是一连串无结构的字节流。TCP 不保证接收方应用程序所收到的数据块和发送方应用程序所发出的数据块具有对应大小的关系（比如，发送方应用程序交给发送方的TCP共10个数据块，但接收方的TCP可能只用了4个数据块就把接收到的字节流交付给了上层的应用程序），但接收方应用程序收到的字节流必须和发送方应用程序发出的字节流完全一样。

图3-1：TCP面向字节流的概念

注意：

TCP 连接是一条虚连接而不是一条真正的物理连接。

TCP 对应用进程一次把多长的报文发送到 TCP 的缓存中是不关心的。

TCP 根据对方给出的窗口值和当前网络拥塞的程度来决定一个报文段应包含多少个字节（UDP 发送的报文长度是应用进程给出的）。

TCP 可把太长的数据块划分短一些再传送，TCP 也可等待积累有足够多的字节后再构成报文段发送出去。

TCP的连接

TCP 把连接作为最基本的抽象。

每一条 TCP 连接有两个端点，而TCP 连接的端点不是主机，不是主机的IP 地址，不是应用进程，也不是运输层的协议端口，TCP 连接的端点叫做套接字 (socket) 或插口，端口号拼接到 (contatenated with) IP 地址即构成了套接字，即套接字的组成为：
套接字socket=(IP地址：端口号)套接字socket=(IP地址：端口号) 套接字socket=(IP地址：端口号)
例如：
套接字socket=(192.168.0.0：8808)套接字socket=(192.168.0.0：8808) 套接字socket=(192.168.0.0：8808)

每一条 TCP 连接唯一地被通信两端的**两个端点（即两个套接字）**所确定。即：
TCP连接：：{socket1,socket2}={(IP1:port1),(IP2:port2)}TCP连接：：\{socket1,socket2\}=\{(IP1:port1),(IP2:port2)\} TCP连接：：{socket1,socket2}={(IP1:port1),(IP2:port2)}
同一个 IP 地址可以有多个不同的 TCP 连接，同一个端口号也可以出现在多个不同的 TCP 连接中。

注意同一个名词socket可以表示多种不同的意思，比如：

应用编程接口 API 称为 socket API, 简称为 socket。
socket API 中使用的一个函数名也叫作 socket。调
用 socket 函数的端点称为 socket。
调用 socket 函数时其返回值称为 socket 描述符，可简称为 socket。
在操作系统内核中连网协议的 Berkeley 实现，称为 socket 实现。

上面这些socket的意思都和本文所说的**socket(端口号拼接到IP地址后)**不同。

可靠传输的工作原理

我们知道，TCP的报文段是交给IP层传送的，但IP层只能尽最大努力提供服务，也就是说，TCP下面的网络所提供的是不可靠的传输，因此，TCP必须采用适当的措施才能使两个运输层之间的通信变得可靠。

我们理想的可靠传输应该满足：

传输信道不会出错
不管发送放以什么速度发送，接收端总能来得及接收

在这样的理想传输条件下，不需要采取任何措施就能够实现可靠传输。然而实际的网络都不具备以上两个理想条件。必须使用一些可靠传输协议，在不可靠的传输信道实现可靠传输，只能通过一系列协议来尽力和上述的理想传输效果接近，采用的策略是：

自动检测差错，如果出现差错就重新传输
如果接收方来不及接收，就通知发送放发慢点

停止等待协议

“停止等待”就是每发送完一个分组就停止发送，等待对方的确认，在收到确认后再发送下一个分组，全双工通信的双方既是发送方也是接收方。为了讨论问题的方便，我们仅考虑 A 发送数据，而 B 接收数据并发送确认，因此 A 叫做发送方，而 B 叫做接收方，这里就需要讨论两种情况：无差错情况、出现差错情况。

无差错情况

图4-1：无差错情况

无差错情况如图4-1，A 发送分组 M1，发完就暂停发送，等待 B 的确认 (ACK)，B 收到了 M1 向 A 发送 ACK，A 在收到了对 M1 的确认后，就再发送下一个分组 M2。

出现差错的情况

在接收方 B 会出现两种情况：

B 接收 M1 时检测出了差错，就丢弃 M1，其他什么也不做（不通知 A 收到有差错的分组）。
M1 在传输过程中丢失了，这时 B 当然什么都不知道，也什么都不做。

在这两种情况下，B 都不会发送任何信息，但A都必须重发分组，直到B正确接收为止，这样才能实现可靠通信。

那么这时有几个问题：

A如何知道 B 是否正确收到了 M1 呢？

解决方法：超时重传 ，A 为每一个已发送的分组都设置了一个超时计时器，A 只要在超时计时器到期之前收到了相应的确认，就撤销该超时计时器，继续发送下一个分组 M2 ，若A在超时计时器规定时间内没有收到B的确认，就认为分组错误或丢失，就重发该分组。
若分组正确到达B，但B回送的确认丢失或延迟了，A未收到B的确认，会超时重发，B 可能会收到重复的 M1 ，B如何知道收到了重复的分组，需要丢弃呢？

解决方法：编号 A为每一个发送的分组都进行编号，若B收到了编号相同的分组，则认为收到了重复分组，丢弃重复的分组，并回送确认， B为发送的确认也进行编号，指示该确认是对哪一个分组的确认， A根据确认及其编号，可以确定它是对哪一个分组的确认，避免重复发送，若为重复的确认，则将其丢弃。

确认丢失和确认迟到

确认丢失：

若 B 所发送的对 M1 的确认丢失了，那么 A 在设定的超时重传时间内不能收到确认，但 A 并无法知道：是自己发送的分组出错、丢失了，或者是 B 发送的确认丢失了。因此 A 在超时计时器到期后就要重传 M1。假定 B 又收到了重传的分组 M1。这时 B 应采取两个行动：

第一，丢弃这个重复的分组 M1，不向上层交付。

第二，向 A 发送确认，不能认为已经发送过确认就不再发送，因为 A 之所以重传 M1 就表示 A 没有收到对 M1 的确认。

确认迟到：

传输过程中没有出现差错，但 B 对分组 M1 的确认迟到了，A 会收到重复的确认。对重复的确认的处理很简单：收下后就丢弃， B 仍然会收到重复的 M1，并且同样要丢弃重复的 M1，并重传确认分组。

注意：在发送完一个分组后，必须暂时保留已发送的分组的副本，以备重发。分组和确认分组都必须进行编号，超时计时器的重传时间应当比数据在分组传输的平均往返时间更长一些。

自动重传请求ARQ：

通常 A 最终总是可以收到对所有发出的分组的确认。如果 A 不断重传分组但总是收不到确认，就说明通信线路太差，不能进行通信。使用上述的确认和重传机制，我们就可以在不可靠的传输网络上实现可靠的通信。像上述的这种可靠传输协议常称为自动重传请求 ARQ (Automatic Repeat reQuest)。意思是重传的请求是自动进行的，接收方不需要请求发送方重传某个出错的分组。

信道利用率

图4-2：停止等待协议的信道利用率太低

如图4-2所示，假设发送放发送分组的时间是TDT_DTD，接收方发送确认的时间是TAT_ATA，那么信道利用率为：
U=TDTD+RTT+TAU=\frac{T_D}{T_D+RTT+T_A} U=TD+RTT+TATD
这里的RTTRTTRTT是往返时间，可以看出，当往返时间 RTT 远大于分组发送时间 TD 时，信道的利用率就会非常低，若出现重传，则对传送有用的数据信息来说，信道的利用率就还要降低。

为了提高传输效率，发送方可以不使用低效率的停止等待协议，而是采用流水线传输。 流水线传输就是发送方可连续发送多个分组，不必每发完一个分组就停顿下来等待对方的确认。这样可使信道上一直有数据不间断地传送。由于信道上一直有数据不间断地传送，这种传输方式可获得很高的信道利用率，如图4-3所示。

图4-3：流水线传输可显著提高信道利用率

当使用流水线传输时，就要使用下面介绍的ARQ协议和滑动窗口协议。

连续ARQ协议

基本思想：

发送方一次可以发出多个分组，使用滑动窗口协议控制发送方和接收方所能发送和接收的分组的数量和编号。每收到一个确认，发送方就把发送窗口向前滑动。接收方一般采用累积确认的方式，采用回退N（Go-Back-N）方法进行重传。

图4-4：连续ARQ协议的工作原理

累计确认：

接收方一般采用累积确认的方式。即不必对收到的分组逐个发送确认，而是对按序到达的最后一个分组发送确认，这样就表示：到这个分组为止的所有分组都已正确收到了。

优点：容易实现，即使确认丢失也不必重传。

缺点：不能向发送方反映出接收方已经正确收到的所有分组的信息。

比如：如果发送方发送了前5个分组，而中间的第3个分组丢失了（第4、5个没丢失），这时接收端就对前2个分组发出确认，发送方无法知道后面3个分组的丢失情况，只能将后面的3个分组都全部重发一遍，这叫做Go-Back-N(回退N)，表示需要再回退回来重传已经发送的某N个分组。可见当通信线路质量不好的时候，连续ARQ协议会带来负面影响。

在深入讨论TCP的可靠传输之前，我们先来了解一下TCP的报文段首部的格式。

TCP报文段的首部格式

TCP 虽然是面向字节流的，但 TCP 传送的数据单元却是报文段。一个 TCP 报文段分为首部和数据两部分，而 TCP 的全部功能都体现在它首部中各字段的作用。

TCP 报文段首部的前 20 个字节是固定的，后面有 4n 字节是根据需要而增加的选项 (n 是整数)，因此 TCP 首部的最小长度是 20 字节。

图5-1：TCP报文段的首部格式

如图5-1，TCP报文段的首部主要由以下字段组成：

源端口和目的端口字段——各占 2 字节。端口是运输层与应用层的服务接口，运输层的复用和分用功能都要通过端口才能实现。
序号字段——占 4 字节。TCP 连接中传送的数据流中的每一个字节都编上一个序号，序号字段的值则指的是本报文段所发送的数据的第一个字节的序号。
确认号字段——占 4 字节，是期望收到对方的下一个报文段的数据的第一个字节的序号。
数据偏移（即首部长度）——占 4 位，它指出 TCP 报文段的数据起始处距离 TCP 报文段的起始处有多远。“数据偏移”的单位是 32 位字（以 4 字节为计算单位）。
保留字段——占 6 位，保留为今后使用，但目前应置为 0。
紧急 URG —— 当 URG = 1 时，表明紧急指针字段有效，它告诉系统此报文段中有紧急数据，应尽快传送(相当于高优先级的数据)。
确认 ACK —— 只有当 ACK =1 时确认号字段才有效，当 ACK =0 时，确认号无效。
推送 PSH (PuSH) —— 接收 TCP 收到 PSH = 1 的报文段，就尽快地交付接收应用进程，而不再等到整个缓存都填满了后再向上交付。
复位 RST (ReSeT) —— 当 RST=1 时，表明 TCP 连接中出现严重差错（如由于主机崩溃或其他原因），必须释放连接，然后再重新建立运输连接。
同步 SYN —— 同步 SYN = 1 表示这是一个连接请求或连接接受报文。
终止 FIN (FINish) —— 用来释放一个连接，FIN=1 表明此报文段的发送端的数据已发送完毕，并要求释放运输连接。
窗口字段 —— 占 2 字节，用来让对方设置发送窗口的依据，单位为字节。
检验和 —— 占 2 字节。检验和字段检验的范围包括首部和数据这两部分，在计算检验和时，要在 TCP 报文段的前面加上 12 字节的伪首部（在计算检验和时，临时把 12 字节的“伪首部”和 TCP 报文段连接在一起，伪首部仅仅是为了计算检验和。）。
紧急指针字段 —— 占 16 位，指出在本报文段中紧急数据共有多少个字节（紧急数据放在本报文段数据的最前面）。
选项字段 —— 长度可变。
1. TCP 最初只规定了一种选项，即最大报文段长度 MSS。MSS (Maximum Segment Size) 是 TCP 报文段中的数据字段的最大长度，数据字段加上 TCP 首部才等于整个的 TCP 报文段。所以，MSS是“TCP 报文段长度减去 TCP 首部长度”，MSS 告诉对方 TCP：“我的缓存所能接收的报文段的数据字段的最大长度是 MSS 个字节" 。MSS 与接收窗口值没有关系，若选择较小的 MSS 长度，网络的利用率就降低。若 TCP 报文段非常长，那么在 IP 层传输时就有可能要分解成多个短数据报片，在终点要把收到的各个短数据报片装配成原来的 TCP 报文段，当传输出错时还要进行重传，这些也都会使开销增大。因此，MSS 应尽可能大些，只要在 IP 层传输时不需要再分片就行，但最佳的 MSS 是很难确定的。
2. 窗口扩大选项 ——占 3 字节，其中有一个字节表示移位值 S，新的窗口值等于 TCP 首部中的窗口位数增大到 (16 + S)，相当于把窗口值向左移动 S 位后获得实际的窗口大小。
3. 时间戳选项——占 10 字节，其中最主要的字段时间戳值字段（4 字节）和时间戳回送回答字段（4 字节）。
4. 选择确认选项——在后面的"选择确认SACK"节介绍。
填充字段 —— 这是为了使整个首部长度是 4 字节的整数倍。

TCP可靠传输的实现

本节我们介绍TCP可靠传输的实现，为了讲述可靠传输原理的方便，我们假定数据传输只在一个方向进行，即A发送数据，B给出确认。

以字节为单位的滑动窗口

TCP 使用流水线传输和滑动窗口协议实现高效、可靠的传输， TCP 的滑动窗口是以字节为单位的。

发送方 A 和接收方 B 分别维持一个发送窗口和一个接收窗口。

发送窗口表示：在没有收到确认的情况下，可以连续把窗口内的数据全部发送出去。

接收窗口表示：只允许接收落入窗口内的数据。

TCP的滑动窗口是以字节为单位的，为了便于说明滑动窗口的工作原理，我们故意把后面图5-2至图5-5中的字节编号都取得很小。现假定A收到了B发来的确认报文段，其中窗口是20字节，而确认号是31(这表明B期望收到的下一个序号是31，而序号30为止的数据已经收到了)。根据这两个数据，A就构造出自己的发送窗口，如图5-2所示。

图5-2：根据B给出的窗口值，A构造自己的发送窗口

我们先讨论发送方A的发送窗口。发送窗口表示在没有收到B的确认的情况下，A可以连续把窗口内的数据都发送出去。凡是已经发送过的数据，在未收到确认之前都必须暂时保留，以便在超时重传时使用。发送窗口里面的序号表示允许发送的序号。显然，窗口越大，发送方就可以在收到对方确认之前连续发送更多的数据，因而可能获得更高的传输效率。在上面的TCP报文段的首部格式一节我们已经讲过，接收方会把自己的接收窗口数值放在窗口字段中发送给对方，因此，A的发送窗口定不能超过B的接收窗口数值。在后面的TCP的拥塞控制一节我们将要讨论，发送方的发送窗口大小还要受到当时网络拥塞程度的制约，但在目前，我们暂不考虑网络拥塞的影响。发送窗口后沿的后面部分表示己发送且已收到确认，这些数据显然不需要再保留了。而发送窗口前沿的前面部分表示不允许发送的，因为接收方都没有为这部分数据保留临时存放的缓存空间。发送窗口的位置由窗口前沿和后沿的位置共同确定。发送窗口后沿的变化情况有两种可能，即不动(没有收到新的确认)和前移(收到了新的确认)。发送窗口后沿不可能向后移动，因为不能撤销掉己收到的确认。发送窗口前沿通常是不断向前移动，但也有可能不动，这对应于两种情况：一是没有收到新的确认，对方通知的窗口大小也不变；一是收到了新的确认但对方通知的窗口缩小了，使得发送窗口前沿正好不动。发送窗口前沿也有可能向后收缩，这发生在对方通知的窗口缩小了，但TCP的标准强烈不赞成这样做。因为很可能发送方在收到这个通知以前已经发送了窗口中的许多数据，现在又要收缩窗口，不让发送这些数据，这样就会产生一些错误。

图5-3：A发送了11个字节的数据

现在假定A发送了序号为31～41的数据。这时，发送窗口位置并未改变(图5-3)，但发送窗口内靠后面有11个字节(灰色小方框表示)表示己发送但未收到确认,而发送窗口内靠前面的9个字节(42～50)是允许发送但尚未发送的。

从以上所述可以看出，要描述一个发送窗口的状态需要三个指针P1，P2和P3(图5-3)。指针都指向字节的序号，这三个指针指向的几个部分的意义如下：

小于P1的是已发送并已收到确认的部分，而大于P3的是不允许发送的部分。

P3-P1=A的发送窗口

P2-P1=已发送但尚未收到确认的字节数

P3-P1=允许发送但当前尚未发送的字节数(又称为可用窗口或有效窗口)

再看一下B的接收窗口，B的接收窗口大小是20。在接收窗口外面，到30号为止的数据是已经发送过确认，并且已经交付主机了。因此在B可以不再保留这些数据。接收窗口内的序号(31～50)是允许接收的，在图5-3中，B收到了序号为32和33的数据，这些数据没有按序到达，因为序号为31的数据没有收到(也许丢失了，也许滞留在网络中的某处)。请注意，B只能对按序收到的数据中的最高序号给出确认，因此B发送的确认报文段中的确认号仍然是31(即期望收到的序号)，而不能是32或33。

图5-4：A收到新的确认号，发送窗口向前滑动

现在假定B收到了序号为31的数据，并把序号为31～33的数据交付主机，然后B删除这些数据。接着把接收窗口向前移动3个序号(图5-4)，同时给A发送确认，其中窗口值仍为20，但确认号是34。这表明B已经收到了到序号33为止的数据。我们注意到，B还收到了序号为37,38和40的数据，但这些都没有按序到达，只能先暂存在接收窗口中。A收到B的确认后，就可以把发送窗口向前滑动3个序号，但指针P2不动。可以看出，现在A的可用窗口增大了，可发送的序号范围是42～53.

图5-5：发送窗口内的序号都属于已发送但未收到确认

A在继续发送完序号42～53的数据后，指针P2向前移动和P3重合，发送窗口内的序号都已用完，但还没有再收到确认(图5-5)。由于A的发送窗口已满，可用窗口已减小到零，因此必须停止发送。请注意，存在下面这种可能性，就是发送窗口内所有的数据都已正确到达B，B也早已发出了确认。但不幸的是，所有这些确认都滞留在网络中。在没有收到B的确认时，A不能猜测，或许B收到了吧！为了保证可靠传输，A只能认为B还没有收到这些数据。于是，A在经过一段时间后(由超时计时器控制)就重传这部分数据，重新设置超时计时器，直到收到B的确认为止。如果A收到确认号落在发送窗口内，那么A就可以使发送窗口继续向前滑动，并发送新的数据。

发送缓存

发送方的应用进程把字节流写入 TCP 的发送缓存，发送窗口通常只是发送缓存的一部分。

发送缓存用来暂时存放：

发送应用程序传送给发送方 TCP 准备发送的数据；
TCP 已发送出但尚未收到确认的数据。

接收缓存

接收方的应用进程从 TCP 的接收缓存中读取字节流。

接收缓存用来暂时存放：

按序到达的、但尚未被接收应用程序读取的数据；
不按序到达的数据。

注意：

A 的发送窗口并不总是和 B 的接收窗口一样大（因为有一定的时间滞后）。
TCP 标准没有规定对不按序到达的数据应如何处理。通常是先临时存放在接收窗口中，等到字节流中所缺少的字节收到后，再按序交付上层的应用进程。
TCP 要求接收方必须有累积确认的功能，这样可以减小传输开销。

接收方发送确认：

接收方可以在合适的时候发送确认，也可以在自己有数据要发送时把确认信息顺便捎带上。但请注意两点：

接收方不应过分推迟发送确认，否则会导致发送方不必要的重传，这反而浪费了网络的资源
捎带确认实际上并不经常发生，因为大多数应用程序很少同时在两个方向上发送数据。

超时重传时间的选择

重传机制是 TCP 中最重要和最复杂的问题之一。 TCP 每发送一个报文段，就对这个报文段设置一次计时器，只要计时器设置的重传时间到但还没有收到确认，就要重传这一报文段，重传时间的选择是 TCP 最复杂的问题之一。

由于TCP的下层是互联网环境，发送的报文段可能只经过一个高速率的局域网，也可能经过多个低速率的网络，并且每个IP数据报所选择的路由还可能不同。如果把超时重传时间设置得太短，就会引起很多报文段的不必要的重传，使网络负荷增大。但若把超时重传时间设置得过长，则又使网络的空闲时间增大，降低了传输效率。

那么，运输层的超时计时器的超时重传时间究竟应设置为多大呢?

TCP采用了一种自适应算法，它记录一个报文段发出的时间，以及收到相应的确认的时间。这两个时间之差就是报文段的往返时间RTT。TCP保留了RTT的一个**加权平均往返时间RTTs(这又称为平滑的往返时间，S表示Smoothed。因为进行的是加权平均，因此得出的结果更加平滑)。

当第一次测量到RTT样本时，RTTs值就取为所测量到的RTT样本值。但以后每测量到一个新的RTT样本，就按下式重新计算一次RTTs：
新的RTTs=(1−α)×(旧的RTTs)+α×(新的RTT样本)新的RTTs=(1-\alpha)\times (旧的RTTs)+\alpha \times(新的RTT样本) 新的RTTs=(1−α)×(旧的RTTs)+α×(新的RTT样本)

在上式中，0<α<10< \alpha <10<α<1。若a很接近于零，表示新的RTTs值和旧的RTTs值相比变化不大，而对新的RTT样本影响不大(RTT值更新较慢)。若选择a接近于1，则表示新的RTTs值受新的RTT样本的影响较大(RTT值更新较快)。

推荐的a值为1/8，即0.125，用这种方法得出的加权平均往返时间RTTs就比测量出的RTT值更加平滑。

显然，超时计时器设置的超时重传时间RTO(RetransmissionTime-Out)应略大于上面得出的加权平均往返时间RTTs。

RFC 6298建议使用下式计算RTO：
RTO=RTTs+4×RTTDRTO=RTTs+4\times RTT_D RTO=RTTs+4×RTTD

而RTTD是RTT的偏差的加权平均值，它与RTTs和新的RTT样本之差有关。RFC6298建议这样计算RTTDRTT_DRTTD：当第一次测量时，RTTDRTT_DRTTD 值取为测量到的RTT样本值的一半，在以后的测量中，则使用下式计算加权平均的RTTDRTT_DRTTD：
新的RTTD=(1−β)×(旧的RTTD)+β×∣RTTs−新的RTT样本∣新的RTT_D=(1-\beta)\times(旧的RTT_D)+\beta \times |RTT_s-新的RTT样本| 新的RTTD=(1−β)×(旧的RTTD)+β×∣RTTs−新的RTT样本∣

这里的β\betaβ是个小于1的系数，它的推荐值是I/4，即0.25。

图5-6

上面所说的往返时间的测量，实现起来相当复杂。试看下面的例子，如图5-6所示，发送出一个报文段，设定的重传时间到了，还没有收到确认。于是重传报文段。经过了一段时间后，收到了确认报文段。现在的问题是如何判定此确认报文段是对先发送的报文段的确认，还是对后来重传的报文段的确认?由于重传的报文段和原来的报文段完全一样，因此源主机在收到确认后，就无法做出正确的判断，而正确的判断对确定加权平均RTTs的值关系很大。若收到的确认是对重传报文段的确认，但却被源主机当成是对原来的报文段的确认，则这样计算出的RTTs和超时重传时间RTO就会偏大。若后面再发送的报文段又是经过重传后才收到确认报文段，则按此方法得出的超时重传时间RTO就越来越长。

根据以上所述，Kam提出了一个算法，在计算加权平均RTTS时，只要报文段重传了，就不采用其往返时间样本。这样得出的加权平均RTTS和RTO就较准确，但是，这又引起新的问题。设想出现这样的情况报文段的时延突然增大了很多，因此在原来得出的重传时间内，不会收到确认报文段，于是就重传报文段，但根据Kam算法，不考虑重传的报文段的往返时间样本，这样，超时重传时间就无法更新。

因此要对Kam算法进行修正。方法是报文段每重传一次，就把超时重传时间RTO增大一些。典型的做法是取新的重传时间为旧的重传时间的2倍。当**不再发生报文段的重传时，才根据上面给出的(6)式计算超时重传时间。**实践证明，这种策略较为合理。总之，Kam算法能够使运输层区分开有效的和无效的往返时间样本，从而改进了往返时间的估测，使计算结果更加合理。

选择确认SACK

问题：若收到的报文段无差错，只是未按序号，中间还缺少一些序号的数据，那么能否设法只传送缺少的数据而不重传已经正确到达接收方的数据？答案是可以的，选择确认 SACK (Selective ACK) 就是一种可行的处理方法。

图5-7：接收到的字节流信号不连续

如图5-7所示，TCP 的接收方在接收对方发送过来的数据字节流的序号不连续，结果就形成了一些不连续的字节块。

和前后字节不连续的每一个字节块都有两个边界：左边界和右边界。

第一个字节块的左边界 L1 = 1501，但右边界 R1 = 3001。左边界指出字节块的第一个字节的序号，但右边界减 1 才是字节块中的最后一个序号。

第二个字节块的左边界 L2 = 3501，而右边界 R2 = 4501。

如果要使用选择确认，那么在建立 TCP 连接时，就要在 TCP 首部的选项中加上**“允许 SACK”的选项，而双方必须都事先商定好。如果使用选择确认，那么原来首部中的“确认号字段”的用法仍然不变**。只是以后在 TCP 报文段的首部中都增加了 SACK 选项，以便报告收到的不连续的字节块的边界。由于首部选项的长度最多只有 40 字节，而指明一个边界就要用掉 4 字节，因此在选项中最多只能指明 4 个字节块的边界信息。

TCP的流量控制

利用滑动窗口的流量控制

一般说来，我们总是希望数据传输得更快一些，但如果发送方把数据发送得过快，接收方就可能来不及接收，这就会造成数据的丢失。 流量控制 (flow control) 就是让发送方的发送速率不要太快，既要让接收方来得及接收，也不要使网络发生拥塞。

利用滑动窗口机制可以很方便地在 TCP 连接上实现流量控制。

我们来看一个例子：

图6-1：利用可变窗口进行流量控制举例

设A向B发送数据。

在连接建立时，B告诉了A:"我的接收窗口rwnd=400“，(这里rwnd表示receiver window)。因此，发送方的发送窗口不能超过接收方给出的接收窗口的数值。请注意，TCP的窗口单位是字节，不是报文段，TCP连接建立时的窗口协商过程在图中没有显示出来。再设每一个报文段为100字节长，而数据报文段序号的初始值设为1(见图中第一个箭头上面的序号seq=1，图中右边的注释可帮助理解整个过程)。

请注意，图中箭头上面大写ACK表示首部中的确认位ACK,小写ack表示确认字段的值。我们应注意到，接收方的主机B进行了三次流量控制。第一次把窗口减小到rwnd=300,第二次又减到rwnd=100，最后减到rwnd=0,即不允许发送方再发送数据了，这种使发送方暂停发送的状态将持续到主机B重新发出一个新的窗口值为止。我们还应注意到，B向A发送的三个报文段都设置了ACK=1，只有在ACK=1时确认号字段才有意义。

死锁问题：

现在我们考虑1种情况。在图6-1中，B向A发送了零窗口的报文段后不久，B的接收缓存又有了一些存储空间于，是B向A发送了rwnd=400的报文段，然而这个报文段在传送过程中丢失了。A一直等待收到B发送的非零窗口的通知，而B也一直等待A发送的数据，如果没有其他措施，这种互相等待的死锁局面将一直延续下去。为了解决这个问题，TCP为每一个连接设有一个持续计时器(persistence timer)。只要TCP连接的一方收到对方的零窗口通知，就启动持续计时器，若持续计时器设置的时间到期，就发送一个零窗口探测报文段(仅携带1字节的数据)，而对方就在确认这个探测报文段时给出了现在的窗口值，如果窗口仍然是零，那么收到这个报文段的一方就重新设置持续计时器，如果窗口不是零，那么死锁的僵局就可以打破了。

TCP的传输效率

应用进程把数据传送到TCP的发送缓存后，剩下的发送任务就由TCP来控制了，可以用不同的机制来控制 TCP 报文段的发送时机:

第一种机制是 TCP 维持一个变量，它等于最大报文段长度 MSS。只要缓存中存放的数据达到 MSS 字节时，就组装成一个 TCP 报文段发送出去。
第二种机制是由发送方的应用进程指明要求发送报文段，即 TCP 支持的推送 (push) 操作。
第三种机制是发送方的一个计时器期限到了，这时就把当前已有的缓存数据装入报文段（但长度不能超过 MSS）发送出去。

如何控制 TCP 发送报文段的时机仍然是一个较为复杂的问题。

发送方糊涂窗口综合症

发送方 TCP 每次接收到一字节的数据后就发送。这样，发送一个字节需要形成 41 字节长的 IP 数据报。效率很低。解决方法：使用 Nagle 算法。

Nagle 算法：

若发送应用进程把要发送的数据逐个字节地送到 TCP 的发送缓存，则发送方就把第一个数据字节先发送出去，把后面到达的数据字节都缓存起来。

当发送方收到对第一个数据字符的确认后，再把发送缓存中的所有数据组装成一个报文段发送出去，同时继续对随后到达的数据进行缓存。

只有在收到对前一个报文段的确认后才继续发送下一个报文段。

当到达的数据已达到发送窗口大小的一半或已达到报文段的最大长度时，就立即发送一个报文段。

接收方糊涂窗口综合症

当接收方的 TCP 缓冲区已满，接收方会向发送方发送窗口大小为 0 的报文。若此时接收方的应用进程以交互方式每次只读取一个字节，于是接收方又发送窗口大小为一个字节的更新报文，发送方应邀发送一个字节的数据（发送的 IP 数据报是 41 字节长），于是接收窗口又满了，如此循环往复。

解决方法：

让接收方等待一段时间，使得或者接收缓存已有足够空间容纳一个最长的报文段，或者等到接收缓存已有一半空闲的空间。只要出现这两种情况之一，接收方就发出确认报文，并向发送方通知当前的窗口大小。

TCP的拥塞控制

拥塞控制的一般原理

在某段时间，若对网络中某资源的需求超过了该资源所能提供的可用部分，网络的性能就要变坏。这种现象称为拥塞 (congestion)，最坏结果：系统崩溃。

网络拥塞往往是由许多因素引起的。例如：

点缓存的容量太小；
链路的容量不足；
处理机处理的速率太慢；
拥塞本身会进一步加剧拥塞；

出现拥塞的原因：
∑对资源的需求>可用资源\sum对资源的需求>可用资源 ∑对资源的需求>可用资源

增加资源能解决拥塞问题吗？

**不能。**这是因为网络拥塞是一个非常复杂的问题。简单地采用上述做法，在许多情况下，不但不能解决拥塞问题，而且还可能使网络的性能更坏。

网络拥塞往往是由许多因素引起的，例如：

增大缓存，但未提高输出链路的容量和处理机的速度，排队等待时间将会大大增加，引起大量超时重传，解决不了网络拥塞；
提高处理机处理的速率会会将瓶颈转移到其他地方；

拥塞控制与流量控制的区别

拥塞控制	流量控制
防止过多的数据注入到网络中，使网络中的路由器或链路不致过载	抑制发送端发送数据的速率，以使接收端来得及接收；
是一个全局性的过程，涉及到与降低网络传输性能有关的所有因素。	是点对点通信量的控制，是端到端的问题；

拥塞控制的前提：网络能够承受现有的网络负荷。实践证明，拥塞控制是很难设计的，因为它是一个动态问题。分组的丢失是网络发生拥塞的征兆而不是原因。在许多情况下，甚至正是拥塞控制本身成为引起网络性能恶化、甚至发生死锁的原因。

开环控制和闭环控制

开环控制	闭环控制
在设计网络时，事先考虑周全，力求工作时不发生拥塞；	基于反馈环路的概念；根据网络当前的运行状态采取相应控制措施；
思路：力争避免发生拥塞。	思路：在发生拥塞后，采取措施进行控制，消除拥塞。

TCP的拥塞控制方法

TCP 采用基于窗口的方法进行拥塞控制，该方法属于闭环控制方法。

TCP发送方维持一个拥塞窗口 cwnd (Congestion Window) ，发送端利用拥塞窗口根据网络的拥塞情况调整发送的数据量。发送窗口大小不仅取决于接收方窗口，还取决于网络的拥塞状况。
真正的发送窗口值=Min(接收方窗口值，拥塞窗口值)真正的发送窗口值 = Min (接收方窗口值，拥塞窗口值) 真正的发送窗口值=Min(接收方窗口值，拥塞窗口值)

控制拥塞窗口的原则

只要网络没有出现拥塞，拥塞窗口就可以再增大一些，以便把更多的分组发送出去，这样就可以提高网络的利用率。
只要网络出现拥塞或有可能出现拥塞，就必须把拥塞窗口减小一些，以减少注入到网络中的分组数，以便缓解网络出现的拥塞。

拥塞的判断

重传定时器超时：网络已经发生了拥塞。

收到三个重复的 ACK：预示网络可能会出现拥塞（实际可能还未发生拥塞）。

TCP拥塞控制算法

四种拥塞控制算法（ RFC 5681）：

慢开始 (slow-start)
拥塞避免 (congestion avoidance)
快重传 (fast retransmit)
快恢复 (fast recovery)

慢开始

拥塞窗口 cwnd 控制方法：在每收到一个对新的报文段的确认后，可以把拥塞窗口增加最多一个 SMSS 的数值。
拥塞窗口cwnd每次的增加量=min(N,SMSS)拥塞窗口 cwnd 每次的增加量 = min (N, SMSS) 拥塞窗口cwnd每次的增加量=min(N,SMSS)
其中 N 是原先未被确认的、但现在被刚收到的确认报文段所确认的字节数。不难看出，当 N < SMSS 时，拥塞窗口每次的增加量要小于 SMSS（最大报文段）。用这样的方法逐步增大发送方的拥塞窗口 cwnd，可以使分组注入到网络的速率更加合理。

图7-1：发送方每次收到一个确认就把窗口cwnd加1

如图7-1，发送方每次收到一个确认就把窗口cwnd加1，这样，第一轮发送1个报文，第二轮可以发送2个报文，第三轮发送4个报文，在超时之前，每经过一个传输轮次，拥塞窗口就加倍，窗口大小会按指数增加，不慢！

使用慢开始算法后，每经过一个传输轮次 (transmission round)，拥塞窗口 cwnd 就加倍。一个传输轮次所经历的时间其实就是往返时间 RTT。 “传输轮次”更加强调：把拥塞窗口 cwnd 所允许发送的报文段都连续发送出去，并收到了对已发送的最后一个字节的确认。例如，拥塞窗口 cwnd = 4，这时的往返时间 RTT 就是发送方连续发送 4 个报文段，并收到这 4 个报文段的确认，总共经历的时间。

设置慢开始门限状态变量 ssthresh：

慢开始门限 ssthresh 的用法如下：

当 cwnd < ssthresh 时，使用慢开始算法。
当 cwnd > ssthresh 时，停止使用慢开始算法而改用拥塞避免算法。
当 cwnd = ssthresh 时，既可使用慢开始算法，也可使用拥塞避免算法。

拥塞避免

思路：让拥塞窗口 cwnd 缓慢地增大，避免出现拥塞。每经过一个传输轮次，拥塞窗口 cwnd = cwnd + 1，使拥塞窗口 cwnd 按线性规律缓慢增长，在拥塞避免阶段，具有 “加法增大” (Additive Increase) 的特点。

图7-2：发送方每经过一个传输轮次就把窗口cwnd加1

重点：无论在慢开始阶段还是在拥塞避免阶段，只要发送方判断网络出现拥塞（重传定时器超时）： ssthresh = max (cwnd/2，2) , cwnd = 1，执行慢开始算法

**目的：**迅速减少主机发送到网络中的分组数，使得发生拥塞的路由器有足够时间把队列中积压的分组处理完毕。

图7-3：TCP拥塞窗口cwnd在拥塞控制时的变化情况

当 TCP 连接进行初始化时，将拥塞窗口置为 1，图中的窗口单位不使用字节而使用报文段，慢开始门限的初始值设置为 16 个报文段，即 ssthresh = 16。

“拥塞避免”并非指完全能够避免了拥塞，利用以上的措施要完全避免网络拥塞还是不可能的， “拥塞避免”是说在拥塞避免阶段把拥塞窗口控制为按线性规律增长，使网络比较不容易出现拥塞。

快重传

发送方只要一连收到三个重复确认，就知道接收方确实没有收到报文段，因而应当立即进行重传（即“快重传”），这样就不会出现超时，发送方也不就会误认为出现了网络拥塞。使用快重传可以使整个网络的吞吐量提高约20%。

不难看出，快重传并非取消重传计时器，而是在某些情况下可以更早地（更快地）重传丢失的报文段。

采用快重传 FR (Fast Retransmission) 算法可以让发送方尽早知道发生了个别报文段的丢失。快重传算法首先要求接收方不要等待自己发送数据时才进行捎带确认，而是要立即发送确认，即使收到了失序的报文段也要立即发出对已收到的报文段的重复确认。

举例：

图7-4

如图7-4，接收方收到三个连续的对 M2 的重复确认，立即重传 M3

快恢复

当发送端收到连续三个重复的确认时，由于发送方现在认为网络很可能没有发生拥塞，因此现在不执行慢开始算法，而是执行快恢复算法 FR (Fast Recovery) 算法：

慢开始门限 ssthresh = 当前拥塞窗口 cwnd / 2 ；
新拥塞窗口 cwnd = 慢开始门限 ssthresh ；
开始执行拥塞避免算法，使拥塞窗口缓慢地线性增大。

加法增大，乘法减小 (AIMD)：

可以看出，在拥塞避免阶段，拥塞窗口是按照线性规律增大的。这常称为**“加法增大” AI (Additive Increase)**。

当出现超时或3个重复的确认时，就要把门限值设置为当前拥塞窗口值的一半，并大大减小拥塞窗口的数值。这常称为**“乘法减小”MD (Multiplicative Decrease)。**

二者合在一起就是所谓的 AIMD 算法。

TCP拥塞控制流程图

主动队列管理AQM

TCP 拥塞控制和网络层采取的策略有密切联系，若路由器对某些分组的处理时间特别长，那么这就可能使这些分组中的TCP报文段经过很长时间才能到达终点，结果引起发送方超时，对这些报文段进行重传。，重传会使 TCP 连接的发送端认为在网络中发生了拥塞，但实际上网络并没有发生拥塞， 对 TCP 拥塞控制影响最大的就是路由器的分组丢弃策略。

“先进先出”FIFO 处理规则

路由器的队列通常都是按照**“先进先出”FIFO (First In First Out)** 的规则处理到来的分组。当队列已满时，以后再到达的所有分组（如果能够继续排队，这些分组都将排在队列的尾部）将都被丢弃，这就叫做尾部丢弃策略 (tail-drop policy)。路由器的尾部丢弃往往会导致一连串分组的丢失，这就使发送方出现超时重传，使 TCP 进入拥塞控制的慢开始状态，结果使 TCP 连接的发送方突然把数据的发送速率降低到很小的数值。

更为严重的是，在网络中通常有很多的 TCP 连接，这些连接中的报文段通常是复用在网络层的 IP 数据报中传送的。在这种情况下，若发生了路由器中的尾部丢弃，就可能会同时影响到很多条 TCP 连接，结果使这许多 TCP 连接在同一时间突然都进入到慢开始状态，这在 TCP 的术语中称为全局同步 (global syncronization)。，全局同步使得全网的通信量突然下降了很多，而在网络恢复正常后，其通信量又突然增大很多。

主动队列管理AQM

1998 年提出了主动队列管理 AQM (Active Queue Management)。所谓“主动”就是不要等到路由器的队列长度已经达到最大值时才不得不丢弃后面到达的分组，而是在队列长度达到某个值得警惕的数值时（即当网络拥塞有了某些拥塞征兆时），就主动丢弃到达的分组， AQM 可以有不同实现方法，其中曾流行多年的就是随机早期检测 RED (Random Early Detection)。

随机早期检测RED

使路由器的队列维持两个参数：队列长度最小门限 THmin 和最大门限 Thmax 。 RED 对每一个到达的分组都先计算平均队列长度 LAV ：

若平均队列长度小于最小门限 THmin，则将新到达的分组放入队列进行排队
若平均队列长度超过最大门限 Thmax ，则将新到达的分组丢弃
若平均队列长度在最小门限 THmin 和最大门限 Thmax 之间，则按照某一概率 p 将新到达的分组丢弃。

TCP的运输连接管理

TCP 是面向连接的协议， TCP 连接有三个阶段：

连接建立
数据传送
连接释放

TCP 连接的管理就是使 TCP 连接的建立和释放都能正常地进行。

TCP 连接建立过程中要解决的三个问题：

要使每一方能够确知对方的存在。
要允许双方协商一些参数（如最大窗口值、是否使用窗口扩大选项和时间戳选项以及服务质量等）。
能够对运输实体资源（如缓存大小、连接表中的项目等）进行分配。

TCP 连接的建立采用客户服务器方式，主动发起连接建立的应用进程叫做客户 (client)，被动等待连接建立的应用进程叫做服务器 (server)。

TCP的连接

TCP 建立连接的过程叫做握手，握手需要在客户和服务器之间交换三个 TCP 报文段，称之为三报文握手，采用三报文握手主要是为了防止已失效的连接请求报文段突然又传送到了，因而产生错误。

图8-1：用三报文握手建立TCP连接

如图8-1所示，假定主机A是客户机，主机B是服务器，初始两端的TCP进程都处于CLOSED(关闭)状态。图中在主机下面的方框分别是TCP进程所处的状态，请注意，在本例中，A主动打开连接，而B被动打开连接。

一开始，B的TCP服务器进程先创建传输控制块TCB，准备接受客户进程的连接请求，然后服务器进程就处于LISTEN(收听)状态，等待客户的连接请求，如有，即作出响应。

A的TCP客户进程也是首先创建传输控制模块TCB，然后，在打算建立TCP连接时，向B发出连接请求报文段，这时首部中的同步位SYN=1，同时选择一个初始序号seq=x。 TCP规定，SYN报文段(即SYN=1的报文段)不能携带数据，但要消耗掉一个序号。这时，TCP客户进程进入SYN-SENT(同步已发送)状态。
B收到连接请求报文段后，如同意建立连接，则向A发送确认。在确认报文段中应把SYN位和ACK位都置1，确认号是ack=x+1，同时也为自己选择一个初始序号seq=y。请注意，这个报文段也不能携带数据，但同样要消耗掉一个序号。这时TCP服务器进程进入SYN-RCVD(同步收到)状态。
TCP客户进程收到B的确认后，还要向B给出确认。确认报文段的ACK置1,确认号ack=y+1，而自己的序号seq=x+1。TCP的标准规定，ACK报文段可以携带数据，但如果不携带数据则不消耗序号，在这种情况下，下一个数据报文段的序号仍是seq=x+1。

这时，TCP连接已经建立，A进入ESTABLISHED(已建立连接)状态。当B收到A的确认后，也进入ESTABLISHED状态。

上面给出的连接建立过程叫做三报文握手。请注意，在图8-1中B发送给A的报文段，也可拆成两个报文段。可以先发送一个确认报文段(ACK=1,ack=x+1)，然后再发送一个同步报文段(SYN=1,seq=y)。这样的过程就变成了四报文握手，但效果是一样的。

为什么A最后还要发送一次确认呢?

这主要是为防止已失效的连接请求报文段突然又传送到了B,因而产生错误。所谓**"己失效的连接请求报文段"是这样产生的：考虑一种正常情况，A发出连接请求，但因连接请求报文丢失而未收到确认**。于是A再重传一次连接请求，后来收到了确认，建立了连接，数据传输完毕后，就释放了连接。A共发送了两个连接请求报文段，其中第一个丢失，第二个到达了B，没有"己失效的连接请求报文段“。

现假定出现一种异常情况，即A发出的第一个连接请求报文段并没有丢失，而是在某些网络结点长时间滞留了，以致延误到连接释放以后的某个时间才到达B。本来这是一个早已失效的报文段，但B收到此失效的连接请求报文段后，就误认为是A又发出一次新的连接请求，于是就向A发出确认报文段，同意建立连接。假定不采用报文握手，那么只要B发出确认，新的连接就建立了。由于现在A并没有发出建立连接的请求，因此不会理睬B的确认，也不会向B发送数据。但B却以为新的运输连接已经建立了，并1直等待A发来数据，B的许多资源就这样白白浪费了。

TCP连接的释放

图8-2：TCP连接释放的过程

TCP连接释放过程比较复杂，我们仍结合双方状态的改变来阐明连接释放的过程。

数据传输结束后，通信的双方都可释放连接,现在A和B都处于ES丁人BLISHED状态(图8-2)。

A的应用进程先向其TCP发出连接释放报文段，并停止再发送数据，主动关闭TCP连接。A把连接释放报文段首部的终止控制位FIN置1，其序号seq=u，它等于前面已传送过的数据的最后一个字节的序号加1。这时A进入FIN-WAIT-1(终止等待1)状态，等待B的确认。请注意，TCP规定，FIN报文段即使不携带数据，它也消耗掉1个序号。
B收到连接释放报文段后即发出确认，确认号是ack=u+1，而这个报文段自己的序号是v，等于B前面已传送过的数据的最后一个字节的序号加1。然后B就进入CLOSE-WAIT(关闭等待)状态。TCP服务器进程这时应通知高层应用进程，因而从A到B这个方向的连接就释放了，这时的TCP连接处于半关闭(half-close)状态，即A已经没有数据要发送了，但B若发送数据，A仍要接收。也就是说，从B到A这个方向的连接并未关闭，这个状态可能会持续一段时间。
A收到来自B的确认后，就进入FIN-WAIT-2(终止等待2)状态，等待B发出的连接释放报文段。若B已经没有要向A发送的数据，其应用进程就通知TCP释放连接。这时B发出的连接释放报文段必须使FIN=1。现假定B的序号为w(在半关闭状态B可能又发送了一些数据)。B还必须重复上次已发送过的确认号ack=u+1。这时B就进入LAST-ACK(最后确认)状态，等待A的确认。
A在收到B的连接释放报文段后，必须对此发出确认。在确认报文段中把ACK置1，确认号ack.=w+1，而自己的序号是seq=u+1(根据TCP标准，前面发送过的FIN报文段要消耗一个序号)。然后进入到TIME-WAIT(时间等待)状态。

请注意，现在TCP连接还没有释放掉。必须经过时间等待计时器(TIME-WAITtimer)设置的时间2MSL后，A才进入到CLOSED状态。时间MSL叫做最长报文段寿命(Maximum Segment Lifetime)，RFC 793建议设为2分钟。但这完全是从工程上来考虑的，对于现在的网络，MSL=2分钟可能太长了一些。因此TCP允许不同的实现可根据具体情况使用更小的MSL值。因此，从A进入到TIME-WWT状态后，要经过4分钟才能进入到CLOSED状态，才能开始建立下一个新的连接。当A撤销相应的传输控制块TCB后，就结束了这次的TCP连接。

为什么A在TIME-WAIT状态必须等待2MSL的时间呢?

第一，为了保证A发送的最后一个ACK报文段能够到达B，这个ACK报文段有可能丢失，因而使处在LAST-ACK状态的B收不到对已发送的FIN+ACK报文段的确认。B会超时重传这个FIN+ACK报文段，而A就能在2MSL时间内收到这个重传的FIN+ACK报文段。接着A重传一次确认，重新启动2MSL计时器。最后，A和B都正常进入到CLOSED状态。如果A在TIME-WAIT状态不等待一段时间，而是在发送完ACK报文段后立即释放连接，那么就无法收到B重传的FIN+ACK报文段，因而也不会再发送一次确认报文段。这样，B就无法按照正常步骤进入CLOSED状态。

第二，防止上一节提到的。**“已失效的连接请求报文段”**出现在本连接中。A在发送完最后一个ACK报文段后，再经过时间2MSL，就可以使本连接持续的时间内所产生的所有报文段都从网络中消失。这样就可以使下一个新的连接中不会出现这种旧的连接请求报文段。B只要收到了A发出的确认，就进入CLOSED状态。同样，B在撤销相应的传输控制块TCB后，就结束了这次的TCP连接。我们注意到，B结束TCP连接的时间要比A早一些。

上述的TCP连接释放过程是四报文握手。除时间等待计时器外，TCP还设有一个保活计时器(keepalive timer)，设想有这样的情况：客户已主动与服务器建立了TCP连接，但后来客户端的主机突然出故障。显然，服务器以后就不能再收到客户发来的数据，因此，应当有措施使服务器不要再白白等待下去，这就是使用保活计时器。服务器每收到一次客户的数据，就重新设置保活计时器，时间的设置通常是两小时。若两小时没有收到客户的数据，服务器就发送一个探测报文段，以后则每隔75秒钟发送一次。若一连发送10个探测报文段后仍无客户的响应，服务器就认为客户端出了故障，接着就关闭这个连接。

总结

运输层提供应用进程间的逻辑通信，也就是说，运输层之间的通信并不是真正在两个运输层之间直接传送数据。运输层向应用层屏蔽了下面网络的细节(如网络拓扑、所采用的路由选择协议等)，它使应用进程看见的就是好像在两个运输层实体之间有一条端到端的逻辑通信信道。
网络层为主机之间提供逻辑通信，而运输层为应用进程之间提供端到端的逻辑通信。
运输层有两个主要的协议TCP和UDP，它们都有复用和分用，以及检错的功能。当运输层采用面向连接的TCP协议时，尽管下面的网络是不可靠的(只提供尽最大努力服务)，但这种逻辑通信信道就相当于一条全双工通信的可靠信道。当运输层采用无连接的UDP协议时，这种逻辑通信信道仍然是一条不可靠信道。
运输层用一个16位端口号来标志一个端口。端口号只具有本地意义，它只是为了标志本计算机应用层中的各个进程在和运输层交互时的层间接口。在互联网的不同计算机中，相同的端口号是没有关联的。
两台计算机中的进程要互相通信，不仅要知道对方的IP地址(为了找到对方的计算机)，而且还要知道对方的端口号(为了找到对方计算机中的应用进程)。
运输层的端口号分为服务器端使用的端口号(0～1023）指派给熟知端口号，（1024～49151）是登记端口号和客户端暂时使用的端口号(49152～65535)。
UDP的主要特点是(1)无连接；(2)尽最大努力交付；(3)面向报文；(4)无拥塞控制；(5)支持一对一、一对多、多对一和多对多的交互通信忙；(6)首部开销小（只有四个字段源端口、目的端口、长度、检验和)。
TCP的主要特点是(1）面向连接；(2)每一条TCP连接只能是点对点的(一对一)；(3)提供可靠交付的服务；(4)提供全双工通信；(5)面向字节流。
TCP用主机的IP地址加上主机上的端口号作为TCP连接的端点。这样的端点就叫做套接字(socket)或插口。套接字用（IP地址端口号)来表示。
停止等待协议能够在不可靠的传输网络上实现可靠的通信。每发送完一个分组就停止发送，等待对方的确认。在收到确认后再发送下一个分组。分组需要进行编号。
超时重传是指只要超过了一段时间仍然没有收到确认，就重传前面发送过的分组(认为刚才发送的分组丢失了)。因此每发送完一个分组需要设置一个超时计时器，其重传时间应比数据在分组传输的平均往返时间更长一些。这种自动重传方式常称为自动重传请求ARQ。
在停止等待协议中，若接收方收到重复分组，就丢弃该分组，但同时还要发送确认。
连续ARQ协议可提高信道利用率。发送方维持一个发送窗口，凡位于发送窗口内的分组都可连续发送出去，而不需要等待对方的确认。接收方一般采用累积确认，对按序到达的最后一个分组发送确认，表明到这个分组为止的所有分组都已正确收到了。
TCP报文段首部的前20个字节是固定的，后面有4N字节是根据需要而增加的选项（N是整数)。在一个TCP连接中传送的字节流中的每一个字节都按顺序编号。首部中的序号字段值则指的是本报文段所发送的数据的第一个字节的序号。
TCP首部中的确认号是期望收到对方下一个报文段的第一个数据字节的序号。若确认号为N则表明到序号N-1为止的所有数据都已正确收到。
TCP首部中的窗口字段指出了现在允许对方发送的数据量。窗口值是经常在动态变化着的。
TCP使用滑动窗口机制。发送窗口里面的序号表示允许发送的序号。发送窗口后沿的后面部分表示已发送且己收到了确认，而发送窗口前沿的前面部分表示不允许发送。发送窗口后沿的变化情况有两种可能，即不动(没有收到新的确认)和前移(收到了新的确认)。发送窗口前沿通常是不断向前移动的。
流量控制就是让发送方的发送速率不要太快，要让接收方来得及接收。在某段时间，若对网络中某一资源的需求超过了该资源所能提供的可用部分，网络的性能就要变坏，这种情况就叫做拥塞。拥塞控制就是防止过多的数据注入到网络中，这样可以使网络中的路由器或链路不致过载。
流量控制是一个端到端的问题，是接收端抑制发送端发送数据的速率，以便使接收端来得及接收。拥塞控制是一个全局性的过程，涉及到所有的主机、所有的路由器，以及与降低网络传输性能有关的所有因素。
为了进行拥塞控制，TCP的发送方要维持一个拥塞窗口cwnd的状态变量。拥塞窗口的大小取决于网络的拥塞程度，并且动态地在变化。发送方让自己的发送窗口取为拥塞窗口和接收方的接收窗口中较小的一个。
TCP的拥塞控制采用了四种算法，即慢开始、拥塞避免、快重传和快恢复。在网络层，也可以使路由器采用适当的分组丢弃策略(如主动队列管理AQM)，以减少网络拥塞的发生。
运输连接有三个阶段，即连接建立、数据传送和连接释放。主动发起TCP连接建立的应用进程叫做客户，而被动等待连接建立的应用进程叫做服务器。TCP的连接建立采用三报文握手机制。服务器要确认客户的连接请求，然后客户要对服务器的确认进行确认。TCP的连接释放采用四报文握手机制。任何一方都可以在数据传送结束后发出连接释放的通知，待对方确认后就进入半关闭状态。当另一方也没有数据再发送时，则发送连接释放通知，对方确认后就完全关闭了TCP连接。