概述

在进行TCP Socket开发时,都需要处理数据包粘包和分包的情况。本文详细讲解解决该问题的步骤。使用的语言是Python。实际上解决该问题很简单,在应用层下,定义一个协议:消息头部+消息长度+消息正文即可。

那什么是粘包和分包呢?

关于分包和粘包

粘包:发送方发送两个字符串”hello”+”world”,接收方却一次性接收到了”helloworld”。

分包:发送方发送字符串”helloworld”,接收方却接收到了两个字符串”hello”和”world”。

虽然socket环境有以上问题,但是TCP传输数据能保证几点:

顺序不变。例如发送方发送hello,接收方也一定顺序接收到hello,这个是TCP协议承诺的,因此这点成为我们解决分包、黏包问题的关键。

分割的包中间不会插入其他数据。

因此如果要使用socket通信,就一定要自己定义一份协议。目前最常用的协议标准是:消息头部(包头)+消息长度+消息正文

TCP为什么会分包

TCP是以段(Segment)为单位发送数据的,建立TCP链接后,有一个最大消息长度(MSS)。如果应用层数据包超过MSS,就会把应用层数据包拆分,分成两个段来发送。这个时候接收端的应用层就要拼接这两个TCP包,才能正确处理数据。

相关的,路由器有一个MTU( 最大传输单元),一般是1500字节,除去IP头部20字节,留给TCP的就只有MTU-20字节。所以一般TCP的MSS为MTU-20=1460字节。

当应用层数据超过1460字节时,TCP会分多个数据包来发送。

扩展阅读

TCP的RFC定义MSS的默认值是536,这是因为 RFC 791里说了任何一个IP设备都得最少接收576尺寸的大小(实际上来说576是拨号的网络的MTU,而576减去IP头的20个字节就是536)。

TCP为什么会粘包

有时候,TCP为了提高网络的利用率,会使用一个叫做Nagle的算法。该算法是指,发送端即使有要发送的数据,如果很少的话,会延迟发送。如果应用层给TCP传送数据很快的话,就会把两个应用层数据包“粘”在一起,TCP最后只发一个TCP数据包给接收端。

开发环境

Python版本:3.5.1

操作系统:Windows 10 x64

消息头部(包含消息长度)

消息头部不一定只能是一个字节比如0xAA什么的,也可以包含协议版本号,指令等,当然也可以把消息长度合并到消息头部里,唯一的要求是包头长度要固定的,包体则可变长。下面是我自定义的一个包头:

版本号(ver)

消息长度(bodySize)

指令(cmd)

版本号,消息长度,指令数据类型都是无符号32位整型变量,于是这个消息长度固定为4×3=12字节。在Python由于没有类型定义,所以一般是使用struct模块生成包头。示例:

import struct

import json

ver = 1

body = json.dumps(dict(hello="world"))

print(body) # {"hello": "world"}

cmd = 101

header = [ver, body.__len__(), cmd]

headPack = struct.pack("!3I", *header)

print(headPack) # b'\x00\x00\x00\x01\x00\x00\x00\x12\x00\x00\x00e'

关于用自定义结束符分割数据包

有的人会想用自定义的结束符分割每一个数据包,这样传输数据包时就不需要指定长度甚至也不需要包头了。但是如果这样做,网络传输性能损失非常大,因为每一读取一个字节都要做一次if判断是否是结束符。所以建议还是选择消息头部+消息长度+消息正文这种方式。

而且,使用自定义结束符的时候,如果消息正文中出现这个符号,就会把后面的数据截止,这个时候还需要处理符号转义,类比于\r\n的反斜杠。所以非常不建议使用结束符分割数据包。

消息正文

消息正文的数据格式可以使用Json格式,这里一般是用来存放独特信息的数据。在下面代码中,我使用{"hello","world"}数据来测试。在Python使用json模块来生成json数据

Python示例

下面使用Python代码展示如何处理TCP Socket的粘包和分包。核心在于用一个FIFO队列接收缓冲区dataBuffer和一个小while循环来判断。

具体流程是这样的:把从socket读取出来的数据放到dataBuffer后面(入队),然后进入小循环,如果dataBuffer内容长度小于消息长度(bodySize),则跳出小循环继续接收;大于消息长度,则从缓冲区读取包头并获取包体的长度,再判断整个缓冲区是否大于消息头部+消息长度,如果小于则跳出小循环继续接收,如果大于则读取包体的内容,然后处理数据,最后再把这次的消息头部和消息正文从dataBuffer删掉(出队)。

下面用Markdown画了一个流程图。

服务器端代码

# Python Version:3.5.1

import socket

import struct

HOST = ''

PORT = 1234

dataBuffer = bytes()

headerSize = 12

sn = 0

def dataHandle(headPack, body):

global sn

sn += 1

print("第%s个数据包" % sn)

print("ver:%s, bodySize:%s, cmd:%s" % headPack)

print(body.decode())

print("")

if __name__ == '__main__':

with socket.socket(socket.AF_INET, socket.SOCK_STREAM) as s:

s.bind((HOST, PORT))

s.listen(1)

conn, addr = s.accept()

with conn:

print('Connected by', addr)

while True:

data = conn.recv(1024)

if data:

# 把数据存入缓冲区,类似于push数据

dataBuffer += data

while True:

if len(dataBuffer) < headerSize:

print("数据包(%s Byte)小于消息头部长度,跳出小循环" % len(dataBuffer))

break

# 读取包头

# struct中:!代表Network order,3I代表3个unsigned int数据

headPack = struct.unpack('!3I', dataBuffer[:headerSize])

bodySize = headPack[1]

# 分包情况处理,跳出函数继续接收数据

if len(dataBuffer) < headerSize+bodySize :

print("数据包(%s Byte)不完整(总共%s Byte),跳出小循环" % (len(dataBuffer), headerSize+bodySize))

break

# 读取消息正文的内容

body = dataBuffer[headerSize:headerSize+bodySize]

# 数据处理

dataHandle(headPack, body)

# 粘包情况的处理

dataBuffer = dataBuffer[headerSize+bodySize:] # 获取下一个数据包,类似于把数据pop出

测试服务器端的客户端代码

下面附上测试粘包和分包的客户端代码

# Python Version:3.5.1

import socket

import time

import struct

import json

host = "localhost"

port = 1234

ADDR = (host, port)

if __name__ == '__main__':

client = socket.socket()

client.connect(ADDR)

# 正常数据包定义

ver = 1

body = json.dumps(dict(hello="world"))

print(body)

cmd = 101

header = [ver, body.__len__(), cmd]

headPack = struct.pack("!3I", *header)

sendData1 = headPack+body.encode()

# 分包数据定义

ver = 2

body = json.dumps(dict(hello="world2"))

print(body)

cmd = 102

header = [ver, body.__len__(), cmd]

headPack = struct.pack("!3I", *header)

sendData2_1 = headPack+body[:2].encode()

sendData2_2 = body[2:].encode()

# 粘包数据定义

ver = 3

body1 = json.dumps(dict(hello="world3"))

print(body1)

cmd = 103

header = [ver, body1.__len__(), cmd]

headPack1 = struct.pack("!3I", *header)

ver = 4

body2 = json.dumps(dict(hello="world4"))

print(body2)

cmd = 104

header = [ver, body2.__len__(), cmd]

headPack2 = struct.pack("!3I", *header)

sendData3 = headPack1+body1.encode()+headPack2+body2.encode()

# 正常数据包

client.send(sendData1)

time.sleep(3)

# 分包测试

client.send(sendData2_1)

time.sleep(0.2)

client.send(sendData2_2)

time.sleep(3)

# 粘包测试

client.send(sendData3)

time.sleep(3)

client.close()

服务器端打印结果

下面是测试出来的打印结果,可见接收方已经完美的处理粘包和分包问题了。

Connected by ('127.0.0.1', 23297)

第1个数据包

ver:1, bodySize:18, cmd:101

{"hello": "world"}

数据包(0 Byte)小于包头长度,跳出小循环

数据包(14 Byte)不完整(总共31 Byte),跳出小循环

第2个数据包

ver:2, bodySize:19, cmd:102

{"hello": "world2"}

数据包(0 Byte)小于包头长度,跳出小循环

第3个数据包

ver:3, bodySize:19, cmd:103

{"hello": "world3"}

第4个数据包

ver:4, bodySize:19, cmd:104

{"hello": "world4"}

在框架下处理粘包和分包

其实无论是使用阻塞还是异步socket开发框架,框架本身都会提供一个接收数据的方法提供给开发者,一般来说开发者都要覆写这个方法。下面是在Twidted开发框架处理粘包和分包的示例,只上核心程序:

# Twiested

class MyProtocol(Protocol):

_data_buffer = bytes()

# 代码省略

def dataReceived(self, data):

"""Called whenever data is received."""

self._data_buffer += data

headerSize = 12

while True:

if len(self._data_buffer) < headerSize:

return

# 读取消息头部

# struct中:!代表Network order,3I代表3个unsigned int数据

headPack = struct.unpack('!3I', self._data_buffer[:headerSize])

# 获取消息正文长度

bodySize = headPack[1]

# 分包情况处理

if len(self._data_buffer) < headerSize+bodySize :

return

# 读取消息正文的内容

body = self._data_buffer[headerSize:headerSize+bodySize]

# 处理数据

self.dataHandle(headPack, body)

# 粘包情况的处理

self._data_buffer = self._data_buffer[headerSize+bodySize:]

总结

以上就是本文关于python TCP Socket的粘包和分包的处理详解的全部内容,希望对大家有所帮助。感兴趣的朋友可以继续参阅本站其他相关专题,如有不足之处,欢迎留言指出。感谢朋友们对本站的支持!

python串口数据分包_python TCP Socket的粘包和分包的处理详解相关推荐

  1. python二维元组_python中读入二维csv格式的表格方法详解(以元组/列表形式表示)

    如何去读取一个没有表头的二维csv文件(如下图所示)? 并以元组的形式表现数据: ((1.0, 0.0, 3.0, 180.0), (2.0, 0.0, 2.0, 180.0), (3.0, 0.0, ...

  2. python在线翻译代码_Python 20行简单实现有道在线翻译的详解

    简介 主要是尝试简单的使用pyhton的爬虫功能,于是使用有道进行尝试,并没有进行深入的诸如相关api的调用. 以下是需要的POST数据 代码 以下是相关部分的代码: import urllib.re ...

  3. python定位相邻节点_Python selenium 父子、兄弟、相邻节点定位方式详解

    今天跟大家分享下selenium中根据父子.兄弟.相邻节点定位的方法,很多人在实际应用中会遇到想定位的节点无法直接定位,需要通过附近节点来相对定位的问题,但从父节点定位子节点容易,从子节点定位父节点. ...

  4. python定义链表节点_Python数据结构与算法之链表定义与用法实例详解【单链表、循环链表】...

    本文实例讲述了Python数据结构与算法之链表定义与用法.分享给大家供大家参考,具体如下: 本文将为大家讲解: (1)从链表节点的定义开始,以类的方式,面向对象的思想进行链表的设计 (2)链表类插入和 ...

  5. python定位相邻节点_Python selenium —— 父子、兄弟、相邻节点定位方式详解

    今天跟大家分享下selenium中根据父子.兄弟.相邻节点定位的方法,很多人在实际应用中会遇到想定位的节点无法直接定位,需要通过附近节点来相对定位的问题,但从父节点定位子节点容易,从子节点定位父节点. ...

  6. python制作动态时钟_python+pygame制作一个可自定义的动态时钟和详解

    #第1步:导出模块 importsys, random, math, pygamefrom pygame.locals import * from datetime importdatetime, d ...

  7. python爬取直播_python selenium爬取斗鱼所有直播房间信息过程详解

    还是分析一下大体的流程: 发现所有房间的信息都是保存在一个无序列表中的li中,所以我们可以先获取一个装有li的element对象的列表,然后在对每个element逐一操作 分析斗鱼的翻页,有一个下一页 ...

  8. python爬斗鱼直播_python selenium爬取斗鱼所有直播房间信息过程详解

    还是分析一下大体的流程: 发现所有房间的信息都是保存在一个无序列表中的li中,所以我们可以先获取一个装有li的element对象的列表,然后在对每个element逐一操作 分析斗鱼的翻页,有一个下一页 ...

  9. python爬取斗鱼_python selenium爬取斗鱼所有直播房间信息过程详解

    还是分析一下大体的流程: 首先还是Chrome浏览器抓包分析元素,这是网址:https://www.douyu.com/directory/all 发现所有房间的信息都是保存在一个无序列表中的li中, ...

最新文章

  1. 如何在SharePoint2010中添加Deep Zoom Image
  2. 2021 年高教社杯全国大学生数学建模竞赛A题分析
  3. 平面设计师和ui设计师_平面设计师为什么要享受所有乐趣?
  4. lucene_Lucene组件概述
  5. qt linux webservice,Qt实现访问WebService
  6. java applet socket_Java swing applet中使用的套接字
  7. Leetcode算法题(C语言)16--有效的字母异位词
  8. 第六周Java学习总结
  9. 迎建国七十周年,Linux厂商巡礼之优麒麟
  10. editplus 打开大文件_CorelDRAW文件损坏的几种解决方法
  11. Html5实现植物大战僵尸小游戏
  12. 大鱼吃小鱼java程序设计
  13. Hadoop,Spark错误:Could not locate executable null\bin\winutils.exe in the Hadoop binaries.
  14. dede后台更改mysql数据库密码
  15. Alex net解读
  16. Unity3d Ugui 10 Toggle ToggleGroup
  17. 腾讯阿里打通生态,针锋相对的时代或将结束?
  18. 如何使用python连接MYsql数据库,实现信息查询小案例
  19. 最新JAVA安装教程(Mac版)
  20. STM32L431 寄存器配置 USART+DMA发送+中断接收

热门文章

  1. 新生赛3 1003 字符串最小表示法题目
  2. Responsive Web Design
  3. 揭秘:导致局域网网速变慢的五大真凶
  4. socket编程(十四)
  5. php mysql化妆品商城计算机毕业设计网站成品
  6. 基于机器视觉的玻璃Mark点字符识别
  7. java实验的总结_Java实验总结——初学(上)
  8. String+char+byte+ascii+unicode
  9. centos6下安装php7的memcached扩展
  10. Mac OS系统修改Hosts文件的方法