继上一篇介绍了数据包的接收过程后,本文将介绍在Linux系统中,数据包是如何一步一步从应用程序到网卡并最终发送出去的。

如果英文没有问题,强烈建议阅读后面参考里的文章,里面介绍的更详细。

本文只讨论以太网的物理网卡,并且以一个UDP包的发送过程作为示例,由于本人对协议栈的代码不熟,有些地方可能理解有误,欢迎指正

socket层

  1. +-------------+
  2. | Application |
  3. +-------------+
  4. |
  5. |
  6. +------------------------------------------+
  7. | socket(AF_INET, SOCK_DGRAM, IPPROTO_UDP) |
  8. +------------------------------------------+
  9. |
  10. |
  11. +-------------------+
  12. | sendto(sock, ...) |
  13. +-------------------+
  14. |
  15. |
  16. +--------------+
  17. | inet_sendmsg |
  18. +--------------+
  19. |
  20. |
  21. +---------------+
  22. | inet_autobind |
  23. +---------------+
  24. |
  25. |
  26. +-----------+
  27. | UDP layer |
  28. +-----------+
  • socket(...): 创建一个socket结构体,并初始化相应的操作函数,由于我们定义的是UDP的socket,所以里面存放的都是跟UDP相关的函数
  • sendto(sock, ...): 应用层的程序(Application)调用该函数开始发送数据包,该函数数会调用后面的inet_sendmsg
  • inet_sendmsg: 该函数主要是检查当前socket有没有绑定源端口,如果没有的话,调用inet_autobind分配一个,然后调用UDP层的函数
  • inet_autobind: 该函数会调用socket上绑定的get_port函数获取一个可用的端口,由于该socket是UDP的socket,所以get_port函数会调到UDP代码里面的相应函数。

UDP层

  1. |
  2. |
  3. +-------------+
  4. | udp_sendmsg |
  5. +-------------+
  6. |
  7. |
  8. +----------------------+
  9. | ip_route_output_flow |
  10. +----------------------+
  11. |
  12. |
  13. +-------------+
  14. | ip_make_skb |
  15. +-------------+
  16. |
  17. |
  18. +------------------------+
  19. | udp_send_skb(skb, fl4) |
  20. +------------------------+
  21. |
  22. |
  23. +----------+
  24. | IP layer |
  25. +----------+
  • udp_sendmsg: udp模块发送数据包的入口,该函数较长,在该函数中会先调用ip_route_output_flow获取路由信息(主要包括源IP和网卡),然后调用ip_make_skb构造skb结构体,最后将网卡的信息和该skb关联。
  • ip_route_output_flow: 该函数会根据路由表和目的IP,找到这个数据包应该从哪个设备发送出去,如果该socket没有绑定源IP,该函数还会根据路由表找到一个最合适的源IP给它。 如果该socket已经绑定了源IP,但根据路由表,从这个源IP对应的网卡没法到达目的地址,则该包会被丢弃,于是数据发送失败,sendto函数将返回错误。该函数最后会将找到的设备和源IP塞进flowi4结构体并返回给udp_sendmsg
  • ip_make_skb: 该函数的功能是构造skb包,构造好的skb包里面已经分配了IP包头,并且初始化了部分信息(IP包头的源IP就在这里被设置进去),同时该函数会调用__ip_append_dat,如果需要分片的话,会在__ip_append_data函数中进行分片,同时还会在该函数中检查socket的send buffer是否已经用光,如果被用光的话,返回ENOBUFS
  • udp_send_skb(skb, fl4) 主要是往skb里面填充UDP的包头,同时处理checksum,然后调用IP层的相应函数。

IP层

  1. |
  2. |
  3. +-------------+
  4. | ip_send_skb |
  5. +-------------+
  6. |
  7. |
  8. +-------------------+       +-------------------+       +---------------+
  9. | __ip_local_out_sk |------>| NF_INET_LOCAL_OUT |------>| dst_output_sk |
  10. +-------------------+       +-------------------+       +---------------+
  11. |
  12. |
  13. +------------------+        +----------------------+       +-----------+
  14. | ip_finish_output |<-------| NF_INET_POST_ROUTING |<------| ip_output |
  15. +------------------+        +----------------------+       +-----------+
  16. |
  17. |
  18. +-------------------+      +------------------+       +----------------------+
  19. | ip_finish_output2 |----->| dst_neigh_output |------>| neigh_resolve_output |
  20. +-------------------+      +------------------+       +----------------------+
  21. |
  22. |
  23. +----------------+
  24. | dev_queue_xmit |
  25. +----------------+
  • ip_send_skb: IP模块发送数据包的入口,该函数只是简单的调用一下后面的函数
  • __ip_local_out_sk: 设置IP报文头的长度和checksum,然后调用下面netfilter的钩子
  • NF_INET_LOCAL_OUT: netfilter的钩子,可以通过iptables来配置怎么处理该数据包,如果该数据包没被丢弃,则继续往下走
  • dst_output_sk: 该函数根据skb里面的信息,调用相应的output函数,在我们UDP IPv4这种情况下,会调用ip_output
  • ip_output: 将上面udp_sendmsg得到的网卡信息写入skb,然后调用NF_INET_POST_ROUTING的钩子
  • NF_INET_POST_ROUTING: 在这里,用户有可能配置了SNAT,从而导致该skb的路由信息发生变化
  • ip_finish_output: 这里会判断经过了上一步后,路由信息是否发生变化,如果发生变化的话,需要重新调用dst_output_sk(重新调用这个函数时,可能就不会再走到ip_output,而是走到被netfilter指定的output函数里,这里有可能是xfrm4_transport_output),否则往下走
  • ip_finish_output2: 根据目的IP到路由表里面找到下一跳(nexthop)的地址,然后调用__ipv4_neigh_lookup_noref去arp表里面找下一跳的neigh信息,没找到的话会调用__neigh_create构造一个空的neigh结构体
  • dst_neigh_output: 在该函数中,如果上一步ip_finish_output2没得到neigh信息,那么将会走到函数neigh_resolve_output中,否则直接调用neigh_hh_output,在该函数中,会将neigh信息里面的mac地址填到skb中,然后调用dev_queue_xmit发送数据包
  • neigh_resolve_output: 该函数里面会发送arp请求,得到下一跳的mac地址,然后将mac地址填到skb中并调用dev_queue_xmit

netdevice子系统

  1. |
  2. |
  3. +----------------+
  4. +----------------| dev_queue_xmit |
  5. |                +----------------+
  6. |                       |
  7. |                       |
  8. |                       ↓
  9. |              +-----------------+
  10. |              | Traffic Control |
  11. |              +-----------------+
  12. | loopback              |
  13. |   or                  +--------------------------------------------------------------+
  14. | IP tunnels            ↓                                                              |
  15. |                       ↓                                                              |
  16. |            +---------------------+  Failed   +----------------------+         +---------------+
  17. +----------->| dev_hard_start_xmit |---------->| raise NET_TX_SOFTIRQ |- - - - >| net_tx_action |
  18. +---------------------+           +----------------------+         +---------------+
  19. |
  20. +----------------------------------+
  21. |                                  |
  22. ↓                                  ↓
  23. +----------------+              +------------------------+
  24. | ndo_start_xmit |              | packet taps(AF_PACKET) |
  25. +----------------+              +------------------------+
  • dev_queue_xmit: netdevice子系统的入口函数,在该函数中,会先获取设备对应的qdisc,如果没有的话(如loopback或者IP tunnels),就直接调用dev_hard_start_xmit,否则数据包将经过Traffic Control模块进行处理
  • Traffic Control: 这里主要是进行一些过滤和优先级处理,在这里,如果队列满了的话,数据包会被丢掉,详情请参考文档,这步完成后也会走到dev_hard_start_xmit
  • dev_hard_start_xmit: 该函数中,首先是拷贝一份skb给“packet taps”,tcpdump就是从这里得到数据的,然后调用ndo_start_xmit。如果dev_hard_start_xmit返回错误的话(大部分情况可能是NETDEV_TX_BUSY),调用它的函数会把skb放到一个地方,然后抛出软中断NET_TX_SOFTIRQ,交给软中断处理程序net_tx_action稍后重试(如果是loopback或者IP tunnels的话,失败后不会有重试的逻辑)
  • ndo_start_xmit: 这是一个函数指针,会指向具体驱动发送数据的函数

Device Driver

ndo_start_xmit会绑定到具体网卡驱动的相应函数,到这步之后,就归网卡驱动管了,不同的网卡驱动有不同的处理方式,这里不做详细介绍,其大概流程如下:

  1. 将skb放入网卡自己的发送队列
  2. 通知网卡发送数据包
  3. 网卡发送完成后发送中断给CPU
  4. 收到中断后进行skb的清理工作

在网卡驱动发送数据包过程中,会有一些地方需要和netdevice子系统打交道,比如网卡的队列满了,需要告诉上层不要再发了,等队列有空闲的时候,再通知上层接着发数据。

其它

  • SO_SNDBUF: 从上面的流程中可以看出来,对于UDP来说,没有一个对应send buffer存在,SO_SNDBUF只是一个限制,当这个socket分配的skb占用的内存超过这个值的时候,会返回ENOBUFS,所以说只要不出现ENOBUFS错误,把这个值调大没有意义。从sendto函数的帮助文件里面看到这样一句话:(Normally, this does not occur in Linux. Packets are just silently dropped when a device queue overflows.)。这里的device queue应该指的是Traffic Control里面的queue,说明在linux里面,默认的SO_SNDBUF值已经够queue用了,疑问的地方是,queue的长度和个数是可以配置的,如果配置太大的话,按道理应该有可能会出现ENOBUFS的情况。
  • txqueuelen: 很多地方都说这个是控制qdisc里queue的长度的,但貌似只是部分类型的qdisc用了该配置,如linux默认的pfifo_fast。
  • hardware RX: 一般网卡都有一个自己的ring queue,这个queue的大小可以通过ethtool来配置,当驱动收到发送请求时,一般是放到这个queue里面,然后通知网卡发送数据,当这个queue满的时候,会给上层调用返回NETDEV_TX_BUSY
  • packet taps(AF_PACKET): 当第一次发送数据包和重试发送数据包时,都会经过这里,如果发生重试的情况的话,不确定tcpdump是否会抓到两次包,按道理应该不会,可能是我哪里没看懂
作者:wuyangchun
来源:51CTO

Linux网络 - 数据包的发送过程相关推荐

  1. Linux网络 - 数据包的接收过程

    Linux网络 - 数据包的接收过程 嵌入式Linux中文站 嵌入式Linux中文站 微信号 emblinux 功能介绍 嵌入式Linux中文站提供专业嵌入式Linux开发技术资讯 Table of ...

  2. Linux网络数据包接收处理过程

    因为要对百万.千万.甚至是过亿的用户提供各种网络服务,所以在一线互联网企业里面试和晋升后端开发同学的其中一个重点要求就是要能支撑高并发,要理解性能开销,会进行性能优化.而很多时候,如果你对Linux底 ...

  3. linux receive函数,Linux网络 - 数据包的接收过程

    的方式写入到指定的内存地址,该地址由网卡驱动分配并初始化.注: 老的网卡可能不支持DMA,不过新的网卡一般都支持. 3: 网卡通过硬件中断(IRQ)通知CPU,告诉它有数据来了 4: CPU根据中断表 ...

  4. Linux网络数据包的揭秘以及常见的调优方式总结

    Linux网络数据包的揭秘以及常见的调优方式总结 (网易游戏运维平台) 关注我们,获一手游戏运维方案 lott 网易游戏业务 SRE, 专注于业务运维的质量和效率 , 喜欢研究 Linux 系统原理. ...

  5. linux内核网络协议栈--数据包的发送过程(二十一)

    继上一篇介绍了数据包的接收过程后,本文将介绍在Linux系统中,数据包是如何一步一步从应用程序到网卡并最终发送出去的. socket层 +-------------+| Application |+- ...

  6. linux接收网络数据并存存储,linux网络数据包数据结构 Socket Buffer

    Linux网络核心数据结构是套接字缓存(socket buffer),简称skb.它代表一个要发送或处理的报文,并贯穿于整个协议栈.1.套接字缓存skb由两部分组成:(1)报文数据:它保存了实际在网络 ...

  7. 【理解 Cilium 系列文章】(二) 理解网络数据包的流转过程

    Cilium 作为近两年最火的云原生网络方案,可谓是风头无两.作为第一个通过 ebpf 实现了 kube-proxy 所有功能的网络插件,它的神秘面纱究竟是怎样的呢?本系列文章将带大家一起来慢慢揭晓 ...

  8. 深度剖析WinPcap之(九)——数据包的发送过程(8)

    1.7.3    发送队列方式的接口实现 1.7.3.1             PacketSendPackets函数 函数发送数据包队列到网络,函数原型如下: INT PacketSendPack ...

  9. linux手动注入网络数据_Linux网络 - 数据包的接收过程

    本文将介绍在Linux系统中,数据包是如何一步一步从网卡传到进程手中的. 如果英文没有问题,强烈建议阅读后面参考里的两篇文章,里面介绍的更详细. 本文只讨论以太网的物理网卡,不涉及虚拟设备,并且以一个 ...

最新文章

  1. 此上下文中不允许函数定义。_深度好文 | 你知道Go中的 context 是怎么实现的吗?...
  2. hashlib 和loggin模块
  3. oracle 行送,Oracle 行专列
  4. python 文件路径格式化_python 存储为txt文件路径
  5. cross product
  6. Java面试基础篇——第九篇:BIO,NIO,AIO的区别
  7. IDEA 运行键是灰色
  8. vue3 composition-api useRoute useRouter 别混淆
  9. day05 数据类型
  10. 猫咪藏在哪个房间python作业_深度学习(可视化部分)-使用keras识别猫咪
  11. 高考全国卷导数题分类
  12. IT蚁族:蜗居和逃离
  13. 利用按键精灵实现QQ群发和微信群发
  14. B站排行榜(简陋版)
  15. 拼写检查(深度讲解,普通方法+进阶版)
  16. 生物信息学python常用脚本_生物信息学一些基本的常用软件有哪些?
  17. 大众点评网的网站架构
  18. 软件测试工作中常见的问题
  19. zippo油和zorro油的区别_自行车油压碟刹和拉线式碟刹的区别?
  20. vue.js之非关系组件通信(八竿子打不着的关系组件通信)

热门文章

  1. Spring Boot 解决跨域问题的 3 种方案!
  2. 阿里巴巴为什么能抗住90秒100亿?看完这篇你就明白了!
  3. 【廖雪峰python入门笔记】list添加元素_append()和insert()
  4. 虚数有物理意义:中科大潘建伟、南科大范靖云团队首次实验排除实数形式的标准量子力学...
  5. 中科大5名博士生凌晨2点处置实验室漏水,被重奖12万元
  6. 心中的象牙塔:怎样才能拿到理想的教职offer?
  7. 总结2021面试中的常见14种算法套路
  8. AAAI 2021最佳论文奖出炉
  9. 2021年了,该拥有自己的深度学习框架了
  10. 最新汇总!这些高校已确定开学时间!