参看:详解大端模式和小端模式

一、什么是大端和小端

所谓的大端模式,就是高位字节排放在内存的低地址端,低位字节排放在内存的高地址端。

所谓的小端模式,就是低位字节排放在内存的低地址端,高位字节排放在内存的高地址端。

简单来说:大端——高尾端,小端——低尾端

举个例子,比如数字 0x12 34 56 78在内存中的表示形式为:

1)大端模式:

低地址 -----------------> 高地址

0x12  |  0x34  |  0x56  |  0x78

2)小端模式:

低地址 ------------------> 高地址

0x78  |  0x56  |  0x34  |  0x12

可见,大端模式和字符串的存储模式类似。

3)下面是两个具体例子:

16bit宽的数0x1234在Little-endian模式(以及Big-endian模式)CPU内存中的存放方式(假设从地址0x4000开始存放)为:

内存地址 小端模式存放内容 大端模式存放内容
0x4000 0x34 0x12
0x4001 0x12 0x34

32bit宽的数0x12345678在Little-endian模式以及Big-endian模式)CPU内存中的存放方式(假设从地址0x4000开始存放)为:

内存地址 小端模式存放内容 大端模式存放内容
0x4000 0x78 0x12
0x4001 0x56 0x34
0x4002 0x34 0x56
0x4003 0x12 0x78
 

4)大端小端没有谁优谁劣,各自优势便是对方劣势:

小端模式 :强制转换数据不需要调整字节内容,1、2、4字节的存储方式一样。
大端模式 :符号位的判定固定为第一个字节,容易判断正负。

二、数组在大端小端情况下的存储:

  以unsigned int value = 0x12345678为例,分别看看在两种字节序下其存储情况,我们可以用unsigned char buf[4]来表示value:
  Big-Endian: 低地址存放高位,如下:
高地址
        ---------------
        buf[3] (0x78) -- 低位
        buf[2] (0x56)
        buf[1] (0x34)
        buf[0] (0x12) -- 高位
        ---------------
        低地址
Little-Endian: 低地址存放低位,如下:
高地址
        ---------------
        buf[3] (0x12) -- 高位
        buf[2] (0x34)
        buf[1] (0x56)
        buf[0] (0x78) -- 低位
        --------------
低地址

三、为什么会有大小端模式之分呢?

这是因为在计算机中,我们是以字节为单位的,每个地址单元都对应着一个字节,一个字节为 8 bit。但是在C 语言中除了 8 bit 的char之外,还有 16 bit 的 short型,32bit的long型(要看具体的编译器),另外,对于位数大于8位的处理器,例如16位或者32位的处理器,由于寄存器宽度大于一个字节,那么必然存在着一个如果将多个字节安排的问题。因此就导致了大端存储模式和小端存储模式。例如一个16bit的short型 x ,在内存中的地址为 0x0010,x 的值为0x1122,那么0x11位高字节,0x22位低字节。对于大端模式,就将0x11放在低地址中,即0x0010中,0x22放在高地址中,即0x0011中。小端模式,刚好相反。我们常用的X86结构是小端模式,而KEIL C51则为大端模式。很多的ARM,DSP都为小端模式。有些ARM处理器还可以由硬件来选择是大端模式还是小端模式。

四、如何判断机器的字节序 (重点)

一般都是通过 union 来测试的,下面这段代码可以用来测试一下你的编译器是大端模式还是小端模式:

#include <stdio.h>
int main (void)
{union{short i;char a[2];}u;u.a[0] = 0x11;u.a[1] = 0x22;printf ("0x%x\n", u.i);  //0x2211 为小端  0x1122 为大端return 0;
}
输出结果:
0x2211

union 型数据所占的空间等于其最大的成员所占的空间。对 union 型的成员的存取都是相对于该联合体基地址的偏移量为 0 处开始,也就是联合体的访问不论对哪个变量的存取都是从 union 的首地址位置开始

联合是一个在同一个存储空间里存储不同类型数据的数据类型。这些存储区的地址都是一样的,联合里不同存储区的内存是重叠的,修改了任何一个其他的会受影响。

参看:C语言再学习 -- 结构和其他数据形式

1. 共用体声明和共用体变量定义
共用体(参考“共用体”百科词条)是一种特殊形式的变量,使用关键字union来定义
共用体(有些人也叫"联合")声明和共用体变量定义与结构体十分相似。其形式为:
union 共用体名{
数据类型 成员名;
数据类型 成员名;
...
} 变量名;

参看:

共用体表示几个变量共用一个内存位置,在不同的时间保存不同的数据类型和不同长度的变量。在union中,所有的共用体成员共用一个空间,并且同一时间只能储存其中一个成员变量的值

下例表示声明一个共用体foo:

union foo{/*“共用”类型“FOO”*/int i;    /*“整数”类型“i”*/char c;   /*“字符”类型“C”*/double k;  /*“双”精度类型“K”*/
};

再用已声明的共用体可定义共用体变量。例如,用上面说明的共用体定义一个名为bar的共用体变量, 可写成:
union foo bar;
在共用体变量bar中, 整型变量 i 和字符变量 c 共用同一内存位置。

当一个共用体被声明时, 编译程序自动地产生一个变量, 其长度为联合中最大的变量长度的整数倍。以上例而言,最大长度是double数据类型,所以foo的内存空间就是double型的长度。

union foo/*“共用”类型“FOO”*/
{char s[10];    /*“字符”类型的数组“S”下面有“10”个元素*/int i;        /*“整数”类型i*/
};

在这个union中,foo的内存空间的长度为12,是int型的3倍,而并不是数组的长度10。若把int改为double,则foo的内存空间为16,是double型的两倍。

2. 共用体和结构体的区别
1)共用体和结构体都是由多个不同的数据类型成员组成, 但在任何同一时刻, 共用体只存放了一个被选中的成员, 而结构体的所有成员都存在。
2.)对于共用体的不同成员赋值, 将会对其它成员重写, 原来成员的值就不存在了, 而对于结构体的不同成员赋值是互不影响的。

总结:

恍然大悟,union 联合之前还是没有理解透。一开始不太理解,为什么给 a[0]、a[1] 赋值,i 没有定义啊,为什么会有值呢,或者值为什么不是随机数呢?现在明白了,我们为什么用 union 联合来测试大小端,在联合变量 u 中, 短整型变量 i 和字符数组 a 共用同一内存位置。给 a[0]、a[1] 赋值后,i  也是从同一内存地址读值的。

知道这层关系后,那么通过强制类型转换,判断其实存储位置,也可以测试大小端了:

#include <stdio.h>
int main (void)
{short i = 0x1122;char *a = (char*)(&i);printf ("0x%x\n", *(a + 0)); //大端为 0x11 小端为 0x22printf ("0x%x\n", *(a + 1));return 0;
}
输出结果:
0x22
0x11

说明:上面两个例子,可以通过 if 语句来判断大小端,这里只是介绍方法。

五、常见的字节序

一般操作系统都是小端,而通讯协议是大端的。

1)常见CPU的字节序

Big Endian : PowerPC、IBM、Sun
Little Endian : x86、DEC
ARM既可以工作在大端模式,也可以工作在小端模式。

2)常见文件的字节序

Adobe PS – Big Endian
BMP – Little Endian
DXF(AutoCAD) – Variable
GIF – Little Endian
JPEG – Big Endian
MacPaint – Big Endian
RTF – Little Endian

另外,Java和所有的网络通讯协议都是使用Big-Endian的编码。

六、如何进行大小端转换(重点)

第一种方法:位操作

#include<stdio.h>  typedef unsigned int uint_32 ;
typedef unsigned short uint_16 ;  //16位
#define BSWAP_16(x) \(uint_16)((((uint_16)(x) & 0x00ff) << 8) | \(((uint_16)(x) & 0xff00) >> 8) \)//32位
#define BSWAP_32(x) \(uint_32)((((uint_32)(x) & 0xff000000) >> 24) | \(((uint_32)(x) & 0x00ff0000) >> 8) | \(((uint_32)(x) & 0x0000ff00) << 8) | \(((uint_32)(x) & 0x000000ff) << 24) \)  //无符号整型16位
uint_16 bswap_16(uint_16 x)
{  return (((uint_16)(x) & 0x00ff) << 8) | \(((uint_16)(x) & 0xff00) >> 8) ;
}  //无符号整型32位
uint_32 bswap_32(uint_32 x)
{  return (((uint_32)(x) & 0xff000000) >> 24) | \(((uint_32)(x) & 0x00ff0000) >> 8) | \(((uint_32)(x) & 0x0000ff00) << 8) | \(((uint_32)(x) & 0x000000ff) << 24) ;
}  int main(int argc,char *argv[])
{  printf("------------带参宏-------------\n");  printf("%#x\n",BSWAP_16(0x1234)) ;  printf("%#x\n",BSWAP_32(0x12345678));  printf("------------函数调用-----------\n");  printf("%#x\n",bswap_16(0x1234)) ;  printf("%#x\n",bswap_32(0x12345678));  return 0 ;
}
输出结果:
------------带参宏-------------
0x3412
0x78563412
------------函数调用-----------
0x3412
0x78563412

这里有个思考?上面的哪个是转换为大端,哪个是转为小端了呢?

参看:STM32开发 -- 进制与字符串间的转换

举个例子,比如数字 0x12 34 56 78在内存中的表示形式为:

1)大端模式:

低地址 -----------------> 高地址

0x12  |  0x34  |  0x56  |  0x78

2)小端模式:

低地址 ------------------> 高地址

0x78  |  0x56  |  0x34  |  0x12

则:

转换为大端:

pPack[2] = (u8)((len >> 8) & 0xFF);
pPack[3] = (u8)(len & 0xFF);

转为为小端:

pPack[2] = (u8)(len & 0xFF);

pPack[3] =  (u8)((len >> 8) & 0xFF);

第二种方法:

从软件的角度理解端模式

使用 htonl, htons, ntohl, ntohs 等函数

参看:百度百科--htonl ()函数

参看:百度百科--htons ()函数

查看:man htonl

NAMEhtonl, htons, ntohl, ntohs - convert values between host and network byte orderSYNOPSIS#include <arpa/inet.h>uint32_t htonl(uint32_t hostlong);uint16_t htons(uint16_t hostshort);uint32_t ntohl(uint32_t netlong);uint16_t ntohs(uint16_t netshort);DESCRIPTIONThe htonl() function converts the unsigned integer hostlong from host byte order to network byte order.The htons() function converts the unsigned short integer hostshort from host byte order to network byte order.The ntohl() function converts the unsigned integer netlong from network byte order to host byte order.The ntohs() function converts the unsigned short integer netshort from network byte order to host byte order.On  the  i386  the host byte order is Least Significant Byte first, whereas the network byte order, as used on the Internet, is MostSignificant Byte first.

翻译:

htonl()     //32位无符号整型的主机字节顺序到网络字节顺序的转换(小端->>大端)
htons()
    //16位无符号短整型的主机字节顺序到网络字节顺序的转换  (小端->>大端)
ntohl()     //32位无符号整型的网络字节顺序到主机字节顺序的转换  (大端->>小端)
ntohs()     //16位无符号短整型的网络字节顺序到主机字节顺序的转换  (大端->>小端)

注,主机字节顺序,X86一般多为小端(little-endian),网络字节顺序,即大端(big-endian);

举两个小例子:

//示例一
#include <stdio.h>
#icnlude <arpa/inet.h>
int main (void)
{union{short i;char a[2];}u;u.a[0] = 0x11;u.a[1] = 0x22;printf ("0x%x\n", u.i);  //0x2211 为小端  0x1122 为大端printf ("0x%.x\n", htons (u.i)); //大小端转换 return 0;
}
输出结果:
0x2211
0x1122
//示例二
#include <stdio.h>
#include <arpa/inet.h>
struct ST{  short val1;  short val2;
};
union U{  int val;  struct ST st;
};  int main(void)
{  int a = 0;  union U u1, u2;  a = 0x12345678;  u1.val = a;  printf("u1.val is 0x%x\n", u1.val);  printf("val1 is 0x%x\n", u1.st.val1);  printf("val2 is 0x%x\n", u1.st.val2);  printf("after first convert is: 0x%x\n", htonl(u1.val));  u2.st.val2 = htons(u1.st.val1);  u2.st.val1 = htons(u1.st.val2);  printf("after second convert is: 0x%x\n", u2.val);  return 0;
}
输出结果:
u1.val is 0x12345678
val1 is 0x5678
val2 is 0x1234
after first convert is: 0x78563412
after second convert is: 0x78563412

在对普通文件进行处理也需要考虑端模式问题。在大端模式的处理器下对文件的32,16位读写操作所得到的结果与小端模式的处理器不同。单纯从软件的角度理解上远远不能真正理解大小端模式的区别。事实上,真正的理解大小端模式的区别,必须要从系统的角度,从指令集,寄存器和数据总线上深入理解,大小端模式的区别。

以下内容了解:

1、从系统的角度理解端模式

先补充两个关键词,MSB和LSB:
  MSB:MoST Significant Bit ------- 最高有效位
        LSB:Least Significant Bit ------- 最低有效位

处理器在硬件上由于端模式问题在设计中有所不同。从系统的角度上看,端模式问题对软件和硬件的设计带来了不同的影响,当一个处理器系统中大小端模式同时存在时,必须要对这些不同端模式的访问进行特殊的处理。
       PowerPC处理器主导网络市场,可以说绝大多数的通信设备都使用PowerPC处理器进行协议处理和其他控制信息的处理,这也可能也是在网络上的绝大多数协议都采用大端编址方式的原因。因此在有关网络协议的软件设计中,使用小端方式的处理器需要在软件中处理端模式的转变。而Pentium主导个人机市场,因此多数用于个人机的外设都采用小端模式,包括一些在网络设备中使用的PCI总线,Flash等设备,这也要求在硬件设计中注意端模式的转换。
       本文提到的小端外设是指这种外设中的寄存器以小端方式进行存储,如PCI设备的配置空间,NOR FLASH中的寄存器等等。对于有些设备,如DDR颗粒,没有以小端方式存储的寄存器,因此从逻辑上讲并不需要对端模式进行转换。在设计中,只需要将双方数据总线进行一一对应的互连,而不需要进行数据总线的转换。
       如果从实际应用的角度说,采用小端模式的处理器需要在软件中处理端模式的转换,因为采用小端模式的处理器在与小端外设互连时,不需要任何转换。而采用大端模式的处理器需要在硬件设计时处理端模式的转换。大端模式处理器需要在寄存器,指令集,数据总线及数据总线与小端外设的连接等等多个方面进行处理,以解决与小端外设连接时的端模式转换问题。在寄存器和数据总线的位序定义上,基于大小端模式的处理器有所不同。
       一个采用大端模式的32位处理器,如基于E500内核的MPC8541,将其寄存器的最高位msb(most significant bit)定义为0,最低位lsb(lease significant bit)定义为31;而小端模式的32位处理器,将其寄存器的最高位定义为31,低位地址定义为0。与此向对应,采用大端模式的32位处理器数据总线的最高位为0,最高位为31;采用小端模式的32位处理器的数据总线的最高位为31,最低位为0。         
       大小端模式处理器外部总线的位序也遵循着同样的规律,根据所采用的数据总线是32位,16位和8位,大小端处理器外部总线的位序有所不同。大端模式下32位数据总线的msb是第0位,MSB是数据总线的第0~7的字段;而lsb是第31位,LSB是第24~31字段。小端模式下32位总线的msb是第31位,MSB是数据总线的第31~24位,lsb是第0位,LSB是7~0字段。大端模式下16位数据总线的msb是第0位,MSB是数据总线的第0~7的字段;而lsb是第15位,LSB是第8~15字段。小端模式下16位总线的msb是第15位,MSB是数据总线的第15~7位,lsb是第0位,LSB是7~0字段。大端模式下8位数据总线的msb是第0位,MSB是数据总线的第0~7的字段;而lsb是第7位,LSB是第0~7字段。小端模式下8位总线的msb是第7位,MSB是数据总线的第7~0位,lsb是第0位,LSB是7~0字段。
         由上分析,我们可以得知对于8位,16位和32位宽度的数据总线,采用大端模式时数据总线的msb和MSB的位置都不会发生变化,而采用小端模式时数据总线的lsb和LSB位置也不会发生变化。
         为此,大端模式的处理器对8位,16位和32位的内存访问(包括外设的访问)一般都包含第0~7字段,即MSB。小端模式的处理器对8位,16位和32位的内存访问都包含第7~0位,小端方式的第7~0字段,即LSB。由于大小端处理器的数据总线其8位,16位和32位宽度的数据总线的定义不同,因此需要分别进行讨论在系统级别上如何处理端模式转换。在一个大端处理器系统中,需要处理大端处理器对小端外设的访问。

2、实际中的例子

虽然很多时候,字节序的工作已由编译器完成了,但是在一些小的细节上,仍然需要去仔细揣摩考虑,尤其是在以太网通讯、MODBUS通讯、软件移植性方面。这里,举一个MODBUS通讯的例子。在MODBUS中,数据需要组织成数据报文,该报文中的数据都是大端模式,即低地址存高位,高地址存低位。假设有一16位缓冲区m_RegMW[256],因为是在x86平台上,所以内存中的数据为小端模式:m_RegMW[0].low、m_RegMW[0].high、m_RegMW[1].low、m_RegMW[1].high……
为了方便讨论,假设m_RegMW[0] = 0x3456; 在内存中为0x56、0x34。
       现要将该数据发出,如果不进行数据转换直接发送,此时发送的数据为0x56,0x34。而Modbus是大端的,会将该数据解释为0x5634而非原数据0x3456,此时就会发生灾难性的错误。所以,在此之前,需要将小端数据转换成大端的,即进行高字节和低字节的交换,此时可以调用步骤五中的函数BigtoLittle16(m_RegMW[0]),之后再进行发送才可以得到正确的数据。

C语言再学习-- 大端小端详解(转)相关推荐

  1. [嵌入式er笔记]大端小端详解(含代码及详细注释)

    link 之前文章< 浅谈ARM ABI,Android ABI >中有提到计划专门一篇文章讲下大小端,今天兑现一下. 1>"大端" "小端" ...

  2. 「内存分配」大端小端详解

    大端小端是计算机系统内存存储的两种模式,可谓是如雷贯耳的存在了. 我本以为自己已经是完全明白了,然而有时碰到的时候却发现概念有些混淆,一旦遇到复杂的场景就不知所措了. 所以写下此篇博客记录心路历程. ...

  3. C语言-- 大端小端详解

    一.什么是大端和小端 所谓的大端模式,就是高位字节排放在内存的低地址端,低位字节排放在内存的高地址端. 所谓的小端模式,就是低位字节排放在内存的低地址端,高位字节排放在内存的高地址端. 简单来说:大端 ...

  4. 存储格式之大端小端详解

    最近有同学问到大端格式和小端格式的问题,碰巧看到该文档,写的很好! 地址:http://blog.csdn.net/dandycheung/archive/2010/09/13/5881620.asp ...

  5. C语言再学习 -- Xargs用法详解

    参看:Xargs用法详解(原创) 简介 之所以能用到这个命令,关键是由于很多命令不支持 | 管道来来传递参数,而日常工作中有这个必要,所以就有了 xargs 命令,例如: 这个命令是错误的: find ...

  6. C语言再学习 -- Linux下find命令用法

    参看:linux下find(文件查找)命令的用法总结 linux下查找文件的命令有两个:locate 和 find 首先说一下locate: 这个命名是对其生成的数据库进行遍历(生成数据库的命令:uo ...

  7. C语言再学习 -- 详解C++/C 面试题 2

    (经典)C语言测试:想成为嵌入式程序员应知道的0x10个基本问题. 参看:嵌入式程序员面试问题集锦 1.用预处理指令#define 声明一个常数,用以表明1年中有多少秒(忽略闰年问题) #define ...

  8. C语言再学习 -- 详解C++/C 面试题 1

    参看:<高质量C++ C编程指南>.林锐 对这篇文章记忆犹新,因为之前找工作面试的时候,遇到过一家公司就是用的这套面试题.现在就结合考查的知识点和我总结完 C 语言再学习后的深入理解,来详 ...

  9. C语言再学习 -- 再论数组和指针

    之前有总结指针数组,但是现在看来总结的太简单了.好多重要的知识点都是一带而过的.本想在后面添加后来想想算了,还是再写一篇文章来详细介绍数组和指针这对冤家吧. 之前总结的,参看:C语言再学习 -- 数组 ...

  10. C语言再学习 -- C 预处理器

    gcc/cc xxx.c  可以编译链接C源程序生成一个可执行文件 a.out 整个过程中可以划分为以下的4步流程: (1)预处理/预编译: 主要用于包含头文件的扩展,以及执行宏替换等 //加上 -E ...

最新文章

  1. python hist函数_虎哥的python小技巧放送之绘制统计图(2)
  2. Centos7.1 命令行与图形化界面登陆
  3. Android之打开手机系统相册
  4. java中sql之count,SQL COUNT() 函数--编程学习网
  5. qprocess 最小化启动外部程序_程序员易踩的 9 大坑,教你识别
  6. maven项目没有src/test/java和src/test/resources目录问题解决
  7. c语言中文纠错,c语言纠错。。急急急。。
  8. dom控制html元素编号,JavaScript DOM对象控制HTML元素详解
  9. 通过ffmpeg将FLV文件转换为MP4
  10. 软件著作权统计源程序量,统计php代码行数
  11. 中国高纯电子级过氧化氢市场供需调研与前景方向分析报告2022年版
  12. Lock接口和AQS原理与实现(Java并发编程的艺术整理)
  13. node启动服务报错Error: listen EADDRNOTAVAIL 192.168.1.137:8023
  14. 宁宛 机器人_忠犬机器人3
  15. DSPE-PEG-Cys/DQA/Rapamycin磷脂聚乙二醇修饰半胱氨酸/地喹氯铵/雷帕霉素
  16. xp关闭计算机没有反映,关机很慢—点击“开始—关闭计算机”后过了两三分钟才有反应,但XP其他一切正常,怎么回事?...
  17. 【BZOJ4094】 【Usaco2013 Dec】Optimal Milking(权限题)
  18. Linux下TBB安装及编译
  19. 阿里云安装部署Oracle11g 图文流程
  20. 【问题解决】ESP32报错:make: xtensa-esp32-elf-gcc: Command not found

热门文章

  1. LSTM网络层详解及其应用实例
  2. 常见电脑病毒及解决措施
  3. 某度文库付费文档下载,实测可用~
  4. jsp分页功能的位置有可能会影响到翻页时的查询条件
  5. 电信华为 HG526 破解 - 简易启用USB恢复
  6. Edraw Office Viewer Component Crack
  7. 计算机毕业设计Java宠物医院后台管理系统设计与实现(源码+系统+mysql数据库+lw文档)
  8. C#硬件开发源码集合
  9. 深入浅出统计学读后感
  10. startActivity报错exposed beyond app through Intent.getData()