mbstowcs 和 wcstombs函数：C语言提供的宽字符和多字节字符转换函数

C语言中的多字节字符与宽字符
字符型char只占八位，存储ascii码的，而宽字符型是为了存储多国语言的代码unicode，包括中文，法语德语什么的，8位256种不够用了

C语言原本是在英文环境中设计的，主要的字符集是7位的ASCII码，8位的byte（字节）是最常见的字符编码单位。但是国际化软件必须能够表示不同的字符，而这些字符数量庞大，无法使用一个字节编码。
　　C95标准化了两种表示大型字符集的方法：宽字符（wide character，该字符集内每个字符使用相同的位长）以及多字节字符（multibyte character，每个字符可以是一到多个字节不等，而某个字节序列的字符值由字符串或流（stream）所在的环境背景决定）。

　　自从1994年的增补之后，C语言不只提供char类型，还提供wchar_t类型（宽字符），此类型定义在stddef.h 头文件中。wchar_t指定的宽字节类型足以表示某个实现版本扩展字符集的任何元素。

　　在多字节字符集中，每个字符的编码宽度都不等，可以是一个字节，也可以是多个字节。源代码字符集和运行字符集都可能包含多字节字符。多字节字符可以被用于字符的常量、字符串字面值（string literal）、标识符（identifier）、注释（comment），以及头文件。

　　C语言本身并没有定义或指定任何编码集合，或任何字符集（基本源代码字符集和基本运行字符集除外），而是由其实现指定如何编码宽字符，以及要支持什么类型的多字节字符编码机制。

　　虽然C标准没有支持Unicode字符集，但是许多实现版本使用Unicode转换格式UTF-16和UTF-32来处理宽字符。如果遵循Unicode标准，wchar_t类型至少是16或32位长，而wchar_t类型的一个值就代表一个Unicode字符。

　　UTF-8是一个由Unicode CONsortium（万国码联盟）定义的实现，可以表示Unicode字符集的所有字符。UTF-8字符所使用的空间大小从一个字节到四个字节都有可能。

　　多字节字符和宽字符（也就是wchar_t）的主要差异在于宽字符占用的字节数目都一样，而多字节字符的字节数目不等，这样的表示方式使得多字节字符串比宽字符串更难处理。比方说，即使字符'A'可以用一个字节来表示，但是要在多字节的字符串中找到此字符，就不能使用简单的字节比对，因为即使在某个位置找到相符合的字节，此字节也不见得是一个字符，它可能是另一个不同字符的一部分。然而，多字节字符相当适合用来将文字存储成文件。

　　C提供了一些标准函数，可以将多字节字符转换为wchar_t，或将宽字符转换为多字节字符。比方说，如果C 编译器使用Unicode 标准的UTF-16 和UTF-8，那么下面调用wctomb()函数就可以获得字符的多字节表示方式（注：wctomb = wide character to multibyte）。

在我们常用的类型string和char中，对中文支持并不是很好。在这两种类型中，中文都是两个字节，也就是说中文的汉字要占用两个位置，举个简单的例子，一个“汉”字用一个char是无法表示的，即 char c = '汉' ; 是错误的，必须用 char c[3] = "汉". 汉字占用两个字节，还有一个结尾符“0/”。string s = "汉" ; s.length()的值是2.

通过以上描述，我们会发现，我们在进行包含中文字符串处理的过程中就会遇到以下问题：在包含数字，字母，汉字的字符串处理中我们应该怎样应付各个字符占多少个字节？总不能在处理之前先转换成ASCII码判断它属于哪种字符在进行处理吧？中文取两个，字母和数字取一个。在进行判断相等与否时也遇到了问题。

mbstowcs 和 wcstombs函数：C语言提供的宽字符和多字节字符转换函数

本文介绍两个由C语言提供的宽字符(wchar_t类型)和多字节字符( 一个字符用一个或者多个字节表示) 转换函数，因此具有通用性（在Windows/Linux系统中都可以使用）：
所需头文件：#include <stdlib.h>
( 1 ) mbstowcs()
功能：把多字节字符转换成宽字符
原型：
size_t mbstowcs(wchar_t *wcstr,const char *mbstr,size_t count
);
参数：
1> wcstr 目标缓存，用来存放转换之后的宽字节字符；当取值为NULL时，返回值为目标缓存所需wchar_t类型的个数
2> mbstr 用来存放待转换的多字节字符串
3> count 用来指定最多转换多少Byte。当wcstr取值为NULL时，该值无用
返回值：
转换成功，且wcstr == NULL时，返回目标缓存所需的大小（wchar_t 类型个数，但不含终结符）；
转换成功，且wcstr != NULL时，返回转换的字节数；
转换不成功，返回(size_t) (-1)；
使用步骤：
1) 调用mbstowcs()函数，设置参数 wcstr 为NULL（用以获取转换所需的接收缓冲区大小）；
2) 给目标缓存区分配足够的内存块，用于存放转换后的wchar_t字符串；
注意：该内存块的大小由首次调用mbstowcs()函数的返回值来决定（该返回值不包含终止符的空间）
3) 再次调用mbstowcs()函数，这次将目标缓存的地址作为 wcstr 参数来传递；
代码示例：
[cpp] view plaincopy
strcpy(sBuf, "我最棒");
size_t sSize=strlen(sBuf);  wchar_t * dBuf=NULL;  <SPAN style="COLOR: #ff0000">//注意：需要多分配一个空间，以存放终止符</SPAN>
int dSize=mbstowcs(dBuf, sBuf, 0)+1;  dBuf=new wchar_t[dSize];
wmemset(dBuf, 0, dSize);  int nRet=mbstowcs(dBuf, sBuf, sSize);
if(nRet<=0)
{  printf("转换失败\n");
}
else
{  printf("转换成功%d字符\n", nRet);  wprintf(L"%ls\n", dBuf);
}
[cpp] view plain copy
strcpy(sBuf, "我最棒");
size_t sSize=strlen(sBuf);  wchar_t * dBuf=NULL;  <span style="color:#ff0000;">//注意：需要多分配一个空间，以存放终止符</span>
int dSize=mbstowcs(dBuf, sBuf, 0)+1;  dBuf=new wchar_t[dSize];
wmemset(dBuf, 0, dSize);  int nRet=mbstowcs(dBuf, sBuf, sSize);
if(nRet<=0)
{  printf("转换失败\n");
}
else
{  printf("转换成功%d字符\n", nRet);  wprintf(L"%ls\n", dBuf);
}
( 2 ) wcstombs()
功能：
把宽字符把转换成多字节字符串
原型：
size_t wcstombs(char *mbstr,const wchar_t *wcstr,size_t count
);
参数：
1> wcstr 目标缓存，用来存放转换之后的多字节字符；当取值为NULL时，返回值为目标缓存所需wchar_t类型的个数；
2> mbstr 用来存放待转换的宽字符；
3> count 用来指定接收缓存里能够存储的最大的字节数；
返回值：
转换成功，且mbstr == NULL时，返回目标缓存所需的大小（char 类型个数，但不含终结符）；
转换成功，且mbstr != NULL时，返回转换的字节数；
转换不成功，返回(size_t)(-1)；
注意：If wcstombs encounters a wide character it cannot be convert to a multibyte character, it returns –1 cast to type size_t.
使用方法：
与mbstowcs()方法类似
示例代码：
[cpp] view plaincopy
wchar_t sBuf[20]={0};
wcscpy(sBuf, L"Hello");
size_t sSize=wcslen(sBuf);  char * dBuf=NULL;  int dSize=wcstombs(dBuf, sBuf, 0)+1;
printf("需要%d Char\n", dSize);  dBuf=new char[dSize];
memset(dBuf, 0, dSize);  int nRet=wcstombs(dBuf, sBuf, dSize);  if(nRet<=0)
{  printf("转换失败\n");
}
else
{  printf("转换成功%d字符\n", nRet);  printf("%s\n", dBuf);
}
[cpp] view plain copy
wchar_t sBuf[20]={0};
wcscpy(sBuf, L"Hello");
size_t sSize=wcslen(sBuf);  char * dBuf=NULL;  int dSize=wcstombs(dBuf, sBuf, 0)+1;
printf("需要%d Char\n", dSize);  dBuf=new char[dSize];
memset(dBuf, 0, dSize);  int nRet=wcstombs(dBuf, sBuf, dSize);  if(nRet<=0)
{  printf("转换失败\n");
}
else
{  printf("转换成功%d字符\n", nRet);  printf("%s\n", dBuf);
}
上面的代码在转换英文的时候没有问题，在转换中文时，wcstombs()函数会返回-1
注意：
宽字节，即wchar_t 类型采用Unicode编码方式，在Windows中为utf-16，在Linux中为utf-32
而多字节则可能是其他很多编码方式，如utf-8、GB232....
因此，需要指定多字节编码类型，才能进行正常的转换过程。
设置或获取多字节编码方式用函数：setlocale()
所需头文件：locale.h
#include <locale.h>

mbstowcs 和 wcstombs函数：C语言提供的宽字符和多字节字符转换函数相关推荐

C语言中宽字符和多字节字符
C 语言原本是在英文环境中设计的,主要的字符集是7 位的ASCII 码.从此开始,8 位的byte(字节)变成最常见的字符编码单位,但是国际化软件必须能够表示不同的字符,而这些字符数量庞大,无法使用一 ...
c语言读取文件函数,C语言文件操作详细分析：读取文件(fread函数使用)
C语言文件操作详细分析:读取文件(fread函数使用) 这里详细介绍了C语言读取文件的函数fread的使用说明,参照了MSDN的说明,同时加入自己的经验让大家学的更加明白. C语言读取文件函数frea ...
函数c语言画箭头_什么时候不使用箭头函数
我自己是一名从事了多年开发的web前端老程序员,目前辞职在做自己的web前端私人定制课程,今年年初我花了一个月整理了一份最适合2019年学习的web前端学习干货,各种框架都有整理,送给每一位前端小伙伴 ...
1071svm函数 r语言_如何利用R语言中的rpart函数建立决策树模型
决策树是根据若干输入变量的值构造出一个适合的模型,以此来预测输出变量的值,并用树形结构展示出来.决策树主要有两个类别:分类树和回归树.分类树主要针对离散的目标变量,回归树则针对连续的目标变量.R语言中 ...
c语言的四个函数,C语言学习之动态内存分配的四个函数
前面中我们了解到: int n; int arr[n]; 这样定义数组是不可取的,不能用此方法给数组分配动态内存,那怎么样才能实现这种可能呢? 接下来我将关于动态内存的知识做以下总结. 有关动态内存的 ...
c语言编程矩阵鞍点函数,c语言任意输入一个3×3的矩阵，用函数实现求上三角矩阵并输出。...
满意答案第一题#include void shangsan(int (*p)[3]) { for(int i=0;i<3;i++) { for(int j=0;j<3;j++) { if ...
gmt时间转化函数c语言,时区缩写 UTC, CST, GMT, CEST 以及转换(示例代码)
UTC是协调世界时(Universal Time Coordinated)英文缩写,是由国际无线电咨询委员会规定和推荐,并由国际时间局(BIH)负责保持的以秒为基础的时间标度.UTC相当于本初子午线( ...
【转】python中的字符数字之间的转换函数
int(x [,base ]) 将x转换为一个整数 long(x [,base ]) 将x转换为一个长整数 float(x ) ...
python中的字符数字之间的转换函数
转自http://www.cnblogs.com/wuxiangli/p/6046800.html int(x [,base ]) 将x转换为一个整数 long(x [,base ]) ...

mbstowcs 和 wcstombs函数：C语言提供的宽字符和多字节字符转换函数

mbstowcs 和 wcstombs函数：C语言提供的宽字符和多字节字符转换函数相关推荐

最新文章

热门文章