1. char16_t 与 char32_t

在 C++98 中,为了支持 Unicode 字符,使用 wchar_t 类型来表示“宽字符”,但并没有严格规定位宽,而是让 wchar_t 的宽度由编译器实现,因此不同的编译器有着不同的实现方式,GNU C++ 规定 wchar_t 为 32 位,Visual C++ 规定为 16 位。由于 wchar_t 宽度没有一个统规定,导致使用 wchar_t 的代码在不同平台间移植时,可能出现问题。这一状况在 C++11 中得到了一定的改善,从此 Unicode 字符的存储有了统一类型:

char16_t 用于存储 UTF-16 编码的 Unicode 字符
char32_t 用于存储 UTF-32 编码的 Unicode 字符

char16_t 和 char32_t 的宽度由其名称可以看出 char16_t 为 16bits,char32_t 为 32bits。至于使用 UTF-8 编码的 Unicode 字符,C++11 还是使用了 8bits 宽度的 char 类型数组来表示 。

除了使用新类型 char16_t 与 char32_t 来表示 Unicode 字符,此外,C++11 还新增了三种前缀来定义不同编码的字符或字符串,新增前缀如下:

u8 表示 UTF-8 编码
u 表示 UTF-16 编码
U 表示 UTF-32 编码

C++98 中有两种定义字符或字符串的方式,一是直接使用单引号或双引号定义多字节字符或字符串,二是通过前缀 L 表示 wchar_t 类型的宽字符或字符串。至此,C++ 中共有 5 种定义字符或字符串的方式。

在书写 Unicode 字符时,C++11 规定可以使用 \u 加上 4 个十六进制数或者使用 \U 加上 8 个十六进制数的 Unicode 码值来表示一个 Unicode 字符,比如汉字’你’可以表示如下:

char16_t c = u'\u4f60';
char32_t C = U'\U00004f60';

前缀 u 表示使用 UTF-16 编码存储 Unicode 字符,U 使用 UTF-32 编码存储 Unicode 字符。

2.影响字符串正确处理的因素

在使用不同方式定义不同编码的字符串时,我们需要注意影响字符串处理和显示的几个因素有编辑器、编译器和输出环境。

代码编辑器采用何种编码方式决定了字符串最初的编码,比如编辑器如果采用GBK,那么代码文件中的所有字符都是以GBK编码存储。当编译器处理字符串时,可以通过前缀来判断字符串的编码类型,如果目标编码与原编码不同,则编译器会进行转换,比如C++11中的前缀u8表示目标编码为UTF-8的字符,如果代码文件采用的是GBK,编译器按照UTF-8去解析字符串常量,则可能会出现错误。

//代码文件为GBK编码
#include <iomanip>
#include <iostream>
using namespace std;int main()
{const char* sTest = u8"你好";for(int i=0;sTest[i]!=0;++i){cout<<setiosflags(ios::uppercase)<<hex<<(uint32_t)(uint8_t)sTest[i]<<" ";}return 0;
}
//编译选项:g++ -std=c++0x -finput-charset=utf-8 test.cpp

程序输出结果:C4 E3 BA C3。这个码值是GBK的码值,因为“你”的GBK码值是0xC4E3,“好”的GBK码值是0xBAC3。可见,编译器未成功地将GBK编码的“你好”转换为UTF-8的码值“你”(E4 BD A0)“好”(E5 A5 BD),原因是使用编译选项-finput-charset=utf-8指定代码文件编码为UTF-8,而实际上代码文件编码为GBK,导致编译器出现错误的认知。如果使用-finput-charset=gbk,那么编译器在编译时会将GBK编码的“你好”转换为UTF-8编码,正确输出E4 BD A0 E5 A5 BD。

代码编辑器和编译器这两个环节在处理字符串如果没有问题,那么最后就是显示环节。字符串的正确显示依赖于输出环境。C++ 输出流对象 cout 能够保证的是将数据以二进制输出到输出设备,但输出设备(比如 Linux Shell 或者 Windows console)是否能够支持特定的编码类型的输出,则取决于输出环境。比如 Linux 虚拟终端 XShell,配置终端编码类型为 GBK,则无法显示 UTF-8 编码的字符串。

一个字符串从定义到处理再到输出,涉及到编辑器、编译器和输出环境三个因素,正确的处理和显示需要三个因素的共同保障,每一个环节都不能出错。

当然如果想避开编辑器编码对字符串的影响,可以使用 Unicode 码值来定义字符串常量,参看如下代码:

//代码文件使用 GBK 编码
#include <iomanip>
#include <iostream>
using namespace std;int main()
{const char* sTest = u8"\u4F60\u597D"; //"你好"的 unicode 码值分别是 0x4F60 和 0x597Dfor(int i=0;sTest[i]!=0;++i){cout<<setiosflags(ios::uppercase)<<hex<<(uint32_t)(uint8_t)sTest[i]<<" ";}return 0;
}
//编译选项:g++ -std=c++0x -finput-charset=utf-8 test.cpp

程序输出结果:E4 BD A0 E5 A5 BD。可见,即使不使用 UTF-8 编码表示字符串,程序仍然可以正确地以 UTF-8 编码输出“你好”的码值,所以直接书写 Unicode 码值来表示字符串是一种比较保险的做法,缺点是难以阅读。

3.Unicode 的库支持

C++11 在标准库中增加了一些 Unicode 编码转换的函数,开发人员可以使用库中的一些新增编码转换函数来完成各种 Unicode 编码间的转换,函数原型如下:

//多字节字符转换为UTF-16编码
size_t mbrtoc16 ( char16_t * pc16, const char * pmb, size_t max, mbstate_t * ps);//UTF-16字符转换为多字节字符
size_t c16rtomb ( char * pmb, char16_t c16, mbstate_t * ps );//多字节字符转换为UTF-32编码
size_t mbrtoc32 ( char32_t * pc32, const char * pmb, size_t max, mbstate_t * ps);//UTF-32字符转换为多字节字符
size_t c32rtomb ( char * pmb, char32_t c32, mbstate_t * ps );

函数名称中 mb 表示 multi-byte(多字节),rto 表示 convert to(转换为),c16 表示 char16_t,了解这些,可以根据函数名称直观的理解它们的作用。下面给一下 UTF-16 字符串转换为多字节字符串(以 GBK 为例)的例子:

#include <uchar.h>
#include <string.h>
#include <locale>
#include <iomanip>
#include <iostream>
using namespace std;int main()
{const char16_t* utf16 = u"\u4F60\u597D\u554A";size_t utf16Len=char_traits<char16_t>::length(utf16);  //字符数char* gbk =new char[utf16Len*2+1];memset(gbk,0, utf16Len * 2 + 1);char* pGbk = gbk;//目标多字节字符使用 GBK 编码setlocale(LC_ALL, "zh_CN.gbk");size_t length = 0;while (*utf16){pGbk += length;length = c16rtomb(pGbk, *utf16, nullptr);if (length == 0){//转换失败cout << "failed" << endl;break;}++utf16;}for (int i = 0; gbk[i] != 0; ++i){cout << setiosflags(ios::uppercase) << hex << (uint32_t)(uint8_t)gbk[i] << " ";}return 0;
}
//编译选项:g++ -std=c++0x test.cpp

程序输出结果:C4 E3 BA C3 B0 A1。可见,使用 c16rtomb() 完成了将“你好啊”从 UTF-16 到 GBK 的转换。上面的转换,我们用到了 locale 机制。locale 表示的是一个地域的特征,包括字符编码、数字时间表示形式、货币符号等。locale 串使用 “zh_CN.gbk” 表示目标多字节字符串使用 GBK 编码。

上面通过 Unicode 字符的转换来完成字符串的转换,实际上 C++ 提供了一个类模板 codecvt 用于完成 Unicode 字符串与多字节字符串之间的转换,主要分为 4 种:

codecvt<char,char,mbstate_t>    //performs no conversion
codecvt<wchar_t,char,mbstate_t>    //converts between native wide and narrow character sets
codecvt<char16_t,char,mbstate_t> //converts between UTF16 and UTF8 encodings, since C++11
codecvt<char32_t,char,mbstate_t> //converts between UTF32 and UTF8 encodings,since C++11

上面的 codecvt 实际上是 locale 的一个 facet,facet 可以简单地理解为 locale 的一些接口。通过codecvt,可以完成当前 locale 下多字节编码字符串与 Unicode 字符间的转换,也包括 Unicode 字符编码间的转换。这里的多字节字符串不仅可以是 UTF8,也可以是 GBK 或者其它编码,实际依赖于 locale 所采用的编码方式。每种 codecvt 负责不同类型编码的转换,但是目前编译器的支持情况并没有那么完整,一种 locale 并不一定支持所有的 codecvt,程序员可以通过 has_facet 函数模板来查询指定 locale 下的支持情况。参考代码如下:

#include <locale>
#include <iostream>
using namespace std;int main()
{//定义一个 locale 并查询该 locale 是否支持一些 facetlocale lc("zh_CN.gbk");bool can_cvt = has_facet<codecvt<char, char, mbstate_t>>(lc);if (!can_cvt)cout<<"do not support char-char facet"<<endl;can_cvt = has_facet<codecvt<wchar_t, char, mbstate_t>>(lc);if (!can_cvt)cout << "do not support wchar_t-char facet" << endl;can_cvt = has_facet<codecvt<char16_t, char, mbstate_t>>(lc);if (!can_cvt)cout << "do not support char16_t-char facet" << endl;can_cvt = has_facet<codecvt<char32_t, char, mbstate_t>>(lc);if (!can_cvt)cout << "do not support char32_t-char facet" << endl;
}
//编译选项:g++ -std=c++11 test.cpp
//g++版本:gcc version 4.8.5 20150623 (Red Hat 4.8.5-4) (GCC)

程序输出结果:

do not support char16_t-char facet
do not support char32_t-char facet

由此可见,从char到char16_t与char32_t转换的两种facet还没有被实验机使用的编译器支持。

假如实验机支持从 char 与 char16_t 的转换,可参考如下代码:

#include <uchar.h>
#include <string.h>
#include <locale>
#include <iomanip>
#include <iostream>
using namespace std;int main()
{typedef std::codecvt<char16_t,char,std::mbstate_t> facet_type;std::locale mylocale("zh_CN.gbk");try{const facet_type& myfacet = std::use_facet<facet_type>(mylocale);const char16_t* utf16 = u"\u4F60\u597D\u554A";      //你好啊size_t utf16Len = char_traits<char16_t>::length(utf16);cout<< utf16Len <<endl;char* gbk = new char[utf16Len*2+1];memset(gbk, 0, utf16Len * 2 + 1);std::mbstate_t mystate;                                //转换状态const char16_t* pwc;                              //from_nextchar* pc;                                            //to_nextfacet_type::result myresult = myfacet.out(mystate,utf16,utf16+utf16Len+1,pwc, gbk, gbk + utf16Len * 2+1, pc);if (myresult == facet_type::ok){std::cout << "Translation successful:" << endl;}for (int i = 0; gbk[i] != 0; ++i){cout << setiosflags(ios::uppercase) << hex << (uint32_t)(uint8_t)gbk[i] << " ";}delete[] gbk;}catch(...){cout<<"do not support char16_t-char facet"<<endl;return -1;}return 0;
}

由于实验环境并不支持 char 与 char16_t 相互转换的 facet,所以程序输出结果为:do not support char16_t-char facet。

4.u16string 与 u32string

C++11 新增了 UTF-16 和 UTF-32 编码的字符类型 char16_t 和 char32_t,当然少不了对应的字符串类型,分别是 u16string 与 u32string,二者类似于 string 与 wstring。四者的定义如下:

typedef basic_string<char> string;
typedef basic_string<wchar_t> wstring;
typedef basic_string<char16_t> u16string;
typedef basic_string<char32_t> u32string;

我们对 string 与 wstring 应该比较熟悉,对于 u16string 与 u32string 在用法上是差不多了,有相同的成员接口与类型,只需要记住其存储的字符编码类型不同即可。下面看一下 u16string 使用的简单示例。


#include <iomanip>
#include <iostream>
using namespace std;int main()
{u16string u16str = u"\u4F60\u597D\u554A";   //你好啊cout << u16str.length() << endl;           //字符数   for (int i = 0; i<u16str.length(); ++i){cout << setiosflags(ios::uppercase) << hex << (uint16_t)u16str[i] << " ";}
}

程序输出:

3
4F60 597D 554A

参考文献

[1] 深入理解C++11[M].C8.3Unicode支持.P274-284

C++11 Unicode 支持相关推荐

  1. [C++]各编译器对C++11的支持比较

    各编译器对C++11的支持比较 转载请注明出处为KlayGE游戏引擎,本文的永久链接为http://www.klayge.org/?p=2154 在KlayGE首次引入C++11特性之后,我顺便调研了 ...

  2. Spring框架5.1将提供对Java 11的支持

    SpringOne Platform会议最近在华盛顿特区举行,会上发布和宣布了诸多事项.在9月25日上午的主题演讲中,Spring框架的联合创始人兼Pivotal的首席工程师Juergen Hoell ...

  3. Android11还能自定义相机吗,安卓用户又少了一项自由,Android 11不再支持更改默认相机程序...

    原标题:安卓用户又少了一项自由,Android 11不再支持更改默认相机程序 来源:量子位 关注前沿科技 萧萧 发自 凹非寺 量子位 报道 | 公众号 QbitAI 萧萧 发自 凹非寺 量子位 报道 ...

  4. wxWidgets:wxWidgets 中的 Unicode 支持

    wxWidgets:wxWidgets 中的 Unicode 支持 wxWidgets:wxWidgets 中的 Unicode 支持 什么是统一码? Unicode 表示法和术语 wxWidgets ...

  5. Apache发布NetBeans 10.0,增强对JDK 11的支持

    Apache软件基金会最近发布了NetBeans 10.0,主要特性包括增强对JDK 11的支持.添加对JUnit 5的支持以及重新集成了PHP.JavaScript和Groovy模块.在路线图上,A ...

  6. linux g++开启C++11/14支持

    linux g++开启C++11/14支持 sudo vim ~/.bashrc 在some more ls aliases注释块的地方添加下面这两行: alias g++11='g++ -g -Wa ...

  7. 惊喜,Windows 11 竟然支持运行安卓应用,而且开发者收益 0 抽成,PC 端摸鱼不是梦...

    loonggg 读完需要 6 分钟 速读仅需 2 分钟 大家好,我是校长. 6 月 24 日,微软正式公布了下一代 Windows,也就是 Windows11,这是微软时隔六年带来的全新一代 Wind ...

  8. Windows 11 有望支持苹果 M1 Mac?微软和高通的秘密协议即将到期

    上个月 5 号,Windows 11 正式发布,虽然伴随着不断的骂声,但不可否认的是,还是有许多人想尝尝这"苹果味儿"的 Windows 界面,其中就包括部分 M1 Mac 用户. ...

  9. JAVA10和11什么时候_Java 11 正式发布 支持期限至2026年9月

    原标题:Java 11 正式发布 支持期限至2026年9月 美国当地时间9月25日,Oracle 官方宣布 Java 11 (18.9 LTS) 正式发布!这是自 Java 8 后的首个长期支持版本, ...

最新文章

  1. VS Debug和Release版本的区别
  2. js MediaSource h264
  3. 最长上升子序列(LIS)长度
  4. 1337:【例3-2】单词查找树
  5. layui totalRow 多层嵌套json_自定义 Behavior,实现嵌套滑动、平滑切换周月视图的日历...
  6. 算法的优缺点_逻辑回归算法的优缺点
  7. ELK logstash的grok 自定义正则匹配日志
  8. visio阵列_什么软件可以画这种图,Visio怎么画?
  9. SPSS23第二版课后习题答案_全新版大学进阶英语综合教程3 Unit1unit3课后习题答案...
  10. Windows 实时语音转文字|免费语音视频翻译转文字|语音会议记录方案
  11. Char类的常用方法及说明
  12. 信用卡被风控的原因是什么?如何应对风控?
  13. 在STM32上实现NTFS之4:GPT分区表的C语言实现(1):主GPT表头的实现
  14. 2016年下半年信息安全工程师上午选择题及解析
  15. 一起赚美元⑥ | 创立Discourse开源论坛软件每月赚取12万美元的故事
  16. 小程序源码:全网独家小程序版本独立微信社群人脉系统社群空间站最新源码开源+详细教程
  17. R语言-批量读取数据文件以及提取字符串中的数字
  18. FIFO,LPU,CLOCK时钟算法
  19. Windows7重装系统后文件夹权限的混乱
  20. MySQL 8 复制(四)——GTID与复制

热门文章

  1. Springboot 1.x 连接Oracle 10.2数据库
  2. java生成自定义标志、大小的二维码
  3. 微信团队分享:iOS版微信的高性能通用key-value组件技术实践
  4. nodejs pm2的简单应用
  5. Qt、GTK 和KDE、GNOME的关系-转
  6. 蓝桥杯 ADV-91 算法提高 素数判断
  7. 蓝桥杯 ALGO-96 算法训练 Hello World!
  8. LeetCode 386. Lexicographical Numbers
  9. 【iOS】Swift3 Swift2 String转int,从TextField里面获取Int类型的数值
  10. 解决办法:Transport security has blocked a cleartext HTTP (http://) resource load since it is insecure. T