UNICODE

  计算机发明后,为了在计算机中表示字符,人们制定了一种编码,叫ASCII码。ASCII码由一个字节中的7位(bit)表示 ,范围是0x00 - 0x7F 共128个字符。他们以为这128个数字就足够表示abcd....ABCD....1234 这些字符了。 
咳......说英语的人就是“笨”!后来他们突然发现,如果需要按照表格方式打印这些字符的时候,缺少了“制表符”。于是又扩展了ASCII的定义,使用一个字节的全部8位(bit)来表示字符了,这就叫扩展ASCII码。范围是0x00 - 0xFF 共256个字符。 
       咳......说中文的人就是聪明!中国人利用连续2个扩展ASCII码的扩展区域(0xA0以后)来表示一个汉字,该方法的 标准叫GB-2312。后来,日文、韩文、阿拉伯文、台湾繁体(BIG-5)......都使用类似的方法扩展了本地字符集的定义, 现在统一称为 MBCS 字符集(多字节字符集。既:有2 个字节的字符,也有1个字节的字符)。这个方法是有缺陷的,因为 各个国家地区定义的字符集有交集,因此使用GB-2312的软件,就不能在BIG-5的环境下运行(显示乱码,因为:阿拉伯人 在机器上编写的阿拉伯文字,经过机器的字符编码,变成了一个特定的0x XXXX,而这个特定的0x XXXX字符到中国人的机 器上却不存在相对应的汉字,或者是相对应出的汉字 根本就与原来阿拉伯文字文章一点关系没有的,所以出现乱码),反 之亦然。 
       咳......说英语的人终于变“聪明”一些了。为了把全世界人民所有的所有的文字符号都统一进行编码,于是制定了UNICODE标准字符集。UNICODE 使用2个字节表示一个字符(unsigned shor int、WCHAR、_wchar_t、OLECHAR)。这下终 于好啦,全世界任何一个地区的软件,可以不用修改地就能在另一个地区运行了。虽然我用 IE 浏览日本网站,显示出我 不认识的日文文字,但至少不会是乱码了。UNICODE 的范围是 0x0000 - 0xFFFF 共6万多个字符,其中光汉字就占用了4 万多个。嘿嘿,中国人赚大了。

在程序中使用各种字符集的方法: 
const char * p = "Hello"; // 使用 ASCII 字符集 
const char * p = "你好"; // 使用 MBCS 字符集,由于 MBCS 完全兼容 ASCII,多数情况下,我们并不严格区分他们 
LPCSTR p = "Hello,你好"; // 意义同上

const WCHAR * p = L"Hello,你好"; // 使用 UNICODE 字符集 
LPCOLESTR p = L"Hello,你好"; // 意义同上

// 如果预定义了_UNICODE,则表示使用UNICODE字符集;如果定义了_MBCS,则表示使用 MBCS 
const TCHAR * p = _T("Hello,你好"); 
LPCTSTR p = _T("Hello,你好"); // 意义同上 
  

在上面的例子中,T是非常有意思的一个符号(TCHAR、LPCTSTR、LPTSTR、_T()、TEXT()、_TEXT()...),它表示使 用一种中间类型,既不明确表示使用 MBCS,也不明确表示使用 UNICODE。那到底使用哪种字符集那?嘿嘿......编译的时候决定吧。设置条件编译的方式是:VC6中,"Project\Settings...\C/C++卡片 Preprocessor definitions" 中添加或修改 _MBCS、_UNICODE;VC.NET中,"项目\属性\配置属性\常规\字符集"然后用组合窗进行选择。使用 T 类型,是非常 好的习惯,严重推荐!

举个例子: 
"abc"是非Unicode string, 
L"abc"是Unicode tring. L用来定义UNICODE字符串,L就是转换成宽字符 
其次:.NET 的平台CLR (Common Language RunTime库中用定义(#define) _UNICODE 来表示使用Unicode; 
在 Win32 API 中是用定义(#define) UNICODE 来表示使用 Unicode 。 
而大多数应用程序(Application)都是既使用CLR又使用Win32 API的,所以一般地,_UNICODE和UNICODE 应该在工程 中同时定义或同时不定义。 
_T("abc") 在_UNICODE已定义时解释成L"abc",是Unicode string; 
在_UNICODE 未定义时则解释成"abc",非Unicode string。 
TEXT("abc")类似,不过它是根据UNICODE 的定义与否来决定的。

再说以下: 
如果有下面三句话: 
TCHAR szStr1[] = TEXT("str1"); 
char szStr2[] = "str2"; 
WCHAR szStr3[] = L("str3"); 
那么第一句话在定义了UNICODE时会解释为第三句话,没有定义时就等于第二句话。 
第二句话无论是否定义了UNICODE都是生成一个ANSI字符串,而第三句话总是生成UNICODE字符串。 
为了程序的可移植性,建议都用第一中表示方法。

MultiByteToWideChar函数与 _T、TEXT() 这两个宏都可以选择 ASNI (MBCS) 还是 UNICODE 字符 
第一个函数转换的对象可以是常量、变量;第二、三只能转换常量。 
补充: 
LPSTR == char* 
LPCSTR == const char* LPCTSTR == const char* // Not defined _UNICODE, such as win9x 
LPCTSTR == const wchar_t* // defined _UNICODE, such as win2k LPWSTR == wchar_t* 
即: 
LPCSTR A 32-bit pointer to a constant character string. 
LPSTR A 32-bit pointer to a character string.

LPCTSTR A 32-bit pointer to a constant character string that is portable for Unicode and DBCS. LPTSTR A 32-bit pointer to a character string that is portable for Unicode and DBCS.

另外,如果嫌类型转换实在太麻烦的话,就把字符集设成“未设置”,修改之后通常需要清理解决方案,再重新生成, 
否则会出现错误:general error c101008a: Failed to save the updated manifest to the file ".\Debug\Test1.exe.embed.manifest". The parameter is incorrect. mt.exe

以上转自:http://hi.baidu.com/windtrace/item/097a52fba9491119e3e3bd4c

VC6这样的早期版本默认是用MBCS(多字节字符集)

下面用代码验证:

#include <IOSTREAM>
#include "TCHAR.H"
char *parr=new char[10];
char pa[10]={0};
TCHAR p[] = _T("ucnioa的博客!");int main()
{std::cout<<strlen(parr)<<std::endl;std::cout<<sizeof p<<std::endl;std::cout<<sizeof pa<<std::endl;return 0;
}

上述代码在VC6.0下运行的结果是:

将VS2010设置为“使用 Unicode 字符集”,运行上述代码结果如下:

由结果可得,对字符串p来说,使用多字节字符集时,占14字节(汉字占两个字节,字母占一个字节);而使用 Unicode 字符集时,占22字节(汉字和字母均占两个字节)。

UNICODE和ANSI以及MBCS的问题相关推荐

  1. 有关UNICODE、ANSI字符集和相关字符串操作的总结[转]

    Q UNICODE字符串如何显示 A 如果程序定义了_UNICODE宏直接用 WCHAR *str=L"unicodestring"; TextOut(0,0,str); 否则就需 ...

  2. 移植性问题のCString类型转换,字符串操作和UNICODE、ANSI字符集

    一.CString与LPCWSTR 两者的不同:LPCWSTR 是Unicode字符串指针,初始化时串有多大,申请空间就有多大,以后存贮若超过则出现无法预料的结果,这是它与CString的不同之处.而 ...

  3. UNICODE与ANSI的区别

    帮同学写个播放音乐的代码,用的是vs2005,本来调用下API中的mciSendSrring()就很容易解决,后发现老是有warning: incompatible types - from 'cha ...

  4. Unicode和ANSI之间转换 - NotePad++轻松实现

    今天碰到一个关于UNICODE和ANSI相互转换的问题,作为一个程序员,我首先想到的是用WideCharToMultiByte/MultiByteToWideChar实现,这个我想大家都会了,我也会在 ...

  5. 介绍一下unicode,ansi,utf-8,unicode big endian编码

    介绍一下unicode,ansi,utf-8,unicode big endian编码 很久很久以前,有一群人,他们决定用8个可以开合的晶体管来组合成不同的状态,以表示世界上的万物.他们看到8个开关状 ...

  6. 字符集和编码 UNICODE、ANSI、UTF-8、GB2312 都是什么鬼

    这是我在网上看到的一篇通俗易懂的教程,但是无法找到原作者的署名,故直接搬过来了 不是本人所作,特此声明 快下班时,爱问问题的小朋友Nico又问了一个问题: "sqlserver里面有char ...

  7. Unicode 和多字节字符集 (MBCS) 支持

    http://www.cnblogs.com/ccjt/p/4320244.html unicode和多字节字符集是两种不同的编码方式,不同的编码方式下,所对应的一些函数是不兼容的. 读到多字节菜单字 ...

  8. Unicode 转换为ANSI字符集的转换方法

    一.// 将Unicode 转换为ANSI //第一种办法是用W2A宏 wchar_t *szwSource = L"test string"; USES_CONVERSION; ...

  9. 用ATL的W2A和A2W宏转换Unicode与ANSI字符串

    1 #include 2 代码如下: 3 4 //使用ATL的W2A和A2W宏必须使用USES_CONVERSION 5 USES_CONVERSION; 6 7 //Unicode字符串 8 wch ...

  10. 在VS2010下使用 UNICODE 和 ANSI 的混合编程

    1,在VS2010 编译器的菜单上 "项目----属性---左侧的配置属性----常规---右侧的 字符集 "可以对项目所要使用的字符集进行定义,可以选择"使用Unico ...

最新文章

  1. python自动退出程序_python异常退出
  2. python最新版本-最新版Python 3.8.6 版本发布
  3. Linux 查看负载
  4. obs多推流地址_抖音obs推流直播怎么操作,抖音直播推流地址如何获取?
  5. unity粒子系统_【笔记】关于unity的粒子系统和UI之间的位置冲突解决
  6. 每个Java应用容器都要包含tomcat_部署一个不依赖tomcat容器的应用
  7. Sklearn参数详解—Adaboost
  8. Hadoop入门(十)Mapreduce高级shuffle之Sort和Group
  9. 大数据集群搭建之节点的网络配置过程(二)
  10. AC自动机 - 多模式串的匹配 --- HDU 3695 Computer Virus on Planet Pandora
  11. IDEA如何使用热部署方式启动项目?
  12. IdentityServer4实战 - 谈谈 JWT 的安全策略
  13. 单片机项目开发一般步骤
  14. CoolFire系列讲座 第4讲:字典档的维护及更新
  15. 查歌词php,php krc歌词解析
  16. 报错解决:Failed to load config “react-app“ to extend from.
  17. python编程入门——快乐的数字
  18. 2022年茶艺师(初级)考试练习题模拟考试平台操作
  19. BFC、文档流、脱离文档流
  20. [软件人生]关于离婚对孩子的影响——我想说,我经历

热门文章

  1. matlab 门函数频谱,时域门函数及门函数串的频谱分析
  2. Transmission搭建BT下载服务器
  3. Java面试题 — Java基础
  4. dpi shell命令 安卓_夏普手机免root,安装区域中文及隐藏虚拟按键和调整dpi的方法...
  5. 《近匠》专访启明星辰安全研究中心副总监侯浩俊——物联网安全攻防的“线上幽灵”...
  6. 厦门大学计算机学院控制系,厦门大学
  7. 人工智能——文本分类(大作业必备)
  8. Redux Reducer 的拆分
  9. 工具类库系列(六)-TimeTool
  10. 记录习惯【Unity 3D中3D场景下嵌套2D Canvas并实现窗口缩放】