前段时间往MySQL中存入emoji表情或生僻字、繁体字时,报错无法添加,研究后发现这是字符集编码的问题,今天就来分析一下各个字符集与排序规则

一、字符集

先说字符,字符是各种文字和符号的总称,包括各国家文字、标点符号、图形符号、字母、数字等,比如“啊、a、1、+、!、&”等均表示一个字符。在UTF8编码中,一个字母、数字、符号占一个字节,中文占三个字节,emoji表情和一些比较复杂的文字、繁体字则占四个字节。其中一个字节由8个位组成,位为数据存储的最小单位,每个二进制数字0或者1就是1个位。

换算公式:1byte(字节) = 8bit(位),1KB(千字节) = 1024byte(字节),1MB(兆) = 1024KB(千字节)。

字符集是一套符号和编码,是多个字符的集合。常见的字符集有UTF8、Unicode、GBK、GB2312、ASCCI。在MySQL中常用的字符集有UTF8和UTF8MB4这两种,一般而言我们选择UTF8MB4,而不选择UTF8,因为MySQL中的UTF8并不是真正的UTF8字符集,它只支持三个字节,emoji表情和复杂的文字无法存储,并不能代表全部的UTF8,在5.5.3版本后新增的支持四个字节的UTF8MB4才是真正的UTF8编码,为了更好的兼容性,推荐使用UTF8MB4字符集。

此外,对于CHAR类型数据,UTF8MB4会多消耗一些空间,比如CHAR(10),UTF8会保留30字节长度,UTF8MB4会保留40字节长度,根据MySQL官方建议,使用VARCHAR替代CHAR。同时UTF8MB4也是UTF8的超集,所以UTF8可以直接切换至UTF8MB4。

二、排序规则

排序规则,就是指字符比较时按照字符编码还是直接用二进制数据比较,以及是否区分大小写。UTF8MB4常用的排序规则有utf8mb4_unicode_ci、utf8mb4_general_ci、utf8mb4_bin。

其中,以bin结尾的是以二进制存储的,区分大小写,以cs结尾的是区分大小写的,以ci结尾的不区分大小写。

utf8mb4_unicode_ci是基于标准Unicode来排序和比较,能够在各种语言之间精确排序。且在特殊情况下,Unicode排序规则为了能够处理特殊字符的情况,实现了略微复杂的排序算法。但是在绝大多数情况下不会发生此类复杂比较。

utf8mb4_general_ci没有实现Unicode排序规则,在遇到某些特殊字符情况下,排序结果可能不一致。但是,在绝大多数情况下,这些特殊字符的顺序并不需要那么精确。

utf8mb4_bin将字符串的每个字符用二进制数据编译存储,区分大小写,可以存二进制的内容。

三、结论

综合来说,utf8mb4_unicode_ci比较准确,utf8mb4_general_ci速度较快。utf8mb4_unicode_ci对于特殊字符的处理,在中文、英文应用中不会使用到,除非你的应用有德语、法语、俄语等,则需要使用utf8mb4_unicode_ci,否则一般选用utf8mb4_general_ci就可以了。

mysql字符集的排序规则_MySql字符集与排序规则详解相关推荐

  1. mysql添加两种数据类型_MySQL入门(二) 数据库数据类型详解

    序言 今天去健身了,感觉把身体练好还是不错的,闲话不多说,把这个数据库所遇到的数据类型今天统统在这里讲清楚了,以后在看到什么数据类型,咱度应该认识,对我来说,最不熟悉的应该就是时间类型这块了.但是通过 ...

  2. mysql 8 my.cnf 配置文件_mysql之my.cnf配置文件详解

    # 以下选项会被MySQL客户端应用读取. # 注意只有MySQL附带的客户端应用程序保证可以读取这段内容. # 如果你想你自己的MySQL应用程序获取这些值. # 需要在MySQL客户端库初始化的时 ...

  3. mysql innodb 的锁机制_Mysql之Innodb锁机制详解

    InnoDB与MyISAM的最大不同有两点:一是支持事务(TRANSACTION):二是采用了行级锁.关于事务我们之前有专题介绍,这里就着重介绍下它的锁机制. 总的来说,InnoDB按照不同的分类共有 ...

  4. mysql 5.1默认缓存_mysql的innodb数据库引擎详解

    一.mysql体系结构和存储引擎 1.1.数据库和实例的区别 数据库:物理操作系统或其他形式文件类型的集合.在mysql下数据库文件可以是frm,myd,myi,ibd结尾的文件. 数据库实例:由数据 ...

  5. mysql 主键 自增_MySQL自增主键详解

    一.自增值保存在哪儿? 不同的引擎对于自增值的保存策略不同 1.MyISAM引擎的自增值保存在数据文件中 2.InnoDB引擎的自增值,在MySQL5.7及之前的版本,自增值保存在内存里,并没有持久化 ...

  6. mysql数据库语句左连接_MySQL 左连接 右连接 详解

    表A记录如下: aID        aNum 1           a20050111 2           a20050112 3           a20050113 4          ...

  7. mysql5.7.11 linux_CentOS 7 中以命令行方式安装 MySQL 5.7.11 for Linux Generic 二进制版本教程详解...

    MySQL 目前的最新版本是 5.7.11,在 Linux 下提供特定发行版安装包(如 .rpm)以及二进制通用版安装包(.tar.gz).一般情况下,很多项目都倾向于采用二进制通用安装包形式来进行安 ...

  8. mysql默认排序规则_mysql 字符集与排序规则的简单了解

    在创建数据库时候,会有字符集和排序规则的选项,太多的选项,就算盲选也有些为难,下面我们一起简单了解下: Navicat Premium 截图 这里先说我的做法,然后简单说下原因 字符集:utf8mb4 ...

  9. mysql字符集在哪设置_MySQL字符集设置

    最近,在项目组使用的mysql数据库中,插入数据出现乱码,关于这个问题做了下总结,我们从最基本的地方说起,到错误产生的深层次原因和解决办法. 基本概念 • 字符(Character)是指人类语言中最小 ...

  10. mysql 中日韩 乱码_mysql字符集及乱码问题

    MySQL中涉及的几个字符集 character-set-server/default-character-set:服务器字符集,默认情况下所采用的. character-set-database:当 ...

最新文章

  1. HALCON打开之后相机无法被别的程序找到解决方法
  2. handler消息机制
  3. git 清空log_[译] 我个人的 Git 技巧备忘录
  4. kvm服务器中心管理,IP KVM如何在公共场所数据中心合理应用
  5. 泰拉瑞亚试图加载不正确的_盘点那些著名的沙盒游戏?泰拉瑞亚堪称2D沙盒之王...
  6. SaaS产品服务进行网络推广的必要性
  7. CA SDK 使用简介
  8. 云计算中网络基础知识(升级版)
  9. 我的世界java怎么自制皮肤_我的世界手机版皮肤怎么做 自己做皮肤教程
  10. fMRI数据分析处理原理及方法fMRI数据分析处理原理及方法
  11. 思科三层交换机配置DHCP中继
  12. 人民币升值,贬值,顺差,逆差,货币国际化
  13. python的几次方_python 几次方
  14. 【搞定Java并发编程】第24篇:Java中的并发工具类之CountDownLatch
  15. JAVA面向对象程序设计-FeiGe快递系统-封装
  16. 【抗干扰代码】AVR单片机自动复位由于电压不足导致ENC28J60网卡出现的故障
  17. 有人负责,才有质量:写给在集市中迷失的一代(读后有感)
  18. centos6.5下搭建IHE
  19. 河大计算机2015年招生计划,河南大学招生计划
  20. 计算机桌面底下显示条,电脑屏幕出现条纹怎么办【图文教程】

热门文章

  1. 数据类型(Data Type)
  2. 元宇宙是什么?元宇宙真的会改变我们的生活吗?
  3. 【笔记】行测——常识判断之地理常识总结与归纳(一)
  4. 【Qt+VS】Qt图标不显示|Qt程序运行时图标不显示
  5. js灯箱_使用BaguetteBox.js创建响应式且精美的整页灯箱
  6. 在Python中编写动态SQL语句
  7. 你懂什么叫IPv4么?
  8. Intellij IDEA同时打开多个工程(项目)的方法
  9. 第一个项目测试个人工作总结
  10. html5多张背景图播放,4张照片制作相册视频添加大于5分钟的背景音乐 画面停留在最后一张图片继续播放音乐...