MySQL/MariaDB中如何支持全部的Unicode

MySQL/MariaDB中如何支持全部的Unicode,博智网带你了解详细信息 。
目录

  • utf8mb4介绍
  • utf8字节数超出的报错
  • utf8mb4支持
  • 将默认字符编码设置为utf8mb4,及对应排序规则 。
    • 查看当前编码
    • 修改MySQL/Mariadb的配置文件,将utf8编码改为utf8mb4
    • 重启MySQL/MariaDB
    • 再次查看字符集和排序规则
    • character_set_filesystem和character_set_system的说明
    • 关于字符集设置的其他参考
  • 现有数据库切换字符集到utf8mb4的完整过程
    • 参考

      永远不要在 MySQL 中使用 utf8,并且始终使用 utf8mb4。

      utf8mb4介绍
      MySQL/MariaDB中,utf8字符集并不是对Unicode的真正实现,即不是真正的UTF-8编码,因为它支持最多3个字节的字符 。
      作为可变长字符编码,UTF-8最多支持4个字节,对于emoji、中日韩繁体等部分字符,需要使用4个字节才能完整存储 。也就是,如果想要支持全部的Unicode编码,MySQL/MariaDB中的utf8是不够的 。
      UTF-8 编码可以表示 Unicode 字符集中的每个符号,范围从 U+000000 到 U+10FFFF 。那是 1,114,112 个可能的符号(并非所有这些 Unicode 代码点都被分配了字符,但这并不影响UTF-8对其进行编码 。Unicode实际映射了字符的共有1,112,064个码位) 。UTF-8 是一种可变宽度编码;它使用一到四个(8位bit)字节对每个符号进行编码 。这样既可以节省存储低代码值的空间,
      又能充分表示所有的字符 。
      可以说UTF-8是最受欢迎的Unicode编码实现 。
      而MySQL/MariaDB真正实现UTF-8编码的是utf8mb4,最多支持4个字节的存储 。
      总共有 1,048,576 个无法使用的可能代码点 。MySQL 的 utf8 只允许存储所有可能的 Unicode 代码点的 5.88% ((0x00FFFF + 1) / (0x10FFFF + 1)) 。正确的 UTF-8 可以编码 100% 的所有 Unicode 代码点 。

      utf8字节数超出的报错
      如果使用utf8,存储emoji等4个字节的字符时,通常会报错 Error: 1366 错误:
      [Err] 1366 - Incorrect string value: '\xF0\x9F\x98\x93' for column 'xxx' at row xx
      [Error] 1366 - Incorrect string value: '\x...' for column 'xxx' at row xx

      utf8mb4支持
      MySQL/MariaDB 中的utf8mb4是对原先utf8只能存储3个字节大小的字符的一种补充,是一种真正的UTF-8编码 。
      MySQL/MariaDB中如何支持全部的Unicode


      MySQL/MariaDB中如何支持全部的Unicode


      MySQL 5.5.3+ 版本之后开始支持 。
      从 MySQL 8.0 开始默认的字符集已经变为 utf8mb4 。也就是使用MySQL 8.0及以上版本,就不用担心字节长度问题 。
      MariaDB 10.x 版本默认的字符集仍是 latin1 。因此通常情况下,应该修改为utf8mb4 。
      utf8mb4对应常用的排序规则为:utf8mb4_general_ci 和 utf8mb4_unicode_ci 。
      将默认字符编码设置为utf8mb4,及对应排序规则 。
      查看当前编码
      登陆MySQL/MariaDB之后,使用SHOW VARIABLES WHERE Variable_name LIKE 'character\_set\_%' OR Variable_name LIKE 'collation%';查看字符集和排序规则 。
      查看字符集:
      MariaDB [(none)]> show variables like 'character%';+--------------------------+------------------------------------------------+| Variable_name| Value|+--------------------------+------------------------------------------------+| character_set_client| gbk|| character_set_connection | gbk|| character_set_database| utf8|| character_set_filesystem | binary|| character_set_results| gbk|| character_set_server| utf8|| character_set_system| utf8|| character_sets_dir| C:\Program Files\MariaDB 10.3n\share\charsets\ |+--------------------------+------------------------------------------------+8 rows in set (0.043 sec)
      由于是在中文Windows下安装的,所以含有gbk 。

      修改MySQL/Mariadb的配置文件,将utf8编码改为utf8mb4
      • Linux系统下,修改 /etc/my.cnf 或 /etc/my.cnf.d/server.cnf 文件,在对应[mysql]、[mysqld]等下面添加内容如下:
      • Windows系统下,修改MySQL/Mariadb安装目录下data/my.ini文件,同样在对应[mysql]、[mysqld]等下面添加内容 。
      Linux下my.cnf :
      > vim /etc/my.cnf## This group is read both both by the client and the server# use it for options that affect everything#[client-server][mysqld]character-set-server = utf8mb4init_connect='SET NAMES utf8mb4'collation-server=utf8mb4_unicode_cicharacter-set-client-handshake=FALSE[client]default-character-set=utf8mb4[mysql]default-character-set=utf8mb4## include all files from the config directory#!includedir /etc/my.cnf.d

      推荐阅读