一. MySQL 字符集和校对规则

MySQL 的字符集是用来定义 MySQL 存储字符串的方式,校对规则(有的软件叫排序规则)则是用来定义了比较字符串的方式。字符集和校对规则是一对多的关系。每种字符集都有一个默认校对规则。

查看数据库支持的字符集:

1
2
3
4
5
6
# 方法1
SHOW CHARACTER SET;

# 方法2
USE information_schema;
SELECT * FROM CHARACTER_SETS;

查看数据库支持的校对规则:

1
2
3
4
5
6
# 方法1
SHOW COLLATION;

# 方法2
USE information_schema;
SELECT * FROM collations;

二. MySQL 各个级别字符集

MySQL 可以对如下字符集进行设置:

  • 服务器级字符集(CHARACTER_SET_SERVER)
  • 数据库级字符集(CHARACTER_SET_DATABASE)
  • 表级字符集
  • 字段级字符集
  • 连接字符集(CHARACTER_SET_CONNECTION),客户端连接数据库所用的字符集。
  • 结果字符集(CHARACTER_SET_RESULTS),存储查询结果(含错误信息)所用的字符集。
  • 客户端字符集(CHARACTER_SET_CLIENT),客户端发送给 MySQL 服务器的查询语句字符集。
  • 系统字符集(CHARACTER_SET_SYSTEM),用于存储我们新建的或自带的数据库的表、列的名称,默认是 UTF-8

服务器级、数据库级、表级、字段级 这 4 个字符集设置影响到数据库中存储数据的编码。 这 4 个级别的字符集继承关系为:服务器级 --> 数据库级 --> 表级 --> 字段级, 从左到右,一级继承一级,和 C++、Java 中的类的继承类似,如果某一级未显式的指定字符集,那么将继承上一级的字符集设置。

2.1 服务器级别字符集设置

服务器级别的字符集可以从下面几个地方指定,从上到下优先级依次增加:

  • 编译 MySQL 时指定的字符集
  • my.cnf 配置文件设置 character-set-server
  • mysqld 服务启动命令行中指定字符集

影响数据存储的字符集之间的关系:

查看当前数据库的字符集设置:

1
2
3
4
5
6
# 方法1
SHOW VARIABLES LIKE '%character%';

# 方法2
USE information_schema;
SELECT * FROM GLOBAL_VARIABLES WHERE VARIABLE_NAME LIKE '%character%';

3. utf8 与 utf8mb4 区别

UTF-8 是多字节编码方案,采用 1~4 个字节来存储一个字符,但在 MySQL 设计之初,一个字符最多采用 3 个字节的就可以存储,所以 Mysql 的设计者将 MySQL 中的 UTF-8 字符集(UTF-8 其实不是字符集,是字符编码方案,但在 MySQL 中一直这么叫)设计成了最大长度只能为 3. 如图:

但随着 Unicode 字符集的扩张,出现了需要 4 个字节才能存储的字符,如果这时仍然使用 utf-8(指 mysql 中的 3 字节 utf-8)来存储这些字符就会出现错误,
如执行INSERT INTO member(memberName)VALUES('𤭢')报错如下:

1
2
Warning Code : 1366
Incorrect string value: '\xF0\xA4\xAD\xA2' for column 'memberName' at row 1

于是 MySQL 后来新增了 utf8mb4 字符集,最大长度为 4,兼容之前的 utf8,但为了之前的数据库不报错,仍然保留了之前的 utf8 字符集。 所以 MySQL 中的 UTF-8 字符集是伪 UTF-8,现在需要使用 utf8mb4。

4. 完全避免字符乱码

要完全避免字符乱码,最简单也是最好的方法就是将各个字符集保持一致,可以都设置为 utf8mb4。Mysql 数据存储涉及到的 4 个字符集的设置可以使用第 2 节的方法进行设置,客户端字符集、连接字符集,结果字符集关系到数据显示的正确性,可以使用如下语句统一设置为 utf8mb4,但这个设置只针对当前连接有效:

1
set names utf8mb4;

编程开发中,一般使用 MySQL API 进行数据连接、查询等操作,可以使用mysql_set_character_set对每个连接进行设置,这个 API 会将客户端字符集、连接字符集,结果字符集都设置为指定字符集,代码大致如下:

1
2
3
MYSQL* pMysql = NULL;
mysql_real_connect(pMysql, szHost, szUser, szPwd, szDatabase, iPort, NULL, CLIENT_MULTI_STATEMENTS);
mysql_set_character_set(pMysql, "utf8mb4");

文章图片带有“CSDN”水印的说明:
由于该文章和图片最初发表在我的CSDN 博客中,因此图片被 CSDN 自动添加了水印。