暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

MySQL 数据库的“十宗罪”(附十大经典错误案例)

数据和云 2017-07-30
269

作者题记:本文列举 MySQL 数据库中,最经典的十大错误案例,并附有处理问题的解决思路和方法。希望能给刚入行,或数据库爱好者一些帮助,今后再遇到任何报错,我们都可以很淡定地去处理。


作者介绍:

张甦  某数据库服务类公司高管,兼数据库资深讲师

近 10 年互联网线上处理经验及培训经验,擅长 MySQL,MongoDB,Oracle 等数据的管理与优化。曾就职于某大型电商平台,汽车类网站等大型互联网公司。参与过电商店庆、中国移动公司的 MySQL 优化、联想研究院的 mongodb 后期架构设计与库表优化、某汽车类公司的 MySQL 初期建模设计与架构规划,后期优化、某知名门户网站读书部门的 Hadoop 搭建与分析管理、居然之家的 Oracle 集群管理等典型项目。


老张我在刚开始学习数据库的时候,没少走弯路。经常会遇到各种稀奇古怪的 error 信息,遇到报错会很慌张,急需一个解决问题的办法。跟无头苍蝇一样,会不加思索地把错误粘到百度上,希望赶紧查找一下有没有好的处理问题的方法。

我想上述这个应该是刚从事数据库的小白都会遇到的窘境。今天就给大家列举 MySQL 数据库中,最经典的十大错误案例,并附有处理问题的解决思路和方法。

希望能给刚入行,或数据库爱好者一些帮助,今后再遇到任何报错,我们都可以很淡定地去处理。

学习任何一门技术的同时,其实就是自我修炼的过程。沉下心,尝试去拥抱数据的世界!

Top1

Too many connections(连接数过多,导致连接不上数据库,业务无法正常进行)


问题还原:

解决问题的思路:

1、首先先要考虑在我们 MySQL 数据库参数文件里面,对应的 max_connections 这个参数值是不是设置的太小了,导致客户端连接数超过了数据库所承受的最大值。

  • 该值默认大小是 151,我们可以根据实际情况进行调整。

  • 对应解决办法:set global max_connections=500

但这样调整会有隐患,因为我们无法确认数据库是否可以承担这么大的连接压力,就好比原来一个人只能吃一个馒头,但现在却非要让他吃 10 个,他肯定接受不了。反应到服务器上面,就有可能会出现宕机的可能。

所以这又反映出了,我们在新上线一个业务系统的时候,要做好压力测试。保证后期对数据库进行优化调整。

2、其次可以限制 Innodb 的并发处理数量,如果 innodb_thread_concurrency = 0(这种代表不受限制) 可以先改成 16 或是 64 看服务器压力。

如果非常大,可以先改的小一点让服务器的压力下来之后,然后再慢慢增大,根据自己的业务而定,个人建议可以先调整为 16 即可。

MySQL 随着连接数的增加性能是会下降的,在 MySQL 5.7 之前都需要让开发配合设置 thread pool,连接复用。MySQL 5.7 之后数据库自带 thread pool 了,连接数问题也得到了相应的解决。

另外对于有的监控程序会读取 information_schema 下面的表,可以考虑关闭下面的参数:

  • innodb_stats_on_metadata=0

  • set global innodb_stats_on_metadata=0

Top2

(主从复制报错类型)

针对这个报错,我们首先要考虑是不是在从库中误操作导致的。结果发现,我们在从库中进行了一条针对有主键表的 sql 语句的插入,导致主库再插入相同 sql 的时候,主从状态出现异常。发生主键冲突的报错。

解决方法:

在确保主从数据一致性的前提下,可以在从库进行错误跳过。一般使用 percona-toolkit 中的 pt-slave-restart 进行。

在从库完成如下操作:

  • [root@zs bin]# ./pt-slave-restart -uroot -proot123

  • 2017-07-20T14:05:30 p=...,u=root node4-relay-bin.000002 1506 1062

之后最好在从库中开启 read_only 参数,禁止在从库进行写入操作。

Last_IO_Errno: 1593(server-id冲突)

这个报错出现之后,就能一目了然看到两台机器的 server-id 是一样的。

在搭建主从复制的过程中,我们要确保两台机器的 server-id 是唯一的。这里再强调一下 server-id 的命名规则(服务器 ip 地址的最后一位+本 MySQL 服务的端口号)。

解决方法:

在主从两台机器上设置不同的 server-id。

Last_SQL_Errno: 1032(从库少数据,主库更新的时候,从库报错)


解决问题的办法:

根据报错信息,我们可以获取到报错日志和position号,然后就能找到主库执行的哪条sql,导致的主从报错。

在主库执行:

获取到 sql 语句之后,就可以在从库反向执行 sql 语句。把从库缺少的 sql 语句补全,解决报错信息。

在从库依次执行:

Top

3

MySQL安装过程中的报错

解决思路:

遇到这样的报错信息,我们要学会时时去关注错误日志 error log 里面的内容。看见了关键的报错点Permission denied,证明当前 MySQL 数据库的数据目录没有权限。

解决方法:

启动成功。

如何避免这类问题,个人建议在安装 MySQL 初始化的时候,一定加上--user=mysql,这样就可以避免权限问题。


./mysql_install_db --basedir=/usr/local/mysql/ 

--datadir=/data/mysql/ 

--defaults-file=/etc/my.cnf --user=mysql 


Top

4

数据库密码忘记的问题

我们有可能刚刚接手别人的 MySQL 数据库,而且没有完善的交接文档。root 密码可以丢失或者忘记了。

解决思路:

目前是进入不了数据库的情况,所以我们要考虑是不是可以跳过权限。因为在数据库中,MySQL数据库中 user 表记录着我们用户的信息。

解决方法:

启动 MySQL 数据库的过程中,可以这样执行:

这样启动,就可以不用输入密码,直接进入 MySQL 数据库了。然后在修改你自己想要改的 root 密码即可。


Top

5

truncate 删除数据,导致自动清空自增 ID,前端返回报错 not found

这个问题的出现,就要考虑下 truncate 和 delete 的区别了,看下实验演练:

首先先创建一张表:

插入三条数据:


先用 delete 进行删除全表信息,再插入新值。

结果发现 truncate 把自增初始值重置了,自增属性从 1 开始记录了。当前端用主键 id 进行查询时,就会报没有这条数据的错误。

个人建议不要使用 truncate 对表进行删除操作,虽然可以回收表空间,但是会涉及自增属性问题。这些坑,我们不要轻易钻进去。

Top

6

阿里云 MySQL 的配置文件

阿里云 MySQL 的配置文件中,需要注意一个参数设置就是:

  • lower_case_table_names = 0;默认情况。

  • lower_case_table_names = 1;是不是区分大小写。

如果报你小写的表名找不到,那你就把远端数据库的表名改成小写,反之亦然。注意 Mybatis 的 Mapper 文件的所有表名也要相应修改。

Top

7

数据库总会出现中文乱码的情况

有同学经常会问,为什么我的数据库总会出现中文乱码的情况。一堆中文乱码不知道怎么回事?当向数据库中写入创建表,并插入中文时,会出现这种问题。此报错会涉及数据库字符集的问题。

解决思路:

对于中文乱码的情况,记住老师告诉你的三个统一就可以。还要知道在目前的 MySQL 数据库中字符集编码都是默认的 UTF8。

处理办法:

  • 数据终端,也就是我们连接数据库的工具设置为 utf8。

  • 操作系统层面,可以通过 cat etc/sysconfig/i18n 查看,也要设置为 utf8。

  • 数据库层面,在参数文件中的 mysqld 下,加入 character-set-server=utf8。

Emoji 表情符号录入 MySQL 数据库中报错:

解决思路:

针对表情插入的问题,一定还是字符集的问题。

处理方法:

我们可以直接在参数文件中,加入:

注:utf8mb4 是 utf8 的超集。

Top

8

使用 binlog_format=statement 这种格式,跨库操作,导致从库丢失数据,用户访问导致出现错误数据信息

当前数据库二进制日志的格式为:binlog_format=statement

在主库设置 binlog-do-db=mydb1(只同步mydb1这一个库)。

在主库执行 use mydb2;

insert into mydb1.t1 values ('bb');这条语句不会同步到从库。

但是这样操作就可以;

use mydb1;

insert into mydb1.t1 values ('bb');因为这是在同一个库中完成的操作。

在生产环境中建议使用binlog的格式为row,而且慎用 binlog-do-db 参数。

Top

9

MySQL 数据库连接超时的报错

大多数做 DBA 的同学,可能都会被开发人员告知,你们的数据库报了这个错误了,赶紧看看是哪里的问题。

这个问题是由两个参数影响的,wait_timeout 和 interactive_timeout。

数据默认的配置时间是 28800(8小时)意味着,超过这个时间之后,MySQL 数据库为了节省资源,就会在数据库端断开这个连接,MySQL 服务器端将其断开了,但是我们的程序再次使用这个连接时没有做任何判断,所以就挂了。

解决思路:

先要了解这两个参数的特性,这两个参数必须同时设置,而且必须要保证值一致才可以。

我们可以适当加大这个值,8 小时太长了,不适用于生产环境。因为一个连接长时间不工作,还占用我们的连接数,会消耗我们的系统资源。

解决方法:

可以适当在程序中做判断,强烈建议在操作结束时更改应用程序逻辑以正确关闭连接,然后设置一个比较合理的 timeout 的值(根据业务情况来判断)。

Top

10

can't open file (errno:24)

有的时候,数据库跑得好好的,突然报不能打开数据库文件的错误了。

解决思路:

首先我们要先查看数据库的 error log。然后判断是表损坏,还是权限问题。还有可能磁盘空间不足导致的不能正常访问表;操作系统的限制也要关注下;用 perror 工具查看具体错误!

超出最大打开文件数限制!ulimit -n 查看系统的最大打开文件数是 65535,不可能超出!那必然是数据库的最大打开文件数超出限制!

在 MySQL 里查看最大打开文件数限制命令:show variables like 'open_files_limit';

发现该数值过小,改为 2048,重启 MySQL,应用正常。

处理方法:

repair table ;

chown mysql 权限

清理磁盘中的垃圾数据

今后还会继续总结 MySQL 中的各种报错处理思路与方法,希望跟各位老铁们,同学们一起努力。多沟通多交流!


文章转载自数据和云,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论