记一次Mysql故障排查(lock wait timeout exceeded;try restarting transaction)

记一次Mysql故障排查(lock wait timeout exceeded;try restarting transaction),第1张

最近接了一个锅,进入新公司接手了一个进入交付阶段的项目.在code review的时候发现很多问题,然后开始修复bug.

在测试阶段突然发现几乎所有涉及到更新的 *** 作都失败,下面贴出异常信息.

第一次 出现的时候百度了一下,猜想可能是多服务部署资源冲突,重启服务故障消失.所以没有特别重视

第二次 出现的时候只有测试环境部署,不存在多机资源冲突的问题,猜想是多线程资源交叉导致的,于是给可能导致资源竞争的地方加上了分布式锁.

由于无法重现故障,所以并没有确认问题得到解决.

第三次 故障依旧,当发现问题依然存在的时候,开始认真反思,发现自己解决问题的思路明显有问题,过于片面,一直都只在应用层面寻求解决问题的办法,而且解决问题的方式也只是在尝试百度出来的方法.并没有去思考更深层的问题.

在Mysql5.5中,information_schema 库中增加了三个关于锁的表(MEMORY引擎);

INNODB_TRX ## 当前运行的所有事务

INNODB _LOCKS ## 当前出现的锁

INNODB_LOCK_WAITS ## 锁等待的对应关系

通过查询 INNODB_TRX 发现

当前事务中又两个RUNNING状态开始时间在一个小时之前

开始一直以为是锁表了

查看了 INNODB _LOCKS  事务信息之后发现有4行数据被锁住了一直没有释放

从这里开始发现问题了,应用已经抛了异常,事务理所当然的应该回滚才对,为什么资源依然没有释放,导致持续的阻塞呢?

其实最开始的异常信息就已经给出了答案,回到开始的地方,再看异常信息就很清楚了,应用里面的异常类是 MySQLTransactionRollBackException

是一个回滚异常, 这就说明在事务回滚的时候出了问题资源没有得到释放

然后开始查询 MySQLTransactionRollBackException  相关的信息

这个时候 innodb_rollback_on_timeout =0(默认配置)这个MySQL的配置开始进入我的视线,

举个栗子

事务在锁等待超时后是回滚事务内所有的statement还是最后一条语句;

 0表示rollback最后一条语句,默认值; 有点坑爹啊( 细思极恐 )

 1表示回滚事务内所有的statements;(此参数是只读参数,需在my.cnf中配置,并且重启生效;)

吃过一次亏,这次并没有盲目的相信百度到的信息

于是开始测试

一、验证innodb_rollback_on_timeout=off的情况

1.session A

    开启事务,事务未提交,锁住id=1的数据

2.session B 

开启事务,执行更新id=2的数据成功(事务未提交,锁住id=2),然后请求id=1等待锁超时,id=2的数据更改为222.

3.session C

请求id=2的数据50秒后显示等待锁超时

执行 SELECT * FROM information_schema.INNODB_TRX

可发现有资源一直未释放,具体到测试数据中就是id=2的资源一直被锁定,线程一直被挂起.

总结:通过实验基本可以确定是业务资源交叉导致死锁之后资源没释放造成的持续阻塞,

二.验证innodb_rollback_on_timeout=on

修改配置后将验证innodb_rollback_on_timeout=off的步骤再走一遍

发现锁等待只能在业务层面尽量避免

on/off的区别在于session C进入时不会持续阻塞,session B异常后全部回滚

 服务器错误信息来自下述源文件

· 错误消息信息列在share/errmsg.txt文件中。“%d”和“%s”分别代表编号和字符串,显示时,它们将被消息值取代。

错误值列在share/errmsg.txt文件中,用于生成include/mysqld_error.h和include/mysqld_ername.h

MySQL源文件中的定义。

· SQLSTATE值列在share/errmsg.txt文件中,用于生成include/sql_state.h

MySQL源文件中的定义。

由于更新很频繁,这些文件中可能包含这里未列出的额外错误消息。

· 错误:1000 SQLSTATE:

HY000 (ER_HASHCHK)

消息:hashchk

· 错误:1001 SQLSTATE: HY000

(ER_NISAMCHK)

消息:isamchk

· 错误:1002 SQLSTATE: HY000 (ER_NO)

消息:NO

· 错误:1003 SQLSTATE: HY000 (ER_YES)

消息:YES

· 错误:1004 SQLSTATE: HY000 (ER_CANT_CREATE_FILE)

消息:无法创建文件'%s'

(errno: %d)

· 错误:1005 SQLSTATE: HY000 (ER_CANT_CREATE_TABLE)

消息:无法创建表'%s' (errno: %d)

· 错误:1006 SQLSTATE: HY000

(ER_CANT_CREATE_DB)

消息:无法创建数据库'%s' (errno: %d)

· 错误:1007

SQLSTATE: HY000 (ER_DB_CREATE_EXISTS)

消息:无法创建数据库'%s',数据库已存在。

·

错误:1008 SQLSTATE: HY000 (ER_DB_DROP_EXISTS)

消息:无法撤销数据库'%s',数据库不存在。

· 错误:1009 SQLSTATE: HY000 (ER_DB_DROP_DELETE)

消息:撤销数据库时出错(无法删除'%s',errno: %d)

· 错误:1010 SQLSTATE: HY000

(ER_DB_DROP_RMDIR)

消息:撤销数据库时出错(can't rmdir '%s', errno: %d)

·

错误:1011 SQLSTATE: HY000 (ER_CANT_DELETE_FILE)

消息:删除'%s'时出错 (errno: %d)

· 错误:1012 SQLSTATE: HY000 (ER_CANT_FIND_SYSTEM_REC)

消息:无法读取系统表中的记录。

· 错误:1013 SQLSTATE: HY000 (ER_CANT_GET_STAT)

消息:无法获取'%s'的状态(errno: %d)

· 错误:1014 SQLSTATE: HY000

(ER_CANT_GET_WD)

消息:无法获得工作目录(errno: %d)

· 错误:1015 SQLSTATE:

HY000 (ER_CANT_LOCK)

消息:无法锁定文件(errno: %d)

· 错误:1016 SQLSTATE:

HY000 (ER_CANT_OPEN_FILE)

消息:无法打开文件:'%s' (errno: %d)

· 错误:1017

SQLSTATE: HY000 (ER_FILE_NOT_FOUND)

消息:无法找到文件: '%s' (errno: %d)

· 错误:1018 SQLSTATE: HY000 (ER_CANT_READ_DIR)

消息:无法读取'%s'的目录

(errno: %d)

· 错误:1019 SQLSTATE: HY000 (ER_CANT_SET_WD)

消息:无法为'%s'更改目录 (errno: %d)

· 错误:1020 SQLSTATE: HY000

(ER_CHECKREAD)

消息:自上次读取以来表'%s'中的记录已改变。

· 错误:1021 SQLSTATE: HY000

(ER_DISK_FULL)

消息:磁盘满(%s);等待某人释放一些空间...

· 错误:1022 SQLSTATE:

23000 (ER_DUP_KEY)

消息:无法写入;复制表'%s'的 键。

· 错误:1023 SQLSTATE: HY000

(ER_ERROR_ON_CLOSE)

消息:关闭'%s'时出错 (errno: %d)

· 错误:1024 SQLSTATE:

HY000 (ER_ERROR_ON_READ)

消息:读取文件'%s'时出错 (errno: %d)

· 错误:1025

SQLSTATE: HY000 (ER_ERROR_ON_RENAME)

消息:将'%s'重命名为'%s'时出错 (errno: %d)

· 错误:1026 SQLSTATE: HY000 (ER_ERROR_ON_WRITE)

消息:写入文件'%s'时出错

(errno: %d)

· 错误:1027 SQLSTATE: HY000 (ER_FILE_USED)

消息:'%s'已锁定,拒绝更改。

· 错误:1028 SQLSTATE: HY000 (ER_FILSORT_ABORT)

消息:分类失败

· 错误:1029 SQLSTATE: HY000 (ER_FORM_NOT_FOUND)

消息:对于'%s',视图'%s'不存在。

· 错误:1030 SQLSTATE: HY000 (ER_GET_ERRNO)

消息:从存储引擎中获得错误%d。

· 错误:1031 SQLSTATE: HY000 (ER_ILLEGAL_HA)

消息:关于'%s'的表存储引擎不含该选项。

· 错误:1032 SQLSTATE: HY000

(ER_KEY_NOT_FOUND)

消息:无法在'%s'中找到记录。

· 错误:1033 SQLSTATE: HY000

(ER_NOT_FORM_FILE)

消息:文件中的不正确信息:'%s'

· 错误:1034 SQLSTATE: HY000

(ER_NOT_KEYFILE)

消息:对于表'%s', 键文件不正确,请尝试修复。

· 错误:1035 SQLSTATE:

HY000 (ER_OLD_KEYFILE)

消息:旧的键文件,对于表'%s',请修复之!

· 错误:1036

SQLSTATE: HY000 (ER_OPEN_AS_READONLY)

消息:表'%s'是只读的。

· 错误:1037

SQLSTATE: HY001 (ER_OUTOFMEMORY)

消息:内存溢出,重启服务器并再次尝试(需要%d字节)。

·

错误:1038 SQLSTATE: HY001 (ER_OUT_OF_SORTMEMORY)

消息:分类内存溢出,增加服务器的分类缓冲区大小。

· 错误:1039 SQLSTATE: HY000 (ER_UNEXPECTED_EOF)

消息:读取文件'%s'时出现意外EOF (errno: %d)

· 错误:1040 SQLSTATE: 08004

(ER_CON_COUNT_ERROR)

消息:连接过多。

· 错误:1041 SQLSTATE: HY000

(ER_OUT_OF_RESOURCES)

消息:内存溢出,请检查是否mysqld或其他进程使用了所有可用内存,如不然,或许应使用'ulimit'允许mysqld使用更多内存,或增加交换空间的大小。

· 错误:1042 SQLSTATE: 08S01 (ER_BAD_HOST_ERROR)

消息:无法获得该地址给出的主机名。

· 错误:1043 SQLSTATE: 08S01 (ER_HANDSHAKE_ERROR)

消息:不良握手

·

错误:1044 SQLSTATE: 42000 (ER_DBACCESS_DENIED_ERROR)

消息:拒绝用户'%s'@'%s'访问数据库'%s'。

· 错误:1045 SQLSTATE: 28000

(ER_ACCESS_DENIED_ERROR)

消息:拒绝用户'%s'@'%s'的访问(使用密码:%s)

· 错误:1046

SQLSTATE: 3D000 (ER_NO_DB_ERROR)

消息:未选择数据库。

· 错误:1047 SQLSTATE:

08S01 (ER_UNKNOWN_COM_ERROR)

消息:未知命令。

· 错误:1048 SQLSTATE: 23000

(ER_BAD_NULL_ERROR)

消息:列'%s'不能为空。

· 错误:1049 SQLSTATE: 42000

(ER_BAD_DB_ERROR)

消息:未知数据库'%s'。

· 错误:1050 SQLSTATE: 42S01

(ER_TABLE_EXISTS_ERROR)

消息:表'%s'已存在。

· 错误:1051 SQLSTATE: 42S02

(ER_BAD_TABLE_ERROR)

消息:未知表'%s'。

· 错误:1052 SQLSTATE: 23000

(ER_NON_UNIQ_ERROR)

消息:%s中的列'%s'不明确。

· 错误:1053 SQLSTATE: 08S01

(ER_SERVER_SHUTDOWN)

消息:在 *** 作过程中服务器关闭。

· 错误:1054 SQLSTATE: 42S22

(ER_BAD_FIELD_ERROR)

消息:'%s'中的未知列'%s'。

· 错误:1055 SQLSTATE: 42000

(ER_WRONG_FIELD_WITH_GROUP)

消息:'%s'不在GROUP BY中。

· 错误:1056

SQLSTATE: 42000 (ER_WRONG_GROUP_FIELD)

消息:无法在'%s'上创建组。

· 错误:1057

SQLSTATE: 42000 (ER_WRONG_SUM_SELECT)

消息:语句中有sum函数和相同语句中的列。

·

错误:1058 SQLSTATE: 21S01 (ER_WRONG_VALUE_COUNT)

消息:列计数不匹配值计数。

·

错误:1059 SQLSTATE: 42000 (ER_TOO_LONG_IDENT)

消息:ID名称'%s'过长。

·

错误:1060 SQLSTATE: 42S21 (ER_DUP_FIELDNAME)

消息:重复列名'%s'。

·

错误:1061 SQLSTATE: 42000 (ER_DUP_KEYNAME)

消息:重复键名称'%s'。

· 错误:1062

SQLSTATE: 23000 (ER_DUP_ENTRY)

消息:键%d的重复条目'%s'。

· 错误:1063

SQLSTATE: 42000 (ER_WRONG_FIELD_SPEC)

消息:对于列'%s',列分类符不正确。

·

错误:1064 SQLSTATE: 42000 (ER_PARSE_ERROR)

消息:在行%d上,%s靠近'%s'。

·

错误:1065 SQLSTATE: 42000 (ER_EMPTY_QUERY)

消息:查询为空。

· 错误:1066

SQLSTATE: 42000 (ER_NONUNIQ_TABLE)

消息:非唯一的表/别名:'%s'

· 错误:1067

SQLSTATE: 42000 (ER_INVALID_DEFAULT)

消息:关于'%s'的无效默认值。

· 错误:1068

SQLSTATE: 42000 (ER_MULTIPLE_PRI_KEY)

消息:定义了多个主键。


欢迎分享,转载请注明来源:内存溢出

原文地址:https://54852.com/zaji/7430426.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-04-05
下一篇2023-04-05

发表评论

登录后才能评论

评论列表(0条)

    保存