linux内核线程死锁或死循环之后如何让系统宕机重启_系统运维

在开发内核模块或驱动时，如果处理失误，导致内核线程中出现死锁或者死循环，你会发现，除了重启之外，你没有任何可以做的。这时你的输入不起任何作用，终端（不是指远程的ssh工具）只会在那重复的输出类似“BUG: soft lockup - CPU#0 stuck for 67s! [fclustertool:2043]”，更无奈的是你重启之后导致系统挂起的堆栈信息也看不到，你所能做的就是一遍遍的加调试信息，一遍遍的重启机器（这是我的经历，现在想想很傻）。这种情况你肯定不是第一个遇到的，所以内核肯定会提供处理这种情况的一些机制。但是如何来找到这些机制在哪个地方，或者说根据什么信息去google呢？最有用的就是这句话“BUG: soft lockup - CPU#0 stuck for 67s! [fclustertool:2043]”，因为这句话提供你的信息量很大。首先，这条信息可以输出，说明即使发生死锁或者死循环，还是有代码可以执行。第二，可以通过这个日志信息，找到对应的处理函数，这个函数所在的模块就是用来处理CPU被过度使用时用到的。所以通过这个事情，可以看到内核打印出的只言片语都有可能成为你解决问题的关键，一定要从重视这些信息，从中找出有用的东西。我经常看的内核版本是官方的2.6.32内核，这个版本中我找到的函数是softlockup_tick()，这个函数在时钟中断的处理函数run_local_timers()中调用。这个函数会首先检查watchdog线程是否被挂起，如果不是watchdog线程，会检查当前占有CPU的线程占有的时间是否超过系统配置的阈值，即softlockup_thresh。如果当前占有CPU的时间过长，则会在系统日志中输出我们上面看到的那条日志。接下来才是最关键的，就是输出模块信息、寄存器信息和堆栈信息，检查softlockup_panic的值是否为1。如果softlockup_panic为1，则调用panic()让内核挂起，输出OOPS信息。代码如下所示：/** This callback runs from the timer interrupt, and checks* whether the watchdog thread has hung or not:*/void softlockup_tick(void){int this_cpu = smp_processor_id()unsigned long touch_timestamp = per_cpu(touch_timestamp, this_cpu)unsigned long print_timestampstruct pt_regs *regs = get_irq_regs()unsigned long now/* Warn about unreasonable delays: */if (now <= (touch_timestamp + softlockup_thresh))returnper_cpu(print_timestamp, this_cpu) = touch_timestampspin_lock(&print_lock)printk(KERN_ERR BUG: soft lockup - CPU#%d stuck for %lus! [%s:%d]\n,this_cpu, now - touch_timestamp,current-comm, task_pid_nr(current))print_modules()print_irqtrace_events(current)if (regs)show_regs(regs)elsedump_stack()spin_unlock(&print_lock)if (softlockup_panic)panic(softlockup: hung tasks)}但是softlockup_panic的值默认竟然是0，所以在出现死锁或者死循环的时候，会一直只输出日志信息，而不会宕机，这个真是好坑啊！所以你得手动修改/proc/sys/kernel/softlockup_panic的值，让内核可以在死锁或者死循环的时候可以宕机。如果你的机器中安装了kdump，在重启之后，你会得到一份内核的core文件，这时从core文件中查找问题就方便很多了，而且再也不用手动重启机器了。如果你的内核是标准内核的话，可以通过修改/proc/sys/kernel/softlockup_thresh来修改超时的阈值，如果是CentOS内核的话，对应的文件是/proc/sys/kernel/watchdog_thresh。CentOS内核和标准内核还有一个地方不一样，就是处理CPU占用时间过长的函数，CentOS下是watchdog_timer_fn()函数。这里介绍下lockup的概念。lockup分为soft lockup和hard lockup。 soft lockup是指内核中有BUG导致在内核模式下一直循环的时间超过10s（根据实现和配置有所不同），而其他进程得不到运行的机会。hard softlockup是指内核已经挂起，可以通过watchdog这样的机制来获取详细信息。这两个概念比较类似。如果你想了解更多关于lockup的信息，可以参考这篇文档：注意上面说的这些，都是在内核线程中有效，对用户态的死循环没用。如果要监视用户态的死循环，或者内存不足等资源的情况，强烈推荐软件层面的watchdog。具体的 *** 作可以参考下面的文章，都写的非常好，非常实用：

按住 Alt-Print 的时候就相当于按住了 Sys Rq 键，这个时候输入的一切都会直接由 Linux内核来处理，它可以进行许多低级 *** 作。这个方法可以在各种情况下安全地重启计算机，具体 *** 作如下:

1、shutdown命令安全地将系统关机。在系统关机前使用shutdown命令﹐系统管理员会通知所有登录的用户系统将要关闭。并且login指令会被冻结，即新的用户不能再登录。

2、halt——最简单的关机命令，其实halt就是调用shutdown -h。halt执行时﹐杀死应用进程﹐执行sync系统调用﹐文件系统写 *** 作完成后就会停止内核。

3、reboot的工作过程差不多跟halt一样，不过它是引发主机重启，而halt是关机。它的参数与halt相差不多。

4、init是所有进程的祖先，它的进程号始终为1， init 0为关机，init 1为重启。

欢迎分享，转载请注明来源：内存溢出

原文地址:https://54852.com/yw/7267953.html

linux内核线程死锁或死循环之后如何让系统宕机重启

发表评论

评论列表（0条）