Linux 之mutex 源码分析_系统运维

mutex相关的函数并不是linux kernel实现的，而是glibc实现的，源码位于nptl目录下。

http://ftp.gnu.org/pub/gnu/glibc/glibc-2.3.5.tar.gz

首先说数据结构：

typedef union

{

struct

{

int __lock

unsigned int __count

int __owner

unsigned int __nusers

/* KIND must stay at this position in the structure to maintain

binary compatibility. */

int __kind

int __spins

} __data

char __size[__SIZEOF_PTHREAD_MUTEX_T]

long int __align

} pthread_mutex_t

int __lock 资源竞争引用计数

int __kind锁类型，init 函数中mutexattr 参数传递，该参数可以为NULL，一般为 PTHREAD_MUTEX_NORMAL

结构体其他元素暂时不了解，以后更新。

/*nptl/pthread_mutex_init.c*/

int

__pthread_mutex_init (mutex, mutexattr)

pthread_mutex_t *mutex

const pthread_mutexattr_t *mutexattr

{

const struct pthread_mutexattr *imutexattr

assert (sizeof (pthread_mutex_t) <= __SIZEOF_PTHREAD_MUTEX_T)

imutexattr = (const struct pthread_mutexattr *) mutexattr ?: &default_attr

/* Clear the whole variable. */

memset (mutex, '\0', __SIZEOF_PTHREAD_MUTEX_T)

/* Copy the values from the attribute. */

mutex->__data.__kind = imutexattr->mutexkind &~0x80000000

/* Default values: mutex not used yet. */

// mutex->__count = 0 already done by memset

// mutex->__owner = 0 already done by memset

// mutex->__nusers = 0 already done by memset

// mutex->__spins = 0 already done by memset

return 0

}

init函数就比较简单了，将mutex结构体清零，设置结构体中__kind属性。

/*nptl/pthread_mutex_lock.c*/

int

__pthread_mutex_lock (mutex)

pthread_mutex_t *mutex

{

assert (sizeof (mutex->__size) >= sizeof (mutex->__data))

pid_t id = THREAD_GETMEM (THREAD_SELF, tid)

switch (__builtin_expect (mutex->__data.__kind, PTHREAD_MUTEX_TIMED_NP))

{

…

default:

/* Correct code cannot set any other type. */

case PTHREAD_MUTEX_TIMED_NP:

simple:

/* Normal mutex. */

LLL_MUTEX_LOCK (mutex->__data.__lock)

break

…

}

/* Record the ownership. */

assert (mutex->__data.__owner == 0)

mutex->__data.__owner = id

#ifndef NO_INCR

++mutex->__data.__nusers

#endif

return 0

}

该函数主要是调用LLL_MUTEX_LOCK，省略部分为根据mutex结构体__kind属性不同值做些处理。

宏定义函数LLL_MUTEX_LOCK最终调用，将结构体mutex的__lock属性作为参数传递进来

#define __lll_mutex_lock(futex) \

((void) ({ \

int *__futex = (futex) \

if (atomic_compare_and_exchange_bool_acq (__futex, 1, 0) != 0) \

__lll_lock_wait (__futex) \

}))

atomic_compare_and_exchange_bool_acq (__futex, 1, 0)宏定义为：

#define atomic_compare_and_exchange_bool_acq(mem, newval, oldval) \

({ __typeof (mem) __gmemp = (mem) \

__typeof (*mem) __gnewval = (newval) \

*__gmemp == (oldval) ? (*__gmemp = __gnewval, 0) : 1})

这个宏实现的功能是：

如果mem的值等于oldval，则把newval赋值给mem，放回0，否则不做任何处理，返回1.

由此可以看出，当mutex锁限制的资源没有竞争时，__lock 属性被置为1，并返回0，不会调用__lll_lock_wait (__futex)当存在竞争时，再次调用lock函数，该宏不做任何处理，返回1，调用__lll_lock_wait (__futex)

void

__lll_lock_wait (int *futex)

{

int oldval = atomic_compare_and_exchange_val_acq (futex, 2, 1)

if (oldval != 0)

lll_futex_wait (futex, 2)

}

while (atomic_compare_and_exchange_bool_acq (futex, 2, 0) != 0)

}

atomic_compare_and_exchange_val_acq (futex, 2, 1)宏定义：

/* The only basic operation needed is compare and exchange. */

#define atomic_compare_and_exchange_val_acq(mem, newval, oldval) \

({ __typeof (mem) __gmemp = (mem) \

__typeof (*mem) __gret = *__gmemp \

__typeof (*mem) __gnewval = (newval) \

if (__gret == (oldval)) \

*__gmemp = __gnewval \

__gret})

这个宏实现的功能是，当mem等于oldval时，将mem置为newval，始终返回mem原始值。

此时，futex等于1，futex将被置为2，并且返回1. 进而调用

lll_futex_wait (futex, 2)

#define lll_futex_timed_wait(ftx, val, timespec) \

({ \

DO_INLINE_SYSCALL(futex, 4, (long) (ftx), FUTEX_WAIT, (int) (val), \

(long) (timespec)) \

_r10 == -1 ? -_retval : _retval \

})

该宏对于不同的平台架构会用不同的实现，采用汇编语言实现系统调用。不过确定的是调用了Linux kernel的futex系统调用。

futex在linux kernel的实现位于：kernel/futex.c

SYSCALL_DEFINE6(futex, u32 __user *, uaddr, int, op, u32, val,

struct timespec __user *, utime, u32 __user *, uaddr2,

u32, val3)

{

struct timespec ts

ktime_t t, *tp = NULL

u32 val2 = 0

int cmd = op &FUTEX_CMD_MASK

if (utime &&(cmd == FUTEX_WAIT || cmd == FUTEX_LOCK_PI ||

cmd == FUTEX_WAIT_BITSET ||

cmd == FUTEX_WAIT_REQUEUE_PI)) {

if (copy_from_user(&ts, utime, sizeof(ts)) != 0)

return -EFAULT

if (!timespec_valid(&ts))

return -EINVAL

t = timespec_to_ktime(ts)

if (cmd == FUTEX_WAIT)

t = ktime_add_safe(ktime_get(), t)

tp = &t

}

* requeue parameter in 'utime' if cmd == FUTEX_*_REQUEUE_*.

* number of waiters to wake in 'utime' if cmd == FUTEX_WAKE_OP.

if (cmd == FUTEX_REQUEUE || cmd == FUTEX_CMP_REQUEUE ||

cmd == FUTEX_CMP_REQUEUE_PI || cmd == FUTEX_WAKE_OP)

val2 = (u32) (unsigned long) utime

return do_futex(uaddr, op, val, tp, uaddr2, val2, val3)

}

futex具有六个形参，pthread_mutex_lock最终只关注了前四个。futex函数对参数进行判断和转化之后，直接调用do_futex。

long do_futex(u32 __user *uaddr, int op, u32 val, ktime_t *timeout,

u32 __user *uaddr2, u32 val2, u32 val3)

{

int clockrt, ret = -ENOSYS

int cmd = op &FUTEX_CMD_MASK

int fshared = 0

if (!(op &FUTEX_PRIVATE_FLAG))

fshared = 1

clockrt = op &FUTEX_CLOCK_REALTIME

if (clockrt &&cmd != FUTEX_WAIT_BITSET &&cmd != FUTEX_WAIT_REQUEUE_PI)

return -ENOSYS

switch (cmd) {

case FUTEX_WAIT:

val3 = FUTEX_BITSET_MATCH_ANY

case FUTEX_WAIT_BITSET:

ret = futex_wait(uaddr, fshared, val, timeout, val3, clockrt)

break

…

default:

ret = -ENOSYS

}

return ret

}

省略部分为对其他cmd的处理，pthread_mutex_lock函数最终传入的cmd参数为FUTEX_WAIT，所以在此只关注此分之，分析futex_wait函数的实现。

static int futex_wait(u32 __user *uaddr, int fshared,

u32 val, ktime_t *abs_time, u32 bitset, int clockrt)

{

struct hrtimer_sleeper timeout, *to = NULL

struct restart_block *restart

struct futex_hash_bucket *hb

struct futex_q q

int ret

… … //delete parameters check and convertion

retry:

/* Prepare to wait on uaddr. */

ret = futex_wait_setup(uaddr, val, fshared, &q, &hb)

if (ret)

goto out

/* queue_me and wait for wakeup, timeout, or a signal. */

futex_wait_queue_me(hb, &q, to)

… … //other handlers

return ret

}

futex_wait_setup 将线程放进休眠队列中，

futex_wait_queue_me(hb, &q, to)将本线程休眠，等待唤醒。

唤醒后，__lll_lock_wait函数中的while (atomic_compare_and_exchange_bool_acq (futex, 2, 0) != 0)语句将被执行，由于此时futex在pthread_mutex_unlock中置为0，所以atomic_compare_and_exchange_bool_acq (futex, 2, 0)语句将futex置为2，返回0. 退出循环，访问用户控件的临界资源。

/*nptl/pthread_mutex_unlock.c*/

int

internal_function attribute_hidden

__pthread_mutex_unlock_usercnt (mutex, decr)

pthread_mutex_t *mutex

int decr

{

switch (__builtin_expect (mutex->__data.__kind, PTHREAD_MUTEX_TIMED_NP))

{

… …

default:

/* Correct code cannot set any other type. */

case PTHREAD_MUTEX_TIMED_NP:

case PTHREAD_MUTEX_ADAPTIVE_NP:

/* Normal mutex. Nothing special to do. */

break

}

/* Always reset the owner field. */

mutex->__data.__owner = 0

if (decr)

/* One less user. */

--mutex->__data.__nusers

/* Unlock. */

lll_mutex_unlock (mutex->__data.__lock)

return 0

}

省略部分是针对不同的__kind属性值做的一些处理，最终调用 lll_mutex_unlock。

该宏函数最终的定义为：

#define __lll_mutex_unlock(futex) \

((void) ({ \

int *__futex = (futex) \

int __val = atomic_exchange_rel (__futex, 0) \

if (__builtin_expect (__val >1, 0)) \

lll_futex_wake (__futex, 1) \

}))

atomic_exchange_rel (__futex, 0)宏为：

#define atomic_exchange_rel(mem, value) \

(__sync_synchronize (), __sync_lock_test_and_set (mem, value))

实现功能为：将mem设置为value，返回原始mem值。

__builtin_expect (__val >1, 0) 是编译器优化语句，告诉编译器期望值，也就是大多数情况下__val >1 ？是0，其逻辑判断依然为if(__val >1)为真的话执行 lll_futex_wake。

现在分析，在资源没有被竞争的情况下，__futex 为1，那么返回值__val则为1，那么 lll_futex_wake (__futex, 1) 不会被执行，不产生系统调用。当资源产生竞争的情况时，根据对pthread_mutex_lock 函数的分析，__futex为2， __val则为2，执行 lll_futex_wake (__futex, 1)从而唤醒等在临界资源的线程。

lll_futex_wake (__futex, 1)最终会调动同一个系统调用，即futex, 只是传递的cmd参数为FUTEX_WAKE。

在linux kernel的futex实现中，调用

static int futex_wake(u32 __user *uaddr, int fshared, int nr_wake, u32 bitset)

{

struct futex_hash_bucket *hb

struct futex_q *this, *next

struct plist_head *head

union futex_key key = FUTEX_KEY_INIT

int ret

if (!bitset)

return -EINVAL

ret = get_futex_key(uaddr, fshared, &key)

if (unlikely(ret != 0))

goto out

hb = hash_futex(&key)

spin_lock(&hb->lock)

head = &hb->chain

plist_for_each_entry_safe(this, next, head, list) {

if (match_futex (&this->key, &key)) {

if (this->pi_state || this->rt_waiter) {

ret = -EINVAL

break

}

/* Check if one of the bits is set in both bitsets */

if (!(this->bitset &bitset))

continue

wake_futex(this)

if (++ret >= nr_wake)

break

}

spin_unlock(&hb->lock)

put_futex_key(fshared, &key)

out:

return ret

}

该函数遍历在该mutex上休眠的所有线程，调用wake_futex进行唤醒，

static void wake_futex(struct futex_q *q)

{

struct task_struct *p = q->task

* We set q->lock_ptr = NULL _before_ we wake up the task. If

* a non futex wake up happens on another CPU then the task

* might exit and p would dereference a non existing task

* struct. Prevent this by holding a reference on p across the

* wake up.

get_task_struct(p)

plist_del(&q->list, &q->list.plist)

* The waiting task can free the futex_q as soon as

* q->lock_ptr = NULL is written, without taking any locks. A

* memory barrier is required here to prevent the following

* store to lock_ptr from getting ahead of the plist_del.

smp_wmb()

q->lock_ptr = NULL

wake_up_state(p, TASK_NORMAL)

put_task_struct(p)

}

wake_up_state(p, TASK_NORMAL) 的实现位于kernel/sched.c中，属于linux进程调度的技术。

Linux进程调度

1．调度方式

Linux系统的调度方式基本上采用“ 抢占式优先级 ”方式，当进程在用户模式下运行时，不管它是否自愿，核心在一定条件下（如该进程的时间片用完或等待I/O）可以暂时中止其运行，而调度其他进程运行。一旦进程切换到内核模式下运行时，就不受以上限制，而一直运行下去，仅在重新回到用户模式之前才会发生进程调度。

Linux系统中的调度基本上继承了UNIX系统的 以优先级为基础 的调度。也就是说，核心为系统中每个进程计算出一个优先级，该优先级反映了一个进程获得CPU使用权的资格，即高优先级的进程优先得到运行。核心从进程就绪队列中挑选一个优先级最高的进程，为其分配一个CPU时间片，令其投入运行。在运行过程中，当前进程的优先级随时间递减，这样就实现了“负反馈”作用，即经过一段时间之后，原来级别较低的进程就相对“提升”了级别，从而有机会得到运行。当所有进程的优先级都变为0（最低）时，就重新计算一次所有进程的优先级。

2．调度策略

Linux系统针对不同类别的进程提供了3种不同的调度策略，即SCHED_FIFO、SCHED_RR及SCHED_OTHER。其中，SCHED_FIFO适合于 短实时进程 ，它们对时间性要求比较强，而每次运行所需的时间比较短。一旦这种进程被调度且开始运行，就一直运行到自愿让出CPU或被优先级更高的进程抢占其执行权为止。

SCHED_RR对应“时间片轮转法”，适合于每次运行需要 较长时间的实时进程 。一个运行进程分配一个时间片（200 ms），当时间片用完后，CPU被另外进程抢占，而该进程被送回相同优先级队列的末尾，核心动态调整用户态进程的优先级。这样，一个进程从创建到完成任务后终止，需要经历多次反馈循环。当进程再次被调度运行时，它就从上次断点处开始继续执行。

SCHED_OTHER是传统的UNIX调度策略，适合于交互式的 分时进程 。这类进程的优先级取决于两个因素：一个是进程剩余时间配额，如果进程用完了配给的时间，则相应优先级降到0；另一个是进程的优先数nice，这是从UNIX系统沿袭下来的方法，优先数越小，其优先级越高。nice的取值范围是-20 19。用户可以利用nice命令设定进程的nice值。但一般用户只能设定正值，从而主动降低其优先级；只有特权用户才能把nice的值设置为负数。进程的优先级就是以上二者之和。

后台命令对应后台进程（又称后台作业）。后台进程的优先级低于任何交互（前台）进程的优先级。所以，只有当系统中当前不存在可运行的交互进程时，才调度后台进程运行。后台进程往往按批处理方式调度运行。

3．调度时机

核心进行进程调度的时机有以下5种情况：

（1）当前进程调用系统调用nanosleep( )或者pause( )，使自己进入睡眠状态，主动让出一段时间的CPU的使用权。

（2）进程终止，永久地放弃对CPU的使用。

（3）在时钟中断处理程序执行过程中，发现当前进程连续运行的时间过长。

（4）当唤醒一个睡眠进程时，发现被唤醒的进程比当前进程更有资格运行。

（5）一个进程通过执行系统调用来改变调度策略或者降低自身的优先级（如nice命令），从而引起立即调度。

4．调度算法

进程调度的算法应该比较简单，以便减少频繁调度时的系统开销。Linux执行进程调度时，首先查找所有在就绪队列中的进程，从中选出优先级最高且在内存的一个进程。如果队列中有实时进程，那么实时进程将优先运行。如果最需要运行的进程不是当前进程，那么当前进程就被挂起，并且保存它的现场—— 所涉及的一切机器状态，包括程序计数器和CPU寄存器等，然后为选中的进程恢复运行现场。

（二）Linux常用调度命令

· nohup命令

nohup命令的功能是以忽略挂起和退出的方式执行指定的命令。其命令格式是：

nohup　command　［arguments］

其中，command是所要执行的命令，arguments是指定命令的参数。

nohup命令告诉系统，command所代表的命令在执行过程中不受任何结束运行的信号（hangup和quit）的影响。例如，

$ nohup find / -name exam.txt -print>f1 &

find命令在后台运行。在用户注销后，它会继续运行：从根目录开始，查找名字是exam.txt的文件，结果被定向到文件f1中。

如果用户没有对输出进行重定向，则输出被附加到当前目录的nohup.out文件中。如果用户在当前目录中不具备写权限，则输出被定向到$HOME/nohup.out 中。

· at命令

at命令允许指定命令执行的时间。at命令的常用形式是：

at　time　command

其中，time是指定命令command在将来执行时的时间和日期。时间的指定方法有多种，用户可以使用绝对时间，也可以用相对时间。该指定命令将以作业形式在后台运行。例如：

$ at 15:00 Oct 20

回车后进入接收方式，接着键入以下命令：

mail -s "Happy Birthday!" liuzheny

按下D键，屏幕显示：

job 862960800.a at Wed Oct 20 15:00:00 CST 1999

表明建立了一个作业，其作业ID号是862960800.a，运行作业的时间是1999年10月20日下午3:00，给liuzheny发一条标题为“Happy Birthday！”（生日快乐）的空白邮件。

利用 at　-l 可以列出当前at队列中所有的作业。

利用 at　-r 可以删除指定的作业。这些作业以前由at或batch命令调度。例如，

at　-r　862960797.a

将删除作业ID号是862960797.a的作业。其一般使用形式是：

at　-r　job_id

注意，结尾是.a的作业ID号，表示这个作业是由at命令提交的；结尾是.b的作业ID号，表示这个作业是由batch命令提交的。

· batch命令

batch命令不带任何参数，它提交的作业的优先级比at命令提交的作业的优先级低。batch无法指定作业运行的时间。实际运行时间要看系统中已经提交的作业数量。如果系统中优先级较高的作业比较多，那么，batch提交的作业则需要等待；如果系统空闲，则运行batch提交的作业。例如，

$ batch

回车后进入接收方式，接着键入命令：

find / -name exam.txt -print

按下D。退出接收方式，屏幕显示：

job 862961540.b at Thu Nov 18 14:30:00 CST 1999

表示find命令被batch作为一个作业提交给系统，作业ID号是862961540.b。如果系统当前空闲，这个作业被立即执行，其结果同样作为邮件发送给用户。

· jobs命令

jobs命令用来显示当前shell下正在运行哪些作业（即后台作业）。例如：

$ jobs

[2] + Running tar tv3 *&

[1] - Running find / -name README -print >logfile &

其中，第一列方括号中的数字表示作业序号，它是由当前运行的shell分配的，而不是由 *** 作系统统一分配的。在当前shell环境下，第一个后台作业的作业号为1，第二个作业的作业号为2，等等。

第二列中的“ ”号表示相应作业的优先级比“－”号对应作业的优先级高。

第三列表明作业状态，是否为运行、中断、等待输入或停止等。

最后列出的是创建当前这个作业所对应的命令行。

利用 jobs　-l 形式，可以在作业号后显示出相应进程的PID。如果想只显示相应进程的PID，不显示其它信息，则使用 jobs　-p 形式。

· fg命令

fg命令把指定的后台作业移到前台。其使用格式是：

fg [job…]

其中，参数job是一个或多个进程的PID，或者是命令名称或者作业号（前面要带有一个“%”号）。例如：

$ jobs

[2] + Running tar tv3 *&

[1] - Running find / -name README -print >logfile&

$ fg %find

find / -name README -print >logfile

注意，显示的命令行末尾没有“&”符号。下面命令能产生同样的效果：

$ fg %1

这样，find命令对应的进程就在前台执行。当后台只有一个作业时，键入不带参数的fg命令，就能使相应进程移到前台。当有两个或更多的后台作业时，键入不带参数的fg，就把最后进入后台的进程首先移到前台。

· bg命令

bg命令可以把前台进程换到后台执行。其使用格式是：

bg [job…]

其中，job是一个或多个进程的PID、命令名称或者作业号，在参数前要带“%”号。例如，在cc（C编译命令）命令执行过程中，按下Z键，使这个作业挂起。然后键入以下命令：

$ bg %cc

该挂起的作业在后台重新开始执行。

欢迎分享，转载请注明来源：内存溢出

原文地址:https://54852.com/yw/7113195.html

Linux 之mutex 源码分析

发表评论

评论列表（0条）