# 线程

# 定义

  • 线程(Thread)是进程运行、CPU 调度的基本单位。

    • 每个进程至少包含一个线程,其中第一个创建的线程称为主线程(main thread)。
    • 启动一个程序时,至少要创建一个进程,来执行程序指令。但进程只是一个空空的线程组,其中的线程才是实体,决定了 CPU 实际执行的程序指令。
  • 进程与线程的主要区别:

    • 功能差不多,但创建线程的开销更小。因此线程相当于轻量级进程。
    • 同一进程中所有线程,会共享一些资源。
  • 每个线程可以创建任意个新线程。

    • 新线程属于当前线程的线程组,即属于同一个进程。
    • 进程之间可以存在父子关系,而线程之间不存在父子关系。
      • 同一进程中的所有线程,几乎相互平等。
      • 但主线程比其它线程更重要,有时将其它线程称为主线程的子线程。
  • 每个线程可以创建任意个新进程。不过此时看作是该线程所属的进程创建了新进程,考虑进程级别的概念,而不是线程级别。

# 占用资源

  • 一个进程分配的系统资源,大部分会被该进程下的各个线程共享。包括:

    • PID、PPID
    • User ID 、Group ID
    • 内存,包括:
      • 虚拟内存空间,寻址相同
      • 堆区,用于存储静态变量、全局变量等数据
    • 打开的文件描述符,比如 Socket
    • 环境变量,比如 PWD、HOSTNAME
    • 进程间通信的 signals 和 signal handlers
  • 每个线程有一些独立分配的系统资源。包括:

    • TID
    • CPU 调度,比如占用 CPU 时长、使用哪些寄存器
    • 栈区,用于存储局部变量等数据
  • 任一线程终止时,Linux 可以释放其线程级别的资源(比如栈区),但不能释放进程级别的资源(比如堆区),因为依然被其它线程使用。

    • 当一个进程中所有线程都终止时,Linux 才认为该进程已终止,释放该进程占用的系统资源。

# LWP

  • 上述的线程特点,是参考 POSIX 线程标准 (opens new window) ,简称为 pthread 。

    • 但 Linux 系统不完全遵循 POSIX 标准。因为早期的类 Unix 系统中,不存在线程的概念,只有进程的概念。
    • 直到目前,Linux 内核中的可调度实体依然是进程,又称为任务(task)。通常使用 LWP 来模拟线程。
  • 轻量级进程(Light Weight Process ,LWP)

    • 基本原理:在用户态创建一个看起来像线程的资源,与内核中的一个可调度实体关联,并且通常为 1 对 1 线程模型。
    • LWP 本质上是 Linux 进程,不是真正的 POSIX 线程。
      • Linux 创建进程、线程时,底层都是调用 clone() 来实现的。
      • 例如调用 pthread_create() 创建线程时,实际上会调用 clone() 创建一个子进程,并指定 CLONE_VM、CLONE_THREAD 等 flags ,使得子进程符合线程的特征。
    • 每个线程使用一个独立的 task_struct ,而不共享当前进程的 task_struct 。
      • 新建一个进程时,会在内存中新建一个 task_struct ,它既代表该进程,又代表主线程。
      • 主线程新建一个子线程时,会新建一个 task_struct ,它本质上属于进程,但跟主线程共享一些资源,因此能当作线程使用。
      • 主线程与子线程共享了很多资源,因此它们的 task_struct 大部分内容相同。比如 task->mm 指向同一个虚拟内存空间。
    • 每个线程会分配一个唯一的 task->pid ,当作 TID 使用。
      • 主线程的 task->pid ,既是该线程的 TID ,又是当前进程的 PID 。
      • 如果一个 task->pid 等于 task->tgid ,则说明这是一个主线程。否则,这是一个子线程。
      • 创建大量线程时,可能导致本机的 PID 可用数量不足。
    • 缺点:
      • 不完全遵循 POSIX 标准,用法有少许差异。
      • 与 POSIX 线程相比,创建 LWP 线程更慢、占用资源更多。
  • 假设某个 PID 的进程中包含多个不同 TID 的 LWP 线程,

    • 如果用 kill 命令向该 PID 发送信号,则会被主线程接收。因为主线程的 TID 等于 PID 。
      • 不过这是 LinuxThreads 的规则。而按照 POSIX 标准,向一个进程发送信号时,可能被其中任意一个线程接收。
    • 如果用 kill 命令向非主线程的 ITD 发送信号,则会被该线程接收。

# 底层实现

  • 1996 年,Linux 的 glibc 引入了 LinuxThreads 线程库,用于创建符合部分 POSIX 标准的线程。

    • 用法:调用 pthread.h 库的 pthread_create() 函数,创建 LWP 进程,用它模拟线程。
    • 缺点:
      • 创建一个进程时,首先会创建一个管理器线程(manager thread),它负责管理其它线程,增加了开销。
      • 同一进程中每个线程调用 getpid() 的返回值不同,会等于该线程的 PID ,而不是当前进程的 PID 。
  • 2005 年,Linux v2.6 的 glibc 引入了 NPTL(Native POSIX Thread Library)线程库,取代了 LinuxThreads ,用于创建更加符合 POSIX 标准的线程。

    • 优点:
      • 兼容 LinuxThreads 的 ABI 接口。因此可以将 pthread.h 库的底层实现改为 NPTL ,但用法不变,方便 Linux 旧版软件从 LinuxThreads 迁移到 NPTL 。
      • 解决了 LinuxThreads 的主要缺点。例如引入了线程组的概念,使得每个线程调用 getpid() 时会返回 TGID ,即当前进程的 PID 。
    • 缺点:
      • 依然采用 LWP 机制,不完全遵循 POSIX 标准。例如线程之间不共享 nice 值。

# pthread.h

#include <pthread.h>

int pthread_create(pthread_t *tid,              // 传入用于存储线程 TID 的指针变量
                   const pthread_attr_t *attr,  // 传入线程的属性(传入 NULL 则是默认属性)
                   void *(*)(void *),           // 传入要运行的函数,该函数头的格式应该定义成:void *fun(void *arg)
                   void *arg);                  // 传入要运行的函数的实参,没有参数则填 NULL
    // 用于创建一个线程,运行指定的函数
    // 如果创建成功,则将线程的 TID 存储到变量 tid 中,并返回 0

int pthread_join(pthread_t tid, void **retval);
    // 阻塞当前线程的执行,等待当前进程中指定 tid 的线程终止,然后才继续执行当前线程
    // 当目标线程终止时,会将其退出码存储到变量 retval 中

void pthread_exit(void *retval);
    // 使当前线程退出,且采用 retval 的值作为退出码

int pthread_cancel(pthread_t tid);
    // 向当前进程中指定 tid 的线程,发送 cancel 请求
    // 如果该函数的返回值为 0 ,则表示成功发送了 cancel 请求,但不知道目标线程会如何处理请求
    // 每个线程收到 cancel 请求时,默认会立即终止。但也可以忽略 cancel 请求,或者自定义一个处理 cancel 请求的函数

int pthread_kill(pthread_t tid, int sig);
    // 向当前进程中指定 tid 的线程,发送 sig 信号
    // 如果该函数的返回值为 0 ,则表示成功发送了信号,但不知道目标线程会如何处理信号
  • 编译时需要链接 pthread.h 库,例如:gcc test.c -o test -l pthread
  • 例:
    #include <stdio.h>
    #include <pthread.h>
    
    void *fun1(){
        puts("fun1() end.");
        return 0;
    }
    
    int main(){
        int rc;
        pthread_t tid;
    
        rc = pthread_create(&tid, NULL, fun1, NULL);
        if(rc)
            puts("Failed to create the thread fun1().");
    
        pthread_join(tid, NULL); // 阻塞主线程的运行。以免主线程执行完毕,提前终止子线程
        puts("main() end.");
        return 0;
    }
    

# 多线程

# 优点

  • 当一个程序需要让 CPU 执行多个任务时(比如执行多个函数),有几种策略:

    • 单线程:只创建一个线程,让 CPU 串行执行这些任务。
    • 多进程:创建多个进程,每个进程至少包含一个线程,并行执行。
    • 多线程:创建一个进程,包含多个线程,并行执行。
  • 多进程(multiprocess)的优点:

    • 每个进程使用的虚拟内存空间、物理内存等资源相互独立,不会相互影响。
    • 每个进程独立运行。一个进程挂掉了,通常不会影响其它进程。
  • 多线程(multithreading)的优点:

    • 与单线程相比,可以提高 CPU 的使用率。
      • 例如一个线程因为等待 IO 而暂停运行时,其它线程依然可以运行。
      • 例如一个线程占用了 CPU 的一个核心时,其它线程可以在 CPU 的其它核心上运行。
      • 处理 IO 密集型任务时,多线程、多进程都可以提高 CPU 的使用率,从而提高处理速度。
      • 处理 CPU 密集型任务时,多线程、多进程都不能提高处理速度。
    • 多线程相当于轻量级的多进程,开销更小。
      • 创建一个线程的耗时、资源开销,比进程小很多。
      • CPU 进程上下文切换的开销,大于 CPU 线程上下文切换。例如 CPU 原本执行进程 A (中的线程),想切换执行进程 B (中的线程),则需要切换进程使用的内存、堆栈等资源。
    • 与进程间通信相比,线程间通信更容易。
      • 同一个进程的多个线程之间,可以采用全局变量作为通信媒介,因为它们访问的是同一个堆区。

# 线程间通信

  • 线程间通信的频率:
    • 轮询(poll)
      • :线程 A 执行一个循环语句,反复获取线程 B 的数据,比如读取某个全局变量。
      • 优点:只要提高循环的频率,就可以实时获取线程 B 的数据。
      • 缺点:频繁轮询,会增加线程 A 的开销。比如占用更多 CPU 时长、不能长时间执行其它任务。
    • 回调(callback)
      • :线程 A 将自己某个函数的地址传给线程 B ,让线程 B 在必要时刻调用该函数,从而触发线程 A 的相关逻辑代码。
      • 该函数称为回调函数。
      • 优点:线程 A 是被动获取数据,不用频繁主动轮询,开销低。
      • 缺点:线程 B 不一定会及时调用该函数,导致线程 A 不能及时获取数据。

# 线程安全

  • 多进程、多线程可以并行工作,但可能出现以下问题:
    • 一个线程在访问当前进程的共享资源时,该资源被其它线程修改。
      • 对策:可以给该资源上锁,保证同时只能被一个线程访问。
    • 一个线程在 CPU 执行任务时,被其它线程打断、抢占 CPU 。
      • 对策:可以阻塞其它线程,先让该线程执行完任务。

# 线程终止

  • 终止线程的几种方式:

    • 如果一个线程调用 pthread_exit() ,则会使当前线程退出,不影响其它线程。
    • 如果一个线程的主函数执行到 return 语句,则考虑该线程的身份:
      • 如果该线程是子线程,则会隐式调用 pthread_exit() ,使当前线程退出。
      • 如果该线程是主线程,则会隐式调用 exit() ,使整个进程退出。
        • 因此,创建多线程时,通常要用 pthread_join()、死循环等方式让主线程保持运行,避免子线程还没执行完毕就被终止。
    • 如果任一线程调用 exit() ,则会使整个进程退出。
      • 此时 Linux 会直接终止当前进程的所有线程,不会发送 SIGTERM 等信号。
    • 一个线程调用 pthread_cancel() ,向其它线程发送 cancel 请求。
    • 一个线程调用 pthread_kill() ,向其它线程发送终止信号。
  • 终止线程时,哪个方式更好?

    • 建议不要用 pthread_cancel() 或 pthread_kill() ,因为线程收到这种信号时,默认会立即退出,可能来不及做完某些任务。比如尚未将内存中的数据持久化到磁盘。
    • 推荐方案:通过线程间通信,通知该线程,请它自行终止。它收到通知之后,应该做好收尾工作(例如持久化内存中的数据),然后执行 pthread_exit() 或 return 语句。
    • 同理,终止一个进程时,通常是用 kill() 发送 SIGTERM 信号,因为大部分进程都会捕捉该信号,触发正常终止的逻辑代码。
      • 如果用 kill() 发送 SIGKILL 信号,则会立即杀死进程,容易导致进程异常终止。
  • 终止线程之后,何时释放它占用的资源?有两种策略:

    • joinable
      • :默认策略。当线程终止时,不立即释放它占用的资源,而是等其它线程调用 pthread_join() 来获取该线程的退出码时,才释放资源。
    • detached
      • :当线程终止时,立即释放它占用的资源。
      • 优点:避免出现僵尸线程。
      • 缺点:其它线程不知道该线程的退出时刻、退出码。