# CPU

CPU（Central Processing Unit，中央处理单元），又称为中央处理器（Central Processor）。是计算机的核心元件，负责运行软件程序，也就是执行程序中的指令。

# 硬件结构

# 主板

现代计算机的大部分元件，通常集成在一大块集成电路板上，称为主板。其核心元件为 CPU ，是一小块芯片。
主板上，CPU 与其它元件之间通过总线进行数据传输。总线根据用途分为三种：
- 地址总线（Address Bus）
  - ：用于传输地址信息。
  - 只能单向传输，只支持 CPU 发送信号到存储器或 I/O 接口电路。
  - 地址总线的宽度决定了 CPU 直接寻址的最大范围。
    - 例如 8 位机的地址总线由 16 根线组成，可以并行传输 16 bits 的信号，称为 16 位宽度。因此 CPU 最多能对 2^16 个存储单元进行直接寻址。
    - 如果存储单元的数量超过该范围，CPU 就无法访问超过的部分。
    - 内存每个存储单元的大小为 1 Byte ，因此 8 位机最多寻址 2^16/1024=64 KB 的内存空间，32 位机最多寻址 2^32=4 GB 的内存空间。
  - CPU 可以对内存直接寻址，但不能对磁盘直接寻址。因为磁盘的最小存储单元是 block ，不能精确到 byte 。
    - 因此磁盘中任何文件，都需要先从磁盘拷贝到内存，才能被 CPU 读写。
    - 例如执行一个程序文件时，操作系统会将它从磁盘拷贝到内存，然后让 CPU 运行。
- 控制总线（Control Bus）
  - ：用于传输 CPU 对其它部件的控制信号，以及其它部件的应答、请求等信号，支持双向传输。
- 数据总线（Data Bus）
  - ：用于传输数据，支持双向传输。
  - 数据总线的宽度通常是字长的倍数。

# 寄存器

寄存器（Register）
- ：是 CPU 内置的一些容量很小、读写速度超快的存储器，用于暂存 CPU 当前处理的数据、指令。
- 断电时会丢失数据。
寄存器根据用途分为多种类型：
- 数据寄存器
  - ：用于暂存一些通用的数据。
  - 例如 8086 CPU 有多个 16 位的数据寄存器 AX、BX、CX、DX 。每个寄存器也可分为两个 8 位的寄存器使用，比如将 AX 分为成 AH、AL 。
- 段寄存器
  - ：用于暂存程序的代码段、数据段、栈等内容。
- 指令指针寄存器（Instruction Pointer）
  - ：用于暂存 CPU 下一条待执行指令在代码寄存器中的偏移地址。
- 标志位寄存器（Flag）
  - ：用一组二进制位记录当前指令的执行状态。
  - 例：
    - CF（Carry Flag ，进位标志）：若加减运算时，最高位向前发生了进位或借位，则设置 CF=1 ，否则为 0 。只有两个操作数为无符号数时 CF 标志才有意义。
    - SF（Sign Flag ，符号标志）：若运算结果的最高位为 1 ，则设置 SF=1 ，表示负数。只有两个操作数为带符号数时 SF 标志才有意义。
    - OF（Overflow Flag ，溢出标志）：若运算结果发生了溢出，则设置 OF=1 ，表示运算结果错误。只有两个操作数为带符号数时 OF 标志才有意义。
    - IF（Interrupt Flag ，中断标志）：若设置了 IF=1 ，则允许 CPU 响应来自 CPU 外部的可屏蔽中断的中断请求。

# Cache

：CPU 芯片中的一个高速存储器，用于缓存 CPU 从内存经常读取的部分数据。

CPU 执行某个指令时，如果需要读取某数据，会先尝试到 Cache 中查找该数据。此时分为两种情况：
- Cache Hit
  - ：在 Cache 中找到了，可以立即读取该数据。
  - 内核会根据 LRU 算法来自动清理缓存的数据，提高 CPU 读取数据时的 Hit 命中率。
- Cache Miss
  - ：在 Cache 中没找到，需要到内存中查找该数据。
目前的 CPU Cache 一般采用 SRAM 介质，容量为几 MB 。
- 通常存在多级缓存。例如 L1、L2、L3 三级缓存：
  - CPU 先到 L1 Cache 中读取数据，如果 Miss 了再到 L2 Cache 中读取数据，以此类推。
  - L1、L2、L3 Cache 的读写速度大概为 500 GB/s 、300 GB/s 、200 GB/s 。
- 多核 CPU 一般各有一个独立的 L1 缓存，然后共享同一个 L2、L3 缓存。
- 例：查看本机的 CPU Cache 容量
```
[root@CentOS ~]# lscpu | grep cache
L1d cache:             32K
L1i cache:             32K
L2 cache:              1024K
L3 cache:              36608K
```

# Write Buffer

：CPU 芯片中的一个高速存储器，用于缓冲 CPU 写入内存的所有数据。

优点：让 CPU 与内存异步工作，减少等待内存 IO 的耗时。

# 多核心

现代 CPU 的时钟频率通常为 3~4 GHz ，执行指令的速度存在上限。为了更快地执行指令，通常在一个物理 CPU 芯片中包含多个核心（Core）处理器，从而能并发执行多个指令。简称为多核 CPU 。
- Core 的数量通常是偶数。
- 每个 Core 独立工作，分别包含一份运算器、控制器、寄存器、缓存等元件。
- 每个 Core 通常分别包含一份 L1~L2 缓存，共用一份 L3~L4 缓存。
常见架构：
- 对称多处理器（Symmetric Multi-Processor ，SMP）
  - ：各个 CPU 之间平等，共享内存、IO 设备等资源。
  - 同时只能有一个 CPU 通过内存总线访问内存，因此 CPU 为 2~4 核时的利用率最高。增加 CPU 数量时，则 CPU 越来越可能因为等待访问内存而阻塞，导致利用率越来越低。
- 非一致内存访问（Non-Uniform Memory Access ，NUMA）
  - ：在计算机中划分多个节点（node），每个节点包含多核 CPU 、独立内存。
  - 各节点的 CPU 可以并发访问本节点的内存，也可以通过互联模块访问其它节点的内存，但比本地内存的访问速度慢。
  - SMP 属于一致内存访问。而 NUMA 大幅提高了 CPU 利用率，但跨节点访问内存时慢。
- 大规模并行处理（Massive Parallel Processing ，MPP）
  - ：将多个 SMP 服务器通过网络连通，组成一个计算机系统。
  - 与 NUMA 相比，MPP 不存在跨节点的内存访问。增加 CPU 时，系统性能会线性提升。
例：查看本机的 NUMA 节点
```
[root@CentOS ~]# lscpu | grep NUMA
NUMA node(s):          2
NUMA node0 CPU(s):     0-15
NUMA node1 CPU(s):     16-31
```
- 上例中有 2 个 NUMA 节点，分别包含 16 核 CPU 。
- 如果只有 1 个 NUMA 节点，则属于 SMP 架构。

# 型号

# x86

：美国 Intel 公司发布的一系列 CPU 型号。
- 指令集属于 CISC 。
- x86 CPU 的对外授权较少，主要由 Intel 公司与 AMD 公司交叉授权，两家公司掌控了设计、生产、销售 CPU 的全部流程。
  - 有些技术专利已过期，任何公司都可以使用。
相关历史：
- 20 世纪，人们研发了很多种集成电路芯片，但每种芯片只有单一用途，比如用于控制电话的芯片、用于控制电视的芯片。
- 1971 年，Intel 公司发布了一款型号为 4004 的芯片，只有 4 位字长，但可自由编程，实现通用用途。
  - 这是世界上第一款商用的微处理器芯片。
  - 这款通用芯片的销量不错，因此 Intel 公司又发布了 8008、8080、8085 等型号的芯片，字长增加到 8 位。
  - 这些芯片大多被用于控制计算机，担任 CPU 。因此被统称为 CPU 芯片。
- 1978 年，Intel 公司发布了 8086 型号的 CPU 芯片。
  - 8086 CPU 实现了大幅的技术升级。字长增加到 16 ，数据总线的宽度为 16 bits ，地址总线的宽度为 20 bits ，可对最多 1MB 的内存空间进行寻址。
  - 当时，IBM 公司在销售的个人电脑中，安装了 Intel 芯片，这大幅推动了 Intel 芯片的销量。甚至 Intel 公司的市值，超越了 IBM 公司。
- 1981 年，IBM 公司意识到个人电脑的市场潜力大，于是开始向公众销售个人电脑（PC）。
  - IBM PC 的 CPU 芯片，是从 Intel 公司采购的 8088 芯片。它与 8086 芯片相似，但更便宜。
  - IBM PC 的操作系统，是从 Microsoft 公司采购的 DOS 系统。它原本是 Seattle Computer 公司研发的一个操作系统，Microsoft 公司购买了该系统的所有权，通过软盘安装到 IBM PC 中。
  - IBM PC 的销量很大，推动了 PC 技术向公众普及。而 Intel、Microsoft 两家公司也跟着赚了大钱，甚至市值超越 IBM 公司。
- 后来，Intel 公司又发布了 80186、80286、80386 等型号的 CPU 。
  - 从 80386 开始，CPU 字长增加到 32 位。
  - 这些 CPU 都沿用了 8086 CPU 的架构，简称为 x86 架构。
    - 优点：保证兼容性，用户购买了新 CPU ，也能运行旧 CPU 上的程序。
    - 缺点：x86 架构被沿用了几十年，问题越来越多，但难以大改。
- 2003 年，AMD 公司将 x86 架构的字长扩展到 64 ，命名为 AMD64 ，又称为 x86_64 或 x64 。

# ARM

：进阶精简指令集机器（Advanced RISC Machine），指英国 ARM 公司发布的一系列 CPU 型号。
- 字长为 32 ，指令集属于 RISC 。
- 成本低、功耗低、散热低，因此用于手机、平板等小型电子设备比 x86 更有竞争力。
- ARM 公司只负责设计 ARM CPU 架构、指令集，不实际生产 CPU ，而是并出售许可证给其它公司，允许其研发、生产 ARM 芯片。
相关历史：
- 2011 年，ARM 公司发布了 ARMv8-A 架构，字长为 64 ，并且重新实现了 ARM 32 位的指令集。
  - ARMv8-A 架构划分了 AArch32、AArch64 两种执行状态，分别用于执行 32 位、64 位的指令。
- 2020 年，Apple 公司发布了一款基于 ARMv8-A 架构的 CPU ，称为 Apple Silicon M1 ，用于此后的 MacBook、iPad 等设备。

# 指令

指令：是让 CPU 进行某一操作的命令代码，由操作码和操作数组成。

操作码：表示操作符即该操作的类型，比如数据传送、算术运算、逻辑运算、位运算等。
操作数：表示该操作的对象，或者对象的地址。
- 有的指令没有操作数，有的指令有 1 个操作数，有的指令有 2 个操作数。

8086 CPU 的指令示例：

MOV   AL, 18H   ; 将源操作数 18H 存入目的操作数中，这里的目的操作数是一个数据寄存器 AL
ADD   AL, 01H   ; 加法：计算目的操作数 AL 加上源操作数，结果存入目的操作数所指的寄存器中
SUB   AL, 01H   ; 减法：计算目的操作数 AL 减去源操作数，结果存入目的操作数所指的寄存器中
INC   AL        ; 增量：使操作数的值加 1
MUL   2H        ; 无符号数的乘法：计算 AX 中的值乘以该操作数，结果存入 AX
DIV   2H        ; 无符号数的除法：计算 AX 中的值除以该操作数，结果存入 AX

现代计算机中，运行一个程序时，需要将该程序编译成二进制代码，载入物理内存，让 CPU 读取并执行。
- 这些二进制代码，实际上是一连串能被本机 CPU 识别的指令，称为指令流。

# 指令集

指令集：指某个型号的 CPU 可以识别和执行的所有指令，又称为指令系统。
常见的 CPU 指令集架构（Instruction Set Architecture ，ISA）：
- CISC（Complex Instruction Set Computer ，复杂指令集）
- RISC（Reduced Instruction Set Computer ，精简指令集）
  - 精简了指令数，每个时钟周期执行一条指令。
  - 指令的长度统一。
  - 精简了寻址方式。
- EPIC（Explicitly Parallel Instruction Computing ，显式并行指令集）
- VLIW（Very Long Instruction Word ，超长指令集）

# 性能指标

# CPU usage

Linux 内核安排任务给 CPU 执行时，会精确记录每个任务使用 CPU 的时长，便于监控 CPU 的负载大小、使用率。
例：查看 CPU 的累计使用时长
```
[root@CentOS ~]# cat /proc/stat
cpu  443710619 3208 169665123 4484368433 32182610 0 127452828 0 0 0   # CPU 所有核心的使用时长之和
cpu0 202357958 1462 86101880  2258409823 15562055 0 65470261  0 0 0   # 0 号核心的使用时长
cpu1 241352660 1745 83563242  2225958610 16620554 0 61982566  0 0 0   # 1 号核心的使用时长
```
- 这里的时间单位为 jiffies 。
  - 因为 Linux 内核的定时器，每隔 1 jiffies 时长产生一次中断，监控一次 CPU 。
  - 1 jiffies 通常等于 10 ms 。
- 这些数值来自 Linux 内存中的计数器。每次 Linux 重启，这些计数器会清零。
- 这里记录了 10 列数值，表示多种任务使用 CPU 的时长：
```
user        # 简称为 us ，表示用户态进程使用的时长，不包括 nice 时长
nice        # 简称为 ni ，表示 nice 谦让值大于 0 的用户态进程，使用的时长
system      # 简称为 sy ，表示内核态进程使用的时长
idle        # 简称为 id ，表示 CPU 的空闲时长，此时没有执行任何任务
iowait      # 简称为 wa ，表示 CPU 等待磁盘读写数据的时长
hardware interrupt  # 简称为 irq ，表示硬件中断的时长
software interrupt  # 简称为 softirq ，表示软件中断的时长
steal       # 本机作为虚拟机时，被偷走的 CPU 可用时长，会被宿主机用于执行其它任务，比如运行其它虚拟机
guest       # 本机作为宿主机来运行虚拟机时，虚拟机（称为 guest）中进程使用的 CPU 时长
guest_nice  # nice 谦让值大于 0 的 guest 进程，使用的 CPU 时长
```
- 分析这么多种 CPU 使用时长比较麻烦，通常只关注一个性能指标：CPU 使用率（CPU usage）
  - 它表示单位时间内，CPU 忙碌时长所占比例。计算公式为 %CPU = ( 1 - idle时长 / 单位时长 ) × 100%
  - 假设某一秒，CPU 某个核心的累计 idle 时长增加了 0.2s ，则说明有 0.8s 处于忙碌状态，CPU 使用率为 80% 。
  - 统计 CPU 所有核心的使用率，取平均值，就得到了整个 CPU 芯片的使用率。
  - 用户难以每秒监控一次 /proc/stat ，可以每分钟监控一次，计算出每分钟的 CPU 使用率，视作平均每秒的 CPU 使用率。
- 上面是从 CPU 的角度，统计 CPU 使用时长。而从进程的角度来看，一个进程可能每秒使用多个 CPU 核心，需要累计这些核心的使用时长，才能知道该进程用了多久 CPU 。
  - 假设进程每秒累计使用 1.5s CPU ，则 CPU 使用率为 150% 。
  - 因此，统计进程的 CPU 使用率时，可能超过 100% ，最大值等于 CPU 核数。
例：假设在一个宿主机上，运行了两个虚拟机 VM1、VM2 。每秒统计一次 CPU 开销。
- 假设 VM1 中，CPU 有 2 个核心，平均每秒的 idle 时长为 0.2s、0.4s 。
  - 可知，这 2 个核心，平均每秒的使用时长为 0.8s、0.6s ，合计 1.4s 。
  - 可知，这 2 个核心，平均每秒的 CPU 使用率为 80%、60% 。
  - 可知，整个 CPU 芯片的平均使用率为 70% 。
- 假设宿主机总共有 2 核物理 CPU ，给 VM1 分配了 2 核虚拟 CPU ，给 VM2 分配了 1 核虚拟 CPU 。
  - 此时，虚拟 CPU 的总核数，超过了物理 CPU 的总核数。这一现象称为超额分配，宿主机不足以让所有虚拟机同时跑满 CPU 。
  - 假设 VM1 中，全部进程的 CPU 使用率为 150% ，则宿主机的物理 CPU 经常处于忙碌状态，每秒只能腾出 0.5s 可用时长给 VM2 。对于 VM2 而言，它的 CPU 可用时长被 steal 了。

# load average

：平均负载，指平均每段时间内活跃的进程数。

活跃进程包括：
- 正在被 CPU 运行的进程（Running）
- 等待被 CPU 运行的进程（Runnable）
- 不可中断的进程（比如 iowait）
这些活跃进程，使用的系统资源可能不同，主要分为几类：
- CPU 密集型（CPU intensive）
  - ：进程长时间使用 CPU 进行运算。因此平均负载高时，CPU 使用率也高。
- IO 密集型（IO intensive）
  - ：进程长时间等待磁盘 IO 或网络 IO 。因此平均负载高时，CPU 使用率不一定高。
  - 一个进程可能同时属于 CPU 密集型、IO 密集型，导致 CPU 使用率高。也可能不属于这两种，几乎不用资源，长时间 sleep 。
  - IO 密集型的进程，通常会导致 CPU 长时间处于 iowait 状态，等待磁盘读写数据。
    - 大部分 IO 操作能异步进行，CPU 不必一直保持在 iowait 状态，可以切换到 user、system 状态去执行其它任务。
    - 因此，如果 CPU 长时间处于 iowait 状态，则说明磁盘负载大。
  - 即使磁盘极其忙碌，100% 时间都在 IO 工作，CPU 也未必 100% 时间处于 iowait 状态。
    - 因此，如果 CPU 没有长时间处于 iowait 状态，则不一定说明磁盘负载小。
如果只存在 CPU 密集型进程，则理想情况下，主机的平均负载数应该刚好等于 CPU 核数，使得每个 CPU 运行一个活跃进程，且没有 CPU 空闲。
- 例：对于有 2 核 CPU 的主机，
  - 若平均负载为 1 ，说明 CPU 使用率为 50% 。
  - 若平均负载为 2.6 ，说明 CPU 超载了，有部分进程竞争不到 CPU 。
- 实际上，除了 CPU 密集型进程，主机中经常存在一些 sleep 状态的进程，不会增加 CPU 使用率，但会导致平均负载看起来虚高。
  - 例如平均负载为 4 时，可能 CPU 使用率为 0% 。
通常用 uptime 命令查看 CPU 平均负载。例：
```
[root@CentOS ~]# uptime
up 21 days, 41 min,  1 users,  load average: 0.52, 0.58, 0.59
```
- up 21 days, 41 min ：表示主机的运行时长。每次重启，会重新计时。
- 1 users ：表示已登录的用户数。
- load average: 0.52, 0.58, 0.59 ：表示最近 1 分钟、5 分钟、15 分钟的平均负载。

# 执行速度

时钟周期（Clock Cycle）
- ：CPU 的振荡器发出时钟脉冲的间隔时长。
- 其倒数称为时钟频率。
- 例：一个 4 GHz 的 CPU ，每秒产生 4*10^9 个时钟脉冲，时钟周期为 0.25*10*-9 秒。
- 现代 CPU 的时钟频率通常为 3~4 GHz 。如果继续提升时钟频率，则耗电量、散热难度大幅增加。
指令周期
- ：CPU 执行一条指令所需的时长。
- 不同指令的指令周期不同，因此通常是计算平均值。
- 早期的 CPU ，每个时钟周期只能执行一条指令。现代的 CPU ，每个时钟周期可能执行多条指令。
- 将 CPU 的时钟频率，乘以每个时钟周期平均执行的指令数（Instructions Per Cycle ，IPC），就得到每秒平均执行的指令数（Instructions Per Second ，IPS）。
字长（Word Size）
- ：又称为位元，指 CPU 的算术逻辑单元每次最多能处理多少位二进制数据。
- 现代 CPU 的字长通常是 32 位、64 位。

# 读写速度

假设用 tar 命令压缩文件，则主要流程如下：
1. 从磁盘的源文件中读取数据，然后依次拷贝到内存、CPU Cache、CPU Register 。
2. CPU 从 CPU Register 读取源数据，执行压缩算法，计算出压缩后的数据。
3. CPU 输出压缩后的数据到 CPU Register ，然后依次拷贝到 CPU Cache、内存、磁盘。可见，CPU 执行程序的耗时主要受以下因素影响：
- CPU 读写数据的速度
- CPU 执行指令的速度
计算机中存在多种存储设备，读写速度从高到低分别为：CPU Register > CPU Cache / Buffer >> 内存 >> 磁盘
- 时钟频率、访问延迟也是这样的顺序。
- 成本则相反顺序。一般磁盘的 IO 速度最慢，但成本最低，因此相同价格时的容量最大。
- 除了读写速度的差异，外存在断电之后能持久保存数据，而其它存储设备通常不能。
CPU 处理数据的速度，比外存读写数据的速度，快很多倍。让 CPU 同步读写外存时，会浪费时间等待 IO 。因此 CPU 采用异步读写，通过内存、Cache 中转数据。
- 读取文件的流程示例：
  1. CPU 要求读取一个文件，发送指令给磁盘驱动器。然后 CPU 可以执行其它任务，不必浪费时间等待。
  2. 磁盘驱动器寻址到文件数据，拷贝到磁盘驱动器的内部缓冲区。然后发送中断通知 CPU ，于是 CPU 发生上下文切换，回来执行当前任务。
  3. CPU 从磁盘拷贝数据到内存。
    - 先拷贝到内存中的 Page Cache 空间，此时只能被内核态进程访问。
    - 从 Page Cache 拷贝到进程内存空间，此时才能被用户态进程访问。
    - 为了避免 CPU 亲自拷贝数据的耗时，通常在计算机中加入 DMA（Direct Memory Access，直接内存访问）控制器，代替 CPU 接收第 2 步的中断信号，将数据拷贝到 Page Cache ，然后发送中断通知 CPU 。
  4. CPU 从内存拷贝数据到 CPU Cache ，再拷贝到 CPU Register，供 CPU 直接访问。
- 写入文件的流程相反，先由 CPU 从进程内存空间拷贝数据到 Page Cache ，再由 DMA 拷贝到磁盘。