# 哈希算法

：Hash algorithm 。是一种信息摘要算法，用于计算一段数据的摘要值。

工作流程：
1. 用户向哈希算法输入一段数据，作为输入值。
2. 哈希算法根据输入值，生成一段随机数据，作为输出值，又称为哈希值、摘要值、散列值。
  - 哈希值，是根据输入值生成的。因此，如果两个输入值 a 与 b 相同，则它们对应的哈希值 H(a) 与 H(b) 也相同。
  - 每个输入值，通常会映射到一个独一无二的哈希值。因此，如果两个输入值 a 与 b 不同，则它们对应的哈希值 H(a) 与 H(b) 通常不同。
哈希算法常用于检验数据的一致性。
- 例如两个人各自拥有一个文件，如何在不泄露文件内容的情况下，判断这两个文件内容是否相同？两个人可分别计算自己文件的哈希值，然后告知对方。如果两个哈希值相同，则说明两个文件极大概率相同。
- 例如 Web 服务器不储存用户的明文密码，而是储存密码的哈希值。如果用户输入的密码的哈希值与数据库中存储的哈希值一致，则判断密码正常。这样连网站管理员都看不到用户的明文密码，避免泄露。
哈希算法在广义上可视作加密算法，但加密过程不可逆。
- 可以加密：用户拥有一个字符串 str1 ，可以计算出它的哈希值 hash1 ，然后只将 hash1 告诉其他人，避免泄露 str1 的值。
- 不能解密：其他人知道了 hash1 ，不能从 hash1 反推出 str1 的值。
- 极低概率被破解：其他人可以编造一个字符串 str2 ，如果其哈希值 hash2 等于 hash1 ，则说明 str2 的值与 str1 相同，或者是两个不同的 str 发生了哈希碰撞。但这样编造 str2 ，需要尝试非常多的可能取值，工作量极大，破解的概率极低。

# 特点

人们发明了多种哈希算法，它们通常具有以下特点：

正向快速
- ：输入一段任意长度的数据，由哈希算法计算，会快速输出一个固定长度的、难以预测的哈希值。
- 输入值通常采用二进制格式。例如将图片等文件转换成二进制流，然后计算哈希值。
- 输出值通常采用十六进制格式，便于阅读。
逆向困难
- ：如果只知道一个数据的哈希值，则难以据此反推出原数据的内容。
- 因为理论上生成同一个哈希值的原数据可能有无数个。想反推出原数据，除非哈希算法存在容易被反推的缺陷，或者建立一个庞大的数据库，存储常见的一些数据的哈希值。
确定性
- ：如果两个输入数据相同，则它们的哈希值一定相同。
- 在计算机上编辑图片等文件时可能会自动加上时间信息等内容，导致最后保存的文件内容看起来一样，实际上二进制数据并不一样，因此哈希值不同。
抗碰撞性
- ：很难找到两个不同的输入数据，映射到相同的哈希值。
- 如果两个数据的哈希值相同，则称为发生碰撞。
- 哈希算法的碰撞率越低越好。这需要哈希值的取值空间大，并且映射的哈希值均匀分布。
- 例如 MD5 生成 128 位的哈希值，而 SHA256 生成 256 位的哈希值，取值空间更大，因此碰撞概率更低。
输入敏感
- ：如果两个输入数据不同，即使只有一个 bit 的差异，输出的哈希值也会有很大差异。

# 批量哈希

用户将一条数据，输入哈希算法，便可得到其哈希值。但如果存在很多条数据（比如几百个文件），如何批量计算哈希值？可采用几种方案：

哈希列表（Hash List）
- 原理：
  1. 分别计算每个节点的哈希值。将这些哈希值，保存为一个列表。
  2. 计算列表的哈希值。
- 如果任一节点发生变化，列表的哈希值都会变化。因此，用户不必保存每个节点的哈希值，只需保存列表的哈希值，就能检验所有节点的一致性。
- 如果用户发现列表的哈希值变化，希望找出具体是哪个节点发生了变化。则需要遍历每个节点，检查其哈希值是否变化，时间复杂度为 O(n) 。
哈希链（Hash Chain）
- 原理：
  1. 计算第 1 个节点的哈希值。
  2. 将上述哈希值，与第 2 个节点的内容拼接在一起，计算哈希值。
  3. 将上述哈希值，与下一个节点的内容拼接在一起，计算哈希值。以此类推。
- 如果任一节点发生变化，则在哈希链中，其后所有节点的哈希值都会变化。
哈希树（Hash Tree）：又称为默克尔树（Merkle Tree）
- 原理：
  1. 计算每个节点的哈希值，存放在二叉树的叶子节点。
  2. 对于每个父节点，将它所有子节点的值拼接在一起，计算哈希值，作为父节点存储的值。
- 从一个叶子节点到根节点的路径，称为 Merkle 路径。
- 如果任一节点发送变化，则根节点存储的哈希值都会变化。
- 如果用户发现根节点的哈希值变化，希望找出具体是哪个节点发生了变化。则需要按二分法查找子孙节点，检查其哈希值是否变化。时间复杂度为 O(logn) ，效率较高。
- 假设哈希值存储在其它主机上，则采用 Hash List、Hash Chain 时，本机需要下载所有节点的哈希值用于遍历检验。而采用 Merkle Tree 时，本机只需下载 Merkle 路径上相关节点的哈希值用于检验，开销更低。

# MD5

：消息摘要算法（Message-Digest Algorithm）

于 1992 年发布，生成 128 位的哈希值。
存在容易被碰撞攻击的漏洞，安全性差。但生成速度快，依然可以用于非安全用途。

# SHA

：安全哈希算法（Secure Hash Algorithm）

由美国国家安全局发布，分为几个版本：
- SHA-1 ：于 1995 年发布，会生成 160 位的哈希值。安全性较差，可能被碰撞攻击。
- SHA-2 ：于 2001 年发布。常用的是 SHA-256、SHA-512 ，分别生成 256、512 位的哈希值。安全性更高，但是生成速度较慢。
- SHA-3 ：于 2015 年发布。

# MAC

MAC（Message Authentication Code，消息验证码）
- 用途：在主体数据之外附带一个验证码，用于校验主体数据的一致性。而且第三方没有密钥，不能伪造这个验证码。
用于生成 MAC 的算法有多种，统称为 MAC 算法。
- MAC 算法的基本逻辑：输入一段数据、一个密钥，然后输出一个 MAC 验证码。
- MAC 算法与哈希算法的都属于信息摘要算法，主要用于校验数据一致性，区别在于：
  - 如果知道一段数据的明文、哈希值，任何人都能检验该哈希值是否正确。
  - 如果知道一段数据的明文、MAC 验证码，只有拥有 MAC 密钥的人，才能检验该 MAC 验证码是否正确。其他人不能检验数据的一致性。
- MAC 算法常用于计算机通信领域。
  - TCP 通信中，发送方会同时发送 payload 及其 checksum ，接收方会根据 checksum 检查 payload 是否传输出错。但第三方可以篡改 payload ，并根据新的 payload 伪造出新的 checksum 。
  - SSL 通信中，发送方会同时发送 payload 及其 MAC 验证码。只有通信双方知道 MAC 密钥，能计算出 MAC 验证码。而第三方不能伪造 MAC 验证码，因此不能篡改 payload 。因此 MAC 验证码又称为受保护的校验和。

# import hashlib

：Python 的标准库，提供了实现 MD5、SHA1、SHA256、SHA512 等常见哈希算法的函数。

例：

>>> import hashlib
>>> h = hashlib.sha256()          # 创建一个 Hash 对象
>>> h.update("Hello".encode())    # 输入要 Hash 的内容（必须转换成 bytes 类型）
>>> h.update("World".encode())    # 可以累加
>>> h.digest()                    # 生成哈希值（ bytes 类型）
b'\x87.NP\xce\x99\x90\xd8\xb0A3\x0cG\xc9\xdd\xd1\x1b\xeckP:\xe98j\x99\xda\x85\x84\xe9\xbb\x12\xc4'
>>> h.hexdigest()                 # 生成十六进制的哈希值（ str 类型）
'872e4e50ce9990d8b041330c47c9ddd11bec6b503ae9386a99da8584e9bb12c4'
>>> hashlib.sha256("HelloWorld".encode()).hexdigest()      # 可简化成一步
'872e4e50ce9990d8b041330c47c9ddd11bec6b503ae9386a99da8584e9bb12c4'

在哈希时加盐：

import os
salt       = os.urandom(10)       # 生成指定字节数的随机 bytes 对象
password   = '123456'.encode()
Hash_bytes = salt + password
result     = hashlib.sha256(Hash_bytes).hexdigest()

用 Python 的 random 模块生成的随机数是不安全的，此处应该用 os.urandom() 函数生成随机数。

# import hmac

：Python 的标准库，提供了实现 HMAC 算法的函数。

HMAC 算法是一种输出哈希值的 MAC 算法。
- 加密过程：
  1. 输入一段数据、一个密钥、一个哈希算法名。
  2. 将数据与密钥拼接，计算哈希值。（还会对密钥进行加工）
  3. 将上述值与密钥拼接，计算哈希值，作为 MAC 验证码。
- 与哈希加盐类似，但计算两次哈希值，更难预测。

例：

>>> import hmac
>>> key = os.urandom(10)
>>> msg = '123456'.encode()
>>> hmac.new(key, msg, 'sha256').hexdigest()
'62f33c9d8af25adb6ca6180f9351618084de7d95d5f2689489700f48f982bae6'
>>> hmac.compare_digest(b'123', b'123')    # 比较两个数据的哈希值是否相同
True