# 相关历史

# 图灵机

  • 1936 年,作为数学学士毕业的 Alan Turing ,在英国剑桥大学担任研究员。他发表论文,设想了一种能执行任何数学算法的通用机器。

    • 这种机器被称为图灵机(Turing machine),工作原理如下:
      • 在一条纸带上,记下一个一个符号。
      • 一台机器,依次读取纸带上的符号,然后根据符号执行数学算法。
      • 机器将数学算法的结果,打印在纸带上。
    • 图灵机是一个理论模型,在数学上证明了通用计算机是可以实现的。
      • 如果一个数学问题可以被表达为有限步骤的数学算法,则可以被图灵机解决。
      • 如果一个编程语言能完成图灵机的所有功能,比如算术运算、逻辑运算、条件判断、循环,则称为图灵完备(Turing Completeness)。
  • 1945 年,美国的 John von Neumann 在参与研制原子弹的同时,还为 EDVAC(Electronic Discrete Variable Automatic Computer)项目的巨型计算机,设计了一种硬件结构。

    • 他将计算机分为五个基本部分:运算器、控制器、存储器、输入设备、输出设备
    • 这种计算机结构,被称为冯诺依曼结构,后来被大部分计算机采用。
  • 1950 年, Alan Turing 发表论文《Computing Machinery and Intelligence》

    • 该论文探讨了一个重要问题: Can machines think?
    • 为了解答该问题,他提出了一个模仿游戏,用于判断一个机器能否思考。这个游戏后来被称为图灵测试,原理如下:
      • 安排一个人类 A 与机器 B ,分别与人类 C 对话。
      • 对话双方,采用写信等间接方式,避免看到对方的模样、透露身份信息。
      • 如果对话之后,人类 C 不能分辨与自己对话的对方,是不是机器。则说明这个机器能模仿人类的思考。

# 人工智能

  • 1956 年,美国 Dartmouth 学院的教授 John McCarthy 发起一场关于 thinking machines 的研讨会,邀请了 Claude Shannon、Marvin Minsky、Nathaniel Rochester 等学者。

    • 他们探讨了如何让机器使用人类的语言、模仿人类的思考、代替人类解决问题。
    • 他们首次提出了 AI(Artificial Intelligence,人工智能)的概念,指人类制作的智能。
  • 随后几十年,人类研究了许多实现人工智能的技术,主要分为几类:

    • 专家系统
    • 机器学习
    • 符号推理
    • 遗传算法
  • AI 技术的常见用途:

    • NLP(Natural Language Processing,自然语言处理)
      • 让 AI 能理解人类的语言、生成文字。
      • 例如将一篇文章,从英语翻译到汉语。
      • 例如分析一篇文章,提取其内容大意。
    • 计算机视觉
      • 让 AI 能理解图像、视频。
      • 例如分析一张图片,识别其中存在什么物体。
      • 例如分析一张图片,找出其中的人脸,并进行人脸识别。
    • 数据预测
      • 让 AI 分析一段数据的历史走势,学习其中的规律,然后预测未来走势。
      • 例如预测股市走势。
      • 例如分析用户的信息,将用户可能感兴趣的广告,推送给用户。
    • AI 决策
      • 让 AI 对某一问题,给出解决方案。
      • 例如分析病人的信息,进行医疗诊断。
    • AIGC
    • 机器人控制
  • 目前,人类已经研发了许多有用的 AI 技术,能让机器代替人类完成许多任务。但人类尚未做出 AGI(Artificial General Intelligence,人工通用智能)。

    • AGI 的一种定义是: AI 能代替人类完成所有任务,具备人类的所有能力。
    • AGI 的另一种定义是: AI 能自主学习,掌握所有能力,不需要为每种能力单独编程。
    • 哲学上,人们还探讨了 strong AI :不但拥有智慧、能力,还拥有自我意识、情感。

# 专家系统

  • 1965 年,美国斯坦福大学的教授 Edward Feigenbaum 带头研发了专家系统(expert system)。

    • 专家系统是一种基于知识库进行决策的软件。知识库内由人类预设了很多 If... Then... 形式的规则。
    • 此时, ANN 技术还在初级阶段,难以投入实际应用。而专家系统的研发难度更低,是当时最热门的人工智能技术。
  • 1980 年代,专家系统被人们大规模使用。

    • 比如用于医疗领域:如果病人具有某症状,则给出某个诊断结果。
    • 比如用于法律领域:如果一件事符合某法律条文,则给出某个法律结论。
    • 比如一些大学,开设了专家系统的课程。
    • 人们对于专家系统过于乐观,希望它能代替人类进行决策。但随着推广使用,专家系统的缺陷越来越明显:
      • 只能基于呆板的规则进行决策,难以处理意外的情况。
      • 只能进行简单的规则判断,一旦规则变得复杂,就容易出错。
  • 1990 年代,研究专家系统的学者越来越少,毕竟 ANN 技术的能力更强、潜力更大。

    • 有些软件依然采用专家系统进行决策,毕竟研发难度比 ANN 技术低很多。
    • 有些软件将专家系统换了个称呼,改名为规则引擎。

# 机器学习

  • 1956 年,美国 IBM 公司的 Arthur Samuel ,在 IBM 的第一台商用计算机上,编写了一个能学习下棋的跳棋程序。

    • 当时,他的跳棋程序,已经能战胜业余的人类棋手。这引发了公众轰动,毕竟商用计算机才出现没几年,人们惊叹于计算机的学习能力。
    • Arthur Samuel 写了一个论文,解释这个跳棋程序的原理:
      • 如何让计算机学习下棋?最直接的方案,是让计算机穷举所有可能的棋局,从中找出通往胜利的下棋位置。
      • 但当时的计算机内存很少,因此他采取的方案是:编写一个函数,分析每个下棋位置的获胜概率,从中找出胜率最大的下棋位置。
      • 他还改进了跳棋程序,让程序能记住已发生的棋局位置,保留经验。
      • 他还让程序自己与自己对弈几千场棋,从而积累经验。
    • Arthur Samuel 在论文中,首创了机器学习(Machine Learning)这一概念。
      • 他对机器学习的定义是:使得计算机无需明确编程,就能学习解决问题。
      • 后来,人们改进了机器学习的定义:计算机执行某种任务时,随着经验的增加,能提升某种性能指标。
  • 1987 年,美国卡内基梅隆大学的博士生徐峰雄,为国际象棋研发了一台名为 ChipTest 的超级计算机,赢得了北美计算机国际象棋锦标赛的冠军。

    • 徐峰雄毕业之后,加入了 IBM 公司,带队研发了一台名为 Deep Blue 的超级计算机,继续参加国际象棋比赛。
  • 1997 年, Deep Blue 在国际象棋比赛中,以2胜1负3平的成绩,战胜了人类的世界冠军 Garry Kasparov 。

    • 这标志着计算机已经能在复杂棋类游戏中战胜人类,引发了公众轰动。
    • Deep Blue 没有采用神经网络,而是由人类手动编写复杂算法、预设大量决策规则。
      • 因此 Deep Blue 能勉强胜任国际象棋,但不能胜任围棋,因为围棋的棋局可能性多很多倍。
  • 人类为实现机器学习这一目的,研发了许多种算法,可分为几类:

    • 监督学习
      • 给程序提供一组输入、输出作为示例数据,让程序学习从这些输入映射到输出的一般规律。
      • 通常,需要给程序提供大量数据,让程序找出统计学上的规律。
    • 无监督学习
      • 不提供示例数据,让程序直接学习规律。
    • 半监督学习
      • 只提供少量示例数据。
    • 强化学习
      • 让程序执行某种任务,如果表现好,就给予正反馈作为奖励,从而鼓励程序表现得越来越好。

# 神经网络

  • 1943 年,美国的神经科学家 Warren McCulloch 与 Walter Pitts 发表论文,分析了人脑神经元的工作逻辑。

    • 人类大脑的思维过程,是由许多神经元协同工作。每个神经元负责完成一种简单逻辑:如果满足某条件,则做出某决策。
      • 例如,对于 "今天逛公园吗" 这个问题,需要考虑多个条件:
        • 如果喜欢逛公园,则提高意愿一定程度。
        • 如果天气下雨,则降低意愿一定程度。
        • 如果身体不适,则降低意愿一定程度。
    • 可以为一个神经元,建立一个数学模型:
      • 定义多个输入变量,用一个矢量 X = (x1, x2, x3, ...) 表示。
      • 每个输入变量,存在不同的权重,用一个矢量 Y = (y1, y2, y3, ...) 表示。
      • 定义一个阈值 threshold ,它决定了输出变量 output 的取值:
        • 如果 X*Y ≤ threshold ,则 output = 0 ,决策为否
        • 如果 X*Y > threshold ,则 output = 1 ,决策为是。
      • 只要给矢量 Y 、阈值 threshold 分配合适的值,就能让这个数学模型,模拟人类的决策逻辑。
    • 受此启发,他们提出了一种软件方案:
      • 编写许多个软件单元,每个单元像一个神经元,负责处理一种逻辑判断。
      • 这些软件单元可以协同工作,模拟人脑的神经网络。
      • 只要有足够多的软件单元,这种软件可以执行任何数学算法,实现图灵机。
  • 后来,人们继续研究这种模拟神经网络的软件方案,称为人工神经网络(Artificial Neural Network,ANN),简称为 NN 。

    • 编程实现神经网络时,主要逻辑如下:
      • 在代码中存储了权重矢量 Y 、阈值 threshold 的取值。
      • 给代码输入矢量 X 。
      • 代码会自动输出变量 output 。
    • 权重矢量 Y 、阈值 threshold 的取值,是算法模型中的核心参数。如何确定它们的取值?
      • 最初,人们手动赋值,然后测试效果。如果效果不好,就换个取值再测试。
      • 后来,人们编写程序来自动赋值、自动测试。这个过程称为训练模型。
    • 可以将一个神经单元的输出,用作另一个神经单元的输入。以此类推,可以组成 n 层神经网络,实现复杂的决策逻辑。
      • 多层神经网络,还可以采用环形结构,让信号循环传递到各个神经元。这种结构称为 RNN(Recurrent Neural Network)。
      • 用多层神经网络来实现机器学习的方案,称为深度学习(Deep Learning)。
  • 1958 年,美国的心理学家 Frank Rosenblatt 发明了感知器(Perceptron)。

    • 它是一个三层的神经网络,包含输入层、隐含层、输出层。
    • 它能检查输出值,如果与预期值不一致,则自动调整权重参数。
    • 它是世界上第一个能自动训练的 ANN 模型,能自己学习,不需要人类手动分配参数。
  • 1965 年,苏联的数学家 Alexey Ivakhnenko 发明了 GMDH(Group Method of Data Handling) 算法。

    • 它是第一个可行的深度学习算法,能训练任意 n 层神经网络。
    • 它能根据经验数据,自动确定模型的结构和参数,实现归纳学习。
  • 1969 年,日本的福岛邦彦发明了 ReLU(Rectified Linear Unit,整流线性单元),它成为了深度学习中常用的激活函数。

  • 1979 年,福岛邦彦发明了第一个带有卷积层的神经网络,开创了卷积神经网络(Convolutional Neural Network,CNN)这一架构。

    • 福岛邦彦的研究领域是图像识别,他从人脑的视觉细胞中得到了启发:存在一种处理简单任务的细胞、一种处理复杂任务的细胞,两种细胞级联工作。
  • 1982 年,美国的 Paul Werbos 使用误差反向传播算法,成功训练了多层神经网络。

    • 感知器等更早的算法,只能训练单层神经网络。如果训练多层神经网络,则不能有效地调整多个层的权重。
    • 反向传播算法,能计算每一层的梯度(误差),并将误差从输出层逐层传到输入层,从而逐层调整权重,因此能训练多层神经网络。
  • 1989 年,美国贝尔实验室的 Yann LeCun 等人,创建了一个名为 LeNet 的 CNN ,用于识别邮件上的手写邮编。

  • 1991 年,德国的 Sepp Hochreiter 在毕业论文中,发现了梯度消失问题。

    • 当时,反向传播算法虽然可以训练多层神经网络,但效果并不好。他找到了问题的原因:梯度传播多层时,较早权重的梯度,会在运算中被缩小幅度。
  • 1995 年, Sepp Hochreiter 发明了 LSTM(Long Short Term Memory,长短期记忆)技术,可以解决 RNN 网络的梯度消失问题。

    • LSTM 可以为 RNN 提供可持续数千个时间步的记忆。
  • 2012 年,加拿大的 Alex Krizhevsky 及其博士生导师 Geoffrey Hinton ,研发了一个 CNN 网络,名为 AlexNet ,在 ImageNet 图像分类比赛中取得了显著优势。

    • 他们使用两张 Nvidia GPU 来训练模型,比起使用 CPU 来训练模型,耗时大幅缩短。
    • 这引发越来越多人,使用 GPU 来加速训练模型。
  • 2016 年,英国 DeepMind 公司被 Google 收购,研发了 AlphaGo 程序,在围棋比赛中,战胜了人类的世界冠军李世石。

    • AlphaGo 采用深度学习,因此不必像 Deep Blue 那样由人类手动编写大量决策规则。
    • AlphaGo 进行了大量训练,包括与人类对弈、与计算机对弈,从而逐渐提高了下棋实力。

# NLP

# Transformer

  • 2011 年, Apple 公司发布一款名为 Siri 的对话机器人,安装在 iPhone 等电子产品中。

    • 此时 iPhone 这种触屏手机刚发布 4 年, Siri 实在是一个新潮的技术,是许多人首次接触的对话机器人。
    • 此时 AI 技术跟 20 世纪差不多,只是互联网技术大幅发展,使得 Siri 可以联网搜索资料。
    • Siri 的缺点很多:
      • 它的语音识别能力差,如果用户说话不够清晰、带口音,它就不能识别为文本。
      • 它的语言处理能力差,即使识别了用户说的一句话是什么,也经常误解用户的意图。
      • 它几乎没有逻辑推理能力,只能僵硬地执行用户的命令,比如拨打电话、地图导航。
  • 2014 年,微软公司发布一款名为小冰的对话机器人,以网页形式供用户访问。

    • 它基于深度学习的 RNN + LSTM 技术,使用大规模语料库进行训练,能与人类进行日常对话。但不能进行长对话。
    • 它能记住用户习惯等上下文信息,据此调整回答。但只能记住少量上下文信息。
    • 它能分析用户说话的语气、情感,据此调整回答。但只能进行初步的分析。
  • 2017 年, Google 公司的几位研究员发布论文《Attention is all you need》,提出一种新的深度学习架构,名为 Transformer 。

    • 当时,对于序列类型的数据(比如文本、音频),业界通常采用 RNN + LSTM 技术来处理。
      • 缺点:能记住一定长度的上下文信息,但超过长度就记不住,因此不能处理较长的序列。
      • 缺点:需要按顺序读取一个序列中的每个 token ,耗时久。
    • 谷歌翻译的 seq2seq 模型也采用 RNN + LSTM 技术。为了解决上述缺点,研究员做了以下改进:
      • 引入注意力机制,代替 LSTM ,使得模型不必记住全部上下文信息,只需记住有用部分。因此模型可以处理较长的序列。
      • 移除循环,并行化处理 token ,从而能在 GPU 上加速执行。
  • 2018 年, Google 公司发布一个名为 BERT 的语言模型。

    • 它采用 Transformer 架构。
    • 它进行了生成式预训练(Generative Pre-training,GP),这是一种半监督学习:
      • 先用一个未标记的、所有领域的数据集(比如 Wikipedia 等互联网资料),训练模型的通用能力。
      • 再用一个标记的、单个领域的数据集,进一步微调模型在该领域的能力。
    • 它使用两种方法来预训练:
      • 掩码标记预测:将句子中随机几个单词掩盖,让模型猜测这几个单词是什么。
      • 下一句预测:输入两个句子,比如 "I have a car." 与 "It is small." ,让模型判断这两个句子在语意上是否连续。
    • 传统的语言模型,只能按单个方向分析一个序列中的每个 token 。而 BERT 能顺序、倒序同时分析序列,建立两个方向的上下文。

# GPT

  • 2018 年,美国的初创公司 OpenAI 发布一个名为 GPT(Generative Pre-trained Transformer)的语言模型。

    • 它采用 Transformer 架构,进行了预训练+监督微调。
    • 它的模型参数有 1 亿个。
    • 它主要用于生成文本,但也可以生成图像、音频,只是没有经过针对性训练。
    • 缺点:它生成的文本依然比较呆板,容易出现逻辑错误、内容重复。
  • 2019 年, OpenAI 公司发布 GPT 的 v2 版本。

    • 与上一代 GPT 相比,它的训练数据集大了几倍,模型参数增加到 15 亿个。
    • 缺点:它生成的文本比较流畅,但依然容易逻辑错误、忘记上下文信息。
  • 2020 年, OpenAI 公司发布 GPT 的 v3 版本。

    • 与上一代 GPT 相比,它的训练数据集大了几倍,模型参数增加到 1750 亿个。
    • 它生成的文本很流畅,能处理复杂的长文本,偶尔才出现逻辑错误。换句话说,它处理自然语言的能力逼近真人,在许多情况下可以通过图灵测试。
    • 不过,它对现实世界的理解容易出错:
      • 回答用户的问题时,可能编造不存在的历史事实。这个问题,被人们称为模型的幻觉。
      • 在用户的诱导下,可能说出明显违背事实的错误言论。
  • 2022 年 11 月 30 日, OpenAI 公司发布一款名为 ChatGPT 的对话机器人。

    • ChatGPT 提供了网页版对话框,供用户使用。也提供了 API 。
    • ChatGPT 最初采用 GPT-3.5 模型,后来用户可选用 GPT-4 等其它模型。
    • ChatGPT 发布之后,迅速火爆世界, 2 个月时间就拥有 1 亿用户。公众惊讶 AI 技术已经这么强大。
      • 之前的 Siri 等对话机器人,只能进行简单的日常对话。但 ChatGPT 能进行复杂的长对话,几乎像人类。
      • ChatGPT 能理解文本中的语气、情感,甚至能讲幽默笑话。
      • 用户可以问任何领域的专业问题, ChatGPT 都能给出解答(因为用 Wikipedia 等数据训练了模型)。它像一个什么都懂的网友,只是回答不一定完全正确。
      • 许多学生,用 ChatGPT 解答自己的学校作业、考试试卷。
      • 在编程这个专业领域, ChatGPT 能理解一段代码的功能逻辑,进行讲解。能根据用户的需求,生成一段源代码。(因为用 Stack Overflow 等数据训练了模型)
    • ChatGPT 也让许多 AI 学者感到惊讶。
      • 在此之前,对话机器人虽然能与人类日常对话,但不能理解人类世界的常识、不能进行逻辑推理。
      • 因此,许多学者认为,等研究出 AGI 之后,才能让 AI 掌握常识、逻辑。
      • 但 ChatGPT 证明,如果模型训练了海量参数,就能记住很多常识、逻辑,能在许多场合模拟人类的智慧。这种模型被称为 LLM(Large Language Model)。
  • 2023 年, OpenAI 公司发布 GPT 的 v4 版本。

    • 它的模型参数超过 1 万亿个。
    • 它增强了多模态能力,能处理多种类型的数据(比如文字生成、图像生成、音频生成),不必为每种数据分别训练一个模型。
    • 它对涉及安全、道德的的内容,进行了更多的对抗训练、内容审查,使得模型很少生成带偏见、有害的内容。
  • 2025 年, OpenAI 公司发布 GPT 的 v5 版本。

    • 它带有一个路由器,会根据用户的提问难度,自动选择 GPT-5-main、GPT-5-thinking、GPT-5-mini 等模型来回答。

# LLM

  • ChatGPT 火爆世界之后,证明了 LLM 的巨大潜力。许多公司急忙跟着研发 LLM 模型,进行技术竞赛。

  • Anthropic 公司

    • 2021 年, OpenAI 的几名员工离职,创立了 Anthropic 公司。
    • 2023 年 3 月,发布一款名为 Claude 的模型。这个名字是致敬信息论的奠基人 Claude Shannon 。
  • 微软公司

    • 2019 年,向 OpenAI 公司投资 10 亿美元,约定将 OpenAI 公司的模型部署到 Azure 云平台。
    • 2020 年,为 OpenAI 公司定制了一台超级计算机,拥有 1 万张显卡。这提高了 OpenAI 训练模型的速度。
    • 2023 年,追加 100 亿美元投资,获得 OpenAI 的 49% 股权。将 GPT-3 的 API 整合到微软公司的产品中,命名为 Copilot 。
    • 2024 年,与 OpenAI 公司的合作减少,开始自研模型。
    • 2025 年,发布自研模型 MAI 。
  • Google 公司

    • 2020 年,发布一款名为 Meena 的对话机器人,模型参数有 26 亿个。
      • Google 公司限制了 Meena 被公众使用,因为担心对话机器人的能力太强,可能被用户滥用,比如网络诈骗。
    • 2021 年,将 Meena 的模型改名为 LaMDA (Language Model for Dialogue Applications),模型参数有 1370 亿个。
    • 2022 年,发布 LaMDA 的 v2 版本。
    • 2023 年 2 月,发布一款名为 Bard 的对话机器人,基于 LaMDA 模型。
      • Bard 是匆忙发布的产品,在发布会上展示的效果较差,导致 Google 公司的股价下跌 10% 。
    • 2023 年 12 月,发布一款名为 Gemini 的模型,它继承 LaMDA 但做了大幅修改。
  • Meta 公司

    • 2023 年 2 月,发布一款名为 Llama 的模型。
  • xAI 公司

    • 2023 年 3 月,马斯克创立 xAI 公司,加入 LLM 赛道。
    • 2023 年 11 月,发布名为 Grok 的自研模型,并以对话机器人的形式,集成到 X 网站上,供网络用户免费使用。
  • DeepSeek 公司

    • 2016 年,梁文锋在中国创立 High-Flyer 公司,利用 AI 技术进行量化交易。
    • 2023 年, High-Flyer 公司将 AI 部门拆分为独立公司 DeepSeek 。
    • 2023 年 11 月,发布一款名为 DeepSeek-Coder 的模型,其能力较差,还在追赶 ChatGPT 的技术。
    • 2024 年,先后发布 DeepSeek-V2 和 DeepSeek-V3 。
    • 2025 年 1 月,发布 DeepSeek-R1 模型,能力接近 GPT-4 。
      • 它在预训练之后,没有监督微调,而是单纯进行强化学习,从而提升模型的推理能力。
      • 它利用知识蒸馏技术,将大型模型的知识、推理能力,传递给小型模型。
      • 它在网络上公开了模型文件,用户可以下载之后自己部署,而且部署成本低。
        • 最小的模型只有 15 亿参数,简称为 1.5B 。在 8G 内存的个人电脑上就可以部署,甚至可以用 CPU 运行,不必用 GPU 。
        • 大模型有 70B 参数,部署时需要几张显卡、几百GB内存。
      • 它以网页形式,提供了一个免费的 DeepSeek 对话机器人,吸引了许多中文用户。
        • 它支持在网页上显示模型的推理过程,方便用户理解模型的思维方式。

# AIGC

  • AIGC(AI Generated Content)

    • 又称为 Generative AI、GAI 。
    • 它是 AI 技术的常见用途之一。指让 AI 生成内容,比如文本、图像、音频、视频。
    • 优点:
      • 让 AI 代替人类完成一些编辑工作。某些场景下,比人类更快、更好。
    • 缺点:
      • AI 是根据现有资料来生成内容,因此擅长生成重复性内容,不擅长生成新颖内容。
        • 虽然增加随机程度,可以生成比较新颖的内容,但是结果会比较混乱,比如物体破损、图案扭曲。需要尝试生成几十张图像,才能得到一张没有明显瑕疵的图像。
      • AI 是根据现有资料来生成内容。如果现有资料的版权属于某个人,那么 AIGC 的内容,版权属于谁?算抄袭吗?这存在法律问题。
  • 21 世纪初, AIGC 技术还在起步阶段,只能在少量场景,执行简单任务。

    • 例如进行图像风格的转换:基于 CNN 技术,先对图像内容进行语义分割,再通过线条弯曲、风格迁移等手法,将图片内容转换成另一种艺术风格,实现修图软件的滤镜效果。
  • 2020 年代, AIGC 技术爆发式发展。人们研发了多种深度学习模型来执行 AIGC 任务,这些模型统称为 Generative Model ,如下:

    • VAE(Variational Auto Encoder,变分自编码器)
      • 2006 年,提出一种名为 Autoencoder 的无监督学习模型,它分为两个部分:编码器、解码器。
      • 2013 年,在 Autoencoder 的基础上,加上变分推理,组成 VAE 架构。
        • 它基于概率对数据进行编码,擅长进行数据压缩、图像降噪。
    • Diffusion Model(扩散模型)
      • 2015 年,一篇论文中探讨了参考热力学扩散过程,进行无监督学习的方法。后来发展成为 Diffusion Model 。
      • 原理:
        • 正向扩散:输入一张图像,逐步添加随机噪声,将它转换成一张马赛克图像。
        • 反向扩散:然后让模型去掉噪声,学习如何将马赛克图像,转换成正常的图像。
    • GAN(Generative Adversarial Network,生成式对抗网络)
      • 2014 年, Google 公司的 Ian Goodfellow 发明了 GAN 技术。
      • 原理:
        • 使用两个神经网络来对抗。一个神经网络负责生成图像,另一个神经网络负责检测该图像是真是假。
        • 多次重复对抗过程,两个神经网络都会不断学习进步,从而提高生成的图像质量。
    • Transformer
  • 2021 年, OpenAI 公司发布一款名为 DALL-E 的模型。

    • 它允许用户输入一段描述文本,然后由模型生成相应的图像。这个过程为 text-to-image 。
    • 原理:使用 GPT-3 生成一段 token 序列,然后用 VAE 将 token 序列转换为图像。
  • 2022 年,英国公司 Stability AI 发布一款名为 Stable Diffusion 的模型。

    • 它的 text-to-image 能力更优秀,可以生成很逼真的图像。
    • 它使用潜在扩散(Latent Diffusion)技术。
      • Diffusion Model 直接对图像进行扩散,需要处理所有像素点,运算耗时久。
      • 而 Latent Diffusion 是先用 VAE 将像素空间,映射到低纬的潜在空间,再进行扩散,从而大幅减少运算量。