支持 ChatGPT 的机器学习模型的概况-电子发烧友网

本文介绍了支持 ChatGPT 的机器学习模型的概况，文章将从大型语言模型的介绍开始，深入探讨用来训练 GPT-3 的革命性自我注意机制，然后深入研究由人类反馈的强化学习机制这项让 ChatGPT 与众不同的新技术。

大型语言模型

ChatGPT 是一类被称为大型语言模型（LLM）的机器学习自然语言处理模型的延伸。LLM 消化大量文本数据并推断文本中不同单词之间的关系。我们看到，随着计算能力的进步，这些模型在过去几年中得到了长足发展。随着输入数据集和参数空间大小的增长，LLM 的能力也会不断提升。

语言模型最基本的训练过程涉及预测单词序列中的单词这一操作。最常见的操作类型是对下一 token 的预测以及带掩码机制的语言建模。

上图是本文作者生成的下一 token 预测和带掩码机制的语言建模的一般示例。

在这种通常通过长短期记忆（LSTM）模型部署的基本排序技术中，模型使用给定周围上下文时统计上概率最高的词来填充空白。这种顺序建模结构有两大局限。

该模型无法给有关联的一些词赋予比其他词更高的权重。在上面的例子中，虽然“reading”可能最常与“hates”联系在一起，但在数据库中，“Jacob”可能是一个狂热的读者，因此模型应该给予“Jacob”比“reading”更多的权重，并选择“love”'而不是'hates'。

输入数据是独立和顺序处理的，而不是作为整个语料库的一部分来处理的。这意味着当 LSTM 进行训练时，上下文窗口是固定的，仅扩展到序列中单个输入的几步之外。这限制了单词之间关系的复杂性和可以导出的含义。

针对这个问题，2017 年谷歌大脑的一个团队引入了 Transformers。与 LSTM 不同，Transformers 可以同时处理所有输入数据。该模型基于自注意力机制，可以根据语言序列的任何位置为输入数据的不同部分赋予不同的权重。此特性大大改善了向 LLM 中注入意义的能力，并支持处理更大的数据集。

GPT 和自注意力机制

2018 年，OpenAI 发布了 Generative Pre-training Transformer（GPT）模型的第一个版本 GPT-1。这一模型在 2019 年继续发展到了 GPT-2，2020 年发展到了 GPT-3，并在 2022 年发展出了 InstructGPT 和 ChatGPT 两个扩展。在将人类反馈集成到系统之前，GPT 模型进化的最大进步主要是由计算效率的提升推动的，这种提升使得 GPT-3 能够接受比 GPT-2 多得多的数据来做训练，从而赋予它更多样化的知识库和执行更广泛任务的能力。

GPT-2（左）和 GPT-3（右）的对比。

所有 GPT 模型都利用了 Transformer 架构，这意味着它们有一个编码器来处理输入序列，还有一个解码器来生成输出序列。编码器和解码器都有一个多头自注意力机制，允许模型对序列的不同部分进行不同的加权以推断文本含义和上下文。此外，编码器利用掩码语言建模来理解单词之间的关系，并生成更易于理解的响应。

驱动 GPT 的自注意力机制具体来说，是将 token（文本片段，可以是单词、句子或其他文本分组）转换为表示 token 在输入序列中的重要性的向量。为此，模型需要

为输入序列中的每个 token 创建查询、键和值向量。

取两个向量的点积来计算第一步中的查询向量与其他每一个 token 的键向量之间的相似度。

将步骤 2 的输出输入 softmax 函数来生成归一化权重。

将步骤 3 中生成的权重乘以每个 token 的值向量，从而生成一个最终向量，表示 token 在序列中的重要性。

GPT 使用的“多头”注意力机制是自注意力机制的进化。模型不会只执行上述 1 到 4 步骤一次，而是并行地对这些步骤多次迭代，每次都生成查询、键和值向量的新的线性投影。这种方式扩展了自注意力机制，让该模型能够掌握输入数据中的子含义和更复杂的关系。

作者生成的 ChatGPT 对话的截图。

尽管 GPT-3 在自然语言处理方面取得了显著进步，但它欠缺足够的符合用户意图的能力。例如，GPT-3 可能生成的输出

缺乏帮助，意思是说输出不遵循用户的明确指示。

包含幻觉，指的是不存在或不正确的事实。

缺乏可解释性，使人类难以理解模型是如何得出特定决策或预测的。

包括有毒或有偏见的内容，指的是有害或令人反感，并传播错误信息的内容。

ChatGPT 中引入了创新的训练方法，以解决标准 LLM 的一些固有问题。

ChatGPT

ChatGPT 是 InstructGPT 的衍生产品，它引入了一种新颖的方法，将人类反馈纳入训练过程，以使模型输出与用户意图更好地保持一致。OpenAI 在 2022 年发布的论文《训练语言模型遵循带有人类反馈的指令》对人类反馈强化学习（RLHF）机制做了深入描述，下文对此做了简要总结。

第一步：监督微调（SFT）模型

第一项开发工作是通过 OpenAI 招募的 40 家承包商创建的监督训练数据集来微调 GPT-3 模型，在这一数据集中每个输入都有已知输出，供模型学习。输入，或者叫提示，是从实际用户输入到 Open API 的信息中收集的。然后，标注员对提示做出适当的回应，从而为每个输入创建一个已知的输出。接下来 OpenAI 使用这个新的监督数据集对 GPT-3 模型进行调整，以创建 GPT-3.5，也称为 SFT 模型。

为了最大化提示数据集中的多样性，任何给定的用户 ID 只能发出 200 个提示，数据集还删除了所有共享长公共前缀的提示。最后，数据集删除了所有包含个人身份信息（PII）的提示。

在汇总来自 OpenAI API 的提示后，标注人员还被要求创建一些样本提示，以填充那些真实样本数据很少的类别。数据集感兴趣的类别包括：

普通提示：任意问题。

Few-shot 提示：包含多个查询 / 响应对的指令。

基于用户的提示：对应 OpenAI API 请求的特定用例。

在生成响应时，标注者被要求尽可能推断用户指令的具体内容。本文介绍了提示请求信息的三种主要方式。

Direct：“告诉我关于……的信息”

Few-shot：基于这两个故事的例子，写另一个关于同一主题的故事。

Continuation：给定一个故事的开头，完成这个故事。

来自 OpenAI API 的提示汇编和标注人员手写的提示一共产生了 13,000 个输入 / 输出样本，用于监督模型训练。

图（左）是从训练语言模型插入以遵循人类反馈的指令。上图来自 OpenAI 在 2022 的论文：https://arxiv.org/pdf/2203.02155.pdf。图（右）附加的上下文是作者添加的。

第二步：奖励模型

在步骤 1 中训练 SFT 模型后，该模型会对用户提示生成更一致的响应。下一个改进是训练一个奖励模型，其中模型输入是一系列提示和响应，输出是一个缩放值，称为奖励（reward）。奖励模型用来做强化学习，在强化学习中模型学习如何生成最大化其奖励的输出（参见步骤 3）。

为了训练奖励模型，每个输入提示会为标注员提供 4 到 9 个 SFT 模型输出。他们被要求将这些输出从最好到最差进行排名，创建输出排名组合，如下：

响应排名组合示例。

将模型中的每个组合作为单独的数据点包括在模型内会导致过拟合（无法推断超出可见数据的范围）。为了解决这个问题，该模型是利用每组排名作为单个批处理数据点构建的。

第三步：强化学习模型

在最后阶段，模型会收到随机提示并返回响应。响应是使用模型在步骤 2 中学习的“策略”生成的。该策略代表了机器已经学会使用的用来实现其目标的策略，这里说的目标就是最大化模型获得的奖励。基于在步骤 2 中开发的奖励模型，接下来要为提示和响应确定一个缩放器奖励值。然后奖励会反馈到模型中以改进策略。

2017 年，Schulman 等人引入了近端策略优化（PPO），这种方法用于在生成每个响应时更新模型的策略。PPO 包含来自 SFT 模型的 per-token Kullback–Leibler（KL）惩罚。KL 散度衡量两个分布函数的相似性，并对极端距离进行惩罚。在这种情况下，使用 KL 惩罚会减少响应与步骤 1 中训练的 SFT 模型输出之间的距离，以避免过度优化奖励模型，避免与人类意图数据集的偏差太大。

该过程的第 2 步和第 3 步可以重复进行，但在实践中并没有普遍这样做。

作者生成的 ChatGPT 对话的截图。

模型评估

模型的评估过程是通过在训练期间留出模型未见过的测试集来执行的。OpenAI 在测试集上进行了一系列评估，以确定该模型是否比其前身 GPT-3 表现更出色。

有用性：模型推断和遵循用户指令的能力。在 85±3% 的时间里，标注员更喜欢 InstructGPT 而非 GPT-3 的输出。

真实性：模型产生幻觉的倾向。当使用 Truthful QA 数据集进行评估时，PPO 模型产生的输出显示真实性和信息量略有增加。

无害性：模型避免不当、贬损和诋毁内容的能力。OpenAI 使用 RealToxicityPrompts 数据集测试了模型的无害性。测试在三种条件下进行：

指示模型提供有礼貌的响应：结果毒性反应显著减少。

指示模型提供响应，没有任何关于礼貌的设置：毒性没有显著变化。

指示模型提供毒性响应：模型给出的响应实际上比 GPT-3 模型的毒性大得多。

要了解关于创建 ChatGPT 和 InstructGPT 所用方法的更多信息，请阅读 OpenAI 在 2022 年发表的原始论文：https://arxiv.org/pdf/2203.02155.pdf。

审核编辑：彭静

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

模型

模型

+关注

关注
1

文章
3237

浏览量
48824
机器学习

机器学习

+关注

关注
66

文章
8414

浏览量
132602
ChatGPT

ChatGPT

+关注

关注
29

文章
1560

浏览量
7621

原文标题：深入探索ChatGPT机器人背后的模型机制

文章出处：【微信号：AI前线，微信公众号：AI前线】欢迎添加关注！文章转载请注明出处。

机器学习模型评估指标

机器学习模型指标在机器学习建模过程中，针对不同的问题，需采用不同的模型评估指标。

发表于 09-06 12:51 •1109次阅读

<b class='flag-5'>机器</b><b class='flag-5'>学习</b><b class='flag-5'>模型</b>评估指标

《具身智能机器人系统》第7-9章阅读心得之具身智能机器人与大模型

研读《具身智能机器人系统》第7-9章，我被书中对大模型与机器人技术融合的深入分析所吸引。第7章详细阐述了ChatGPT for Robotics的核心技术创新：它摒弃了传统的分层控制架

发表于 12-24 15:03

机器学习模型之性能度量

机器学习模型的性能度量

发表于 05-12 10:27

部署基于嵌入的机器学习模型

1、如何在生产中部署基于嵌入的机器学习模型　　由于最近大量的研究，机器学习模型的性能在过去几年里

发表于 11-02 15:09

科技大厂竞逐AIGC，中国的ChatGPT在哪？

最近，AI（人工智能）圈一股以“ChatGPT”为核心的热潮从美国“硅谷”涌入中国。 2022年11月底，初创公司OpenAI发布了名为ChatGPT的对话式聊天机器人模型，一经推出

发表于 03-03 14:28

不到1分钟开发一个GPT应用！各路大神疯狂整活，网友：ChatGPT就是新iPhone

这个说法并不准确。尽管ChatGPT等语言模型已经在一定程度上改变了我们获取信息、学习知识的方式，但它们并不能替代人类进行创造性思考和创造性活动。虽然一些人可能会利用ChatGPT等

发表于 11-19 12:06

看海泰方圆类ChatGPT技术模型！

ChatGPT，上线2个月便以破亿的用户群引爆了全网。 ChatGPT是由OpenAI公司开发的AI聊天机器人程序，于2022年11月底推出，能够通过学习和理解人类的语言来进行对话、互

发表于 02-10 10:38 •732次阅读

如何评估机器学习模型的性能？机器学习的算法选择

如何评估机器学习模型的性能？典型的回答可能是：首先，将训练数据馈送给学习算法以学习一个模型。第二

发表于 04-04 14:15 •1025次阅读

ChatGPT是什么？ChatGPT写代码的原理你知道吗

"(Generative Pre-trained Transformer)，这是一种广泛用于自然语言处理的深度学习模型。ChatGPT是基于这种模型的聊天

发表于 06-04 17:01 •3198次阅读

ChatGPT 是什么

应用。 ChatGPT基于自然语言处理技术和神经网络模型，可以学习和理解人类语言的语法和语义，并能够生成具有连贯性和逻辑性的自然语言文本，从而模拟人类对话的过程。发展背景 ChatGPT

发表于 06-27 13:55 •2489次阅读

chatgpt是什么意思 ChatGPT背后的技术原理

　　今天我们为大家带来的文章，深入浅出地阐释了ChatGPT背后的技术原理，没有NLP或算法经验的小伙伴，也可以轻松理解ChatGPT是如何工作的。　　ChatGPT是一种机器

发表于 07-18 17:12 •0次下载

机器学习算法汇总机器学习算法分类机器学习算法模型

机器学习算法汇总机器学习算法分类机器学习算法模型

发表于 08-17 16:11 •1102次阅读

ChatGPT原理 ChatGPT模型训练 chatgpt注册流程相关简介

ChatGPT注册没有外国手机号验证怎么办？ ChatGPT作为近期火爆网络的AI项目，受到了前所未有的关注。我们可以与AI机器人实时聊天，获得问题的答案。但受ChatGPT服务器及相

发表于 12-06 16:28 •894次阅读

llm模型和chatGPT的区别

LLM（Large Language Model）是指大型语言模型，它们是一类使用深度学习技术构建的自然语言处理（NLP）模型。LLM模型可以处理各种语言任务，如文本生成、文本分类、

发表于 07-09 09:55 •1053次阅读

大模型LLM与ChatGPT的技术原理

与机器的交互方式。这些技术通过深度学习和自然语言生成（Natural Language Generation, NLG）的结合，实现了对复杂语言任务的高效处理。本文将深入探讨大模型LLM和Ch

发表于 07-10 10:38 •823次阅读

搜索历史

支持 ChatGPT 的机器学习模型的概况

评论

机器学习模型评估指标

《具身智能机器人系统》第7-9章阅读心得之具身智能机器人与大模型

机器学习模型之性能度量

部署基于嵌入的机器学习模型

科技大厂竞逐AIGC，中国的ChatGPT在哪？

不到1分钟开发一个GPT应用！各路大神疯狂整活，网友：ChatGPT就是新iPhone

看海泰方圆类ChatGPT技术模型！

如何评估机器学习模型的性能？机器学习的算法选择

ChatGPT是什么？ChatGPT写代码的原理你知道吗

ChatGPT 是什么

chatgpt是什么意思 ChatGPT背后的技术原理

机器学习算法汇总机器学习算法分类机器学习算法模型

ChatGPT原理 ChatGPT模型训练 chatgpt注册流程相关简介

llm模型和chatGPT的区别

大模型LLM与ChatGPT的技术原理