ChatGPT的新能评估及优缺点

jf_78858299 2023-02-21 1667

人工智能

636人已加入

描述

性能评估

因为模型是根据人工标注的输入进行训练的，所以评估的核心部分也基于人工输入，即通过让标注者对模型输出的质量评分来进行。为避免训练阶段涉及的标注者的判断过拟合，测试集使用了来自其它 OpenAI 客户的 prompt，这些 prompt 未出现在训练数据中。

该模型基于三个标准进行评估：

帮助性：判断模型遵循用户指示以及推断指示的能力。
真实性：判断模型在封闭领域任务中有产生虚构事实的倾向。
无害性：标注者评估模型的输出是否适当、是否包含歧视性内容。

该模型还针对传统 NLP 任务（如解答问题、阅读理解和摘要）的零样本学习的性能进行了评估，开发人员发现在其中一些任务上模型的表现比 GPT-3 要差一些，这是一个「一致性税」( alignment tax) 的例子，其中基于人类反馈强化学习的一致性程序是以降低某些任务的性能为代价的。

这些数据集的性能回归可以通过称为预训练混合的技巧大大减少：在通过梯度下降训练 PPO 模型期间，通过混合 SFT 模型和 PPO 模型的梯度来计算梯度更新。

方法的缺点

该方法的一个非常明显的局限性是，在将语言模型与人类意图保持一致的过程中，用于 fine-tuning 模型的数据会受到各种错综复杂的主观因素的影响，主要包括：

生成 demo 数据的人工标注者的偏好；
设计研究和编写标签说明的研究人员；
选择由开发人员制作或由 OpenAI 客户提供的 prompt；
标注者偏差既包含在 RM 模型训练中，也包含在模型评估中。

ChatGPT 的作者也承认一个明显的事实，即参与训练过程的标注人员和研究人员可能并不能完全代表语言模型的所有潜在最终用户。

除了这一明显的「内生」限制之外，该方法还有的一些其它缺点和需要解决的问题：

缺乏对照研究：报告的结果以 SFT 模型为基准衡量最终 PPO 模型的性能。这可能会产生误导：如何知道这些改进是由于 RLHF？因此对照研究非常有必要，包括投入与用于训练 RM 模型的标注工时数完全相同的时间，以创建具有高质量数据的更大的精选有监督调优的数据集。这样就可以客观地衡量 RLHF 方法与监督方法相比的性能改进。简单来说，缺乏这样的对照研究让一个基本问题完全悬而未决：RLHF 在一致性语言模型方面真的做得很好吗？
比较数据缺乏基本事实：标注者通常会对模型输出的排名持不同意见。技术上讲，产生的风险是在没有任何基本事实的情况下，向比较数据添加了很大的方差。
人类的偏好并非同质：RLHF 方法将人类的偏好视为同质和静态的。假设所有人都有相同的价值观，这明显是不准确的，虽然有大量的公共价值观，但在很多事务上人类还是存在许多不同的认知。
RM 模型 prompt 稳定性测试：没有实验表明 RM 模型在输入 prompt 变化方面的敏感性。如果两个 prompt 在句法上不同但在语义上是等价的，RM 模型能否在模型输出的排名中显示出显著差异？即 prompt 的质量对 RM 有多重要？
其它问题：在 RL 方法中，模型有时可以学会控制自己的 RM 模型以实现期望的结果，从而导致「过度优化的策略」。这可能会导致模型重新创建一些模式，因为某些未知的原因，这些模式使 RM 模型得分较高。ChatGPT 通过使用 RM 函数中的 KL 惩罚项对此进行了修补。

打开APP阅读更多精彩内容