
凭经验。使用GPT-4的输出时应小心,尤其是在可靠性很重要的情况下。
GPT-4的能力和局限性带来了重大和新颖的安全挑战,鉴于潜在的社会影响,我们相信仔细研究
这些挑战是一个重要的研究领域。该报告包括一个广泛的系统卡(在附录之后),描述了我们预见
的偏见、虚假信息、过度依赖、隐私、网络安全、扩散等方面的一些风险。它还描述了我们为减轻
GPT-4部署的潜在危害而采取的干预措施,包括与领域专家的对抗性测试,以及模型辅助的安全
管道。
2
本技术报告的范围和限制
本报告重点介绍GPT-4的能力、局限性和安全特性。GPT-4是一种Transformer model风
格的模型【33】,使用公开可用的数据(如互联网数据)和第三方提供商许可的数据,预
先训练以预测文档中的下一个令牌。然后使用来自人类反馈的强化学习(RLHF)对该模型
进行微调【34】。鉴于竞争格局和GPT-4等大规模模型的安全影响,本报告不包含有关架
构(包括模型大小)、硬件、训练计算、数据集构建、训练方法或类似内容的更多细节。
我们致力于对我们的技术进行独立审计,并在本版本随附的系统卡中分享了该领域的一些初步步骤
和想法。2我们计划向更多第三方提供进一步的技术细节,这些第三方可以建议我们如何权衡上述
竞争和安全因素与进一步透明的科学价值。
3
可预测的缩放
GPT-4项目的一大重点是建立一个可预测扩展的深度学习堆栈。主要原因是,对于像GPT-4这
样的非常大的训练运行,进行广泛的特定于模型的调整是不可行的。为了解决这个问题,我们
开发了基础设施和优化方法,这些方法在多个规模上具有非常可预测的行为。这些改进使我们
能够可靠地预测GPT-4性能的某些方面,这些性能来自使用1,000 ×-10,000 ×较少计算训练的
较小模型。
3.1
损耗预测
经过适当训练的大型语言模型的最终损失被认为很好地近似于用于训练模型的计算量的幂律【35,
36,2,14,15】。
为了验证我们的优化基础设施的可扩展性,我们通过拟合具有不可约损失项的标度律(如Henighan
等人【15】)来预测GPT-4在我们内部代码库(不是训练集的一部分)上的最终损失:L(C)
=aCb+C,来自使用相同方法训练的模型,但使用的计算量最多比GPT-4少10,000倍。这一预测是
在运行开始后不久做出的,没有使用任何部分结果。拟合的标度律高精度地预测了GPT 4号的最终
损耗(图1)。
3.2
HumanEval上能力的扩展
在训练前对模型的能力有所了解可以改进围绕一致性、安全性和部署的决策。除了预测最终损失,我
们还开发了一种方法来预测更可解释的能力指标。一个这样的指标是HumanEval数据集【37】的通
过率,它衡量综合不同复杂性的Python函数的能力。我们成功地预测了HumanEval数据集子集的通
过率,方法是从最多减少1000倍计算的模型中进行外推(图2)。
对于HumanEval中的单个问题,性能偶尔会随着规模的扩大而恶化。尽管存在这些挑战,我们还是
评论