暂无图片
暂无图片
暂无图片
暂无图片
暂无图片
GPT-4 技术报告.pdf
389
151页
1次
2023-05-26
100墨值下载
GPT-4技术报
OpenAI*
摘要
我们报告了GPT-4的开发,这是一个大规模的多模模型,可以接受图像和文本
输入并产生文本输出。虽然在许多现实世界的场景中不如人类,但GPT-4在各种
专业基准表现人类平的现,包括以大约前10%的分数通过模拟律师
考试。GPT-4是个基于Transformer model的模型,经过预训练,可以预测文档
的下一个令牌。培训后整过程提高了真实期望行为的遵守程度。
目的一个核心组成部分发基础设施和优化这些方法在广泛的规模
内表现得可预测。这使我们能够根据不超过GPT 4计算量1/1000的模型准确预测
GPT 4能的方面
1
导言
GPT-4处理文本
一个广
和机器翻。因此,年来它们直是人们极大趣和进步题【1-28】
开发这种模型的主要目标之一是提高它们理解和生成自然语言文本的能力,特别是在更复杂和微妙
场景中。为了测试它在这种情况下的能力,GPT-4在最初为人类设计的各种考试中进行了评估。在这
GPT-4的分数在考生中排名前10%。这与GPT的3.5分形成鲜明对比,后者排名倒数10%。
在一套传统的NLP基准测试中,GPT-4优于以前的大型语言模型和大多数最先进的系统(通常有特
于基测试的训或手程)。在MMLU【2930】上一套涵盖57科目多项
,GPT-4在英MMLU
版本,GPT-4在26种语中的24超过的最水平在后的章更详细地
论这些模型功能结果,以及模型安全性改进和结果。
该报告还讨论了该项目的一个关键挑战,即开发深度学习基础设施和优化方法,这些方法在广泛的规
上表使测GPT-4类似式训的小跑步,并
后一次跑步中进行测试,以增加我们训练的信心
管GPT-4有早期GPT型有性[1,31,32]:全可靠(
如,可能现“幻”),具有限的上下文口,且不
*请将此作品引用为“OpenAI(2023)”。完整的作者贡献声明出现在文件的末尾
2
凭经验。使用GPT-4的输出应小心,尤其在可性很要的情况
GPT-4的能力和局限性带来了重大新颖的安全挑战,鉴于潜在的会影响,我们相信仔细研
这些挑战是一个重要的研究领域。该报告包括一个广泛的系统卡(在附录之后),描述了我们预见
的偏见、虚假信息、过度依赖、隐私、网络安全、扩散等方面的一些风险。它还描述了我们为减轻
GPT-4部署的潜在危害而采取的预措施,包括与领域专家的抗性测试,以及模型辅助的安全
管道。
2
本技术报告的范围和限制
本报GPT-4的安全GPT-4是Transformer model
格的33】使用公的数互联据)方提可的
先训练以预测文档中的下一个令牌。然后使用来自人类反馈的强化学习(RLHF)对该模型
进行微调【34】。鉴于争格局和GPT-4等大规模型的安全响,本报告不含有关架
构(包括模型大小)、硬件、训练计算、数据集构建、训练方法或类似内容的更多细节。
我们致力于对我们的技术进行独立审计,并在本版本随附的系统卡中分享了该领域的一些初步步骤
和想法。2我们计划向更多第三方供进一步的技术细节,这些第三方可以建议我们如何权衡上述
竞争全因素与进一步透明的学价
3
可预测的缩放
GPT-4重点因是对于GPT-4
广
使
GPT-4使1,000 ×-10,000 ×
较小模型
3.1
损耗预测
过适当训练的言模型的认为于训算量的幂35,
36,2,14,15】。
为了验证我们的优化基础设施的可扩展性,我们通过拟合具有不可约损失项的标度律(如Henighan
15】GPT-4是训集的LC)
=aCb+C,来自使用相同法训练的模型使用的计算量多比GPT-4少10,000倍。这一预测
在运行开始后不久做出的,没有使用任何部分结果。拟合的标度律高精度地预测了GPT 4号的最终
损耗1)。
3.2
HumanEval上能力的扩展
在训练前对模型的能力有所了解可以改进围绕一致性、安全性和部署的决策。除了预测最终损失,我
还开来预。一是HumanEval37】
率,同复Python。我HumanEval的通
过率,方法是从最多减少1000倍计算的模型中进行外推(图2)。
于HumanEval的单问题性能尔会。尽存在些挑,我
of 151
100墨值下载
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文档的来源(墨天轮),文档链接,文档作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论

关注
最新上传
暂无内容,敬请期待...
下载排行榜
Top250 周榜 月榜