不同的策略,并认识到他们的错误。推理使得这些模型能够遵循特定的准则和我们设定的模型政策,帮助它们符合我
们的安全期望。
这意味着它们在提供有⽤答案⽅⾯更加优秀,并且可以抵抗规避安全规则的尝试,以避免产⽣不安全或不当的内容
。
OpenAI o3-mini是该系列中的最新模型。与OpenAI o1-mini类似,这是⼀个速度更快的模型,特别擅⻓编码。
我们还计划允许⽤⼾使⽤o3-mini在互联⽹上搜索并在ChatGPT中总结结果。我们期望o3-mini在这⽅⾯
是⼀个有⽤且安全的模型,特别是考虑到其在第4节中详细介绍的越狱和指令层次评估中的表现。
OpenAI o3-mini在各种数据集上预训练,包括⼀系列公开可⽤数据和内部开发的⾃定义数据
集,共同为该模型的强⼤推理和对话能⼒做出贡献。我们的数据处理流⽔线包括严格的过滤以
维持数据质量并减轻潜在⻛险。我们使⽤先进的数据过滤流程来减少训练数据中的个⼈信息。
我们还采⽤我们的Moderation API和安全分类器的组合,以防⽌使⽤有害或敏感内容,包括包
含未成年⼈的性内容等明确材料。
3 测试范围
作为我们不断完善模型的承诺的⼀部分,我们不断完善和改进我们的模型。⽤于⽣产中的模型
的确切性能数字可能会因系统更新、最终参数、系统提⽰和其他因素⽽变化。
对于OpenAI o3-mini,包括以下检查点的评估:
•o3-mini-near-final-checkpoint
•o3-mini (启动的检查点)
o3-mini包括对o3-mini-near-final-checkpoint进⾏的⼀些⼩的增量后训练改进,尽管基础模
型保持不变。我们确定基于红队测试和o3-mini-near-final-checkpoint上进⾏的两次Persuasi
on⼈类评估结果对于最终发布的检查点仍然有效。所有其他评估都针对最终模型。在本系统卡
中,o3-mini除⾮另有说明,否则指的是启动检查点。
请注意,来⾃实时模型(例如GPT-4o和OpenAI o1-mini)的⽐较值均来⾃这些模型的最新版
本,因此可能与这些模型发布时的价值略有不同。
4 观察到的安全挑战和评估
4.1 安全评估
我们针对OpenAI o3-mini的安全⼯作建⽴在以往的学习基础上,并利⽤语⾔模型安全领域的众多进展。例如,我们
使⽤各种公开和内部
2
评论