评价观点
推理扩展范式
新范式:OpenAI的o1模型采用推理时间扩展,不依赖于传统的预训练规模。通过优化推理过程实现计算性能提升,标志着从预训练时代向推理优化时代的转变。
推理规模法则:推理扩展类似于AlphaGo的MCTS,通过多策略模拟提高性能,推理时的计算扩展可与训练时的扩展竞争。
核心与工具:通过小型“推理核心”调用外部工具,减少对预训练的依赖,提高推理效率和计算资源利用。
跨领域能力:o1在数学、编程等领域表现突出,也能处理复杂和冷门任务,展示了强大的跨领域泛化能力。 多模态改进:o1在多模态任务中(如MMMU、MathVista)有显著进步,扩展了推理应用的潜力。
系统II型思维:通过强化学习,o1模型能进行深度推理,类似人类的系统II型思维,提高了复杂任务中的表现。 安全性改进:思维链推理提升了模型的推理能力,同时在幻觉问题和对抗性攻击的鲁棒性方面有所改进。
挑战与权衡:推理在实际生产中面临问题,如搜索停止、奖励函数、工具调用时机等,仍需解决。对于简单任务,GPT-4o可能更高效,推理范式有时也会出现“反向扩展”现象。
长期推理:未来o1模型可能进行长时间推理,从数小时到数周,尽管成本高,但在复杂领域如药物研发中有显著优势。 数据飞轮效应:推理生成的数据将形成数据飞轮效应,进一步优化推理核心,模型的潜力超越当前表现。
官方观点
推理能力:OpenAI o1通过强化学习训练,具备复杂推理能力,并能够在响应用户前进行深度思考,生成内部思维链。该模型在多个基准测试中表现卓越,尤其在数学、编程和科学问题上超越人类专家水平。 性能评估:o1在推理密集型任务中远超GPT-4o,特别是在美国数学奥林匹克预选赛(AIME)、编程竞赛(Codeforces)以及化学、物理和生物等问题的基准测试中表现优异。 思维链优化:通过强化学习,o1能够优化其思维链,识别并纠正错误,从而提升推理能力。该机制使模型能逐步解决复杂问题,尝试不同策略,并最终大幅提升表现。 推理时计算扩展:o1的性能随着推理时的计算量增加而平滑提升,说明推理计算扩展在某些任务中的潜力比预训练扩展更大。 安全性提升:o1在安全评估中表现显著优于GPT-4o,特别是在越狱攻击和复杂内容的合规性测试中。通过推理链模型提升了模型对齐与鲁棒性。 应用与前景:尽管模型仍需优化以提升其广泛易用性,o1-preview版本已可供部分用户使用。未来o1及其后续版本将为AI在科学、编程和数学等领域的应用解锁更多潜力。
Jim Fan博士是NVIDIA高级研究经理,领导Embodied AI(GEAR Lab)团队。他专注于为类人机器人和游戏开发基础模型,拥有斯坦福大学博士学位,并曾是OpenAI的首位实习生。
OpenAI Strawberry(o1)发布,标志着推理时间扩展(inference-time scaling)范式正式应用于生产环境。正如Sutton在《痛苦的教训》(http://www.incompleteideas.net/IncIdeas/BitterLesson.html?ref=blog.heim.xyz)中指出,只有学习和搜索两种技术能随计算能力无限扩展。现在是将重点转向搜索的时候了。
推理无需庞大的模型。大量参数用于记忆事实以在类似trivia QA的基准测试中表现出色。但我们可将推理与知识分离,例如小型"推理核心"(reasoning core)可调用浏览器或代码验证器等工具。这可能减少预训练所需计算量。
大量计算将从预训练和后训练转移至推理服务。大语言模型(LLMs)本质上是基于文本的模拟器。通过在模拟器中展开多种可能策略和场景,模型最终会收敛到优解。这一过程类似于AlphaGo的蒙特卡洛树搜索(MCTS,monte carlo tree search),这是一个研究深入的领域。
OpenAI可能早已发现推理规模法则(Inference Scaling Laws),而学术界最近才有所突破。上月有两篇论文在Arxiv上相继发布:
《大型语言猴子:通过重复采样扩展推理计算》(https://arxiv.org/abs/2407.21787)。Brown等人发现,DeepSeek-Coder在SWE-Bench上的得分从单样本的15.9%提升至250样本的56%,超越Sonnet-3.5。
《扩展LLM测试时计算比扩展模型参数更有效》(https://arxiv.org/abs/2408.03314)。Snell等人发现,PaLM 2-S通过测试时搜索在MATH基准上击败了参数量大14倍的模型。
将o1产品化比在学术基准测试中取得成功更具挑战。实际环境中的推理问题面临诸多难题:如何决定停止搜索的时机?奖励函数如何定义?成功标准是什么?何时在循环中调用代码解释器等工具?如何权衡这些CPU过程的计算成本?他们的研究报告并未详细阐述这些问题。
Strawberry易形成数据飞轮效应(data flywheel)。正确答案的整个搜索轨迹将成为包含正负奖励的训练样本微型数据集。这反过来将改进未来版本GPT的推理核心,类似于AlphaGo的价值网络随MCTS生成越来越多精细训练数据而不断优化。
这反过来会改进未来版本GPT的推理核心,类似于AlphaGo的价值网络——用于评估每个棋盘位置的质量——随着MCTS生成越来越多的精细训练数据而得到提升。

Noam Brown
Noam Brown是OpenAI的研究科学家,专注于多步推理和多智能体AI。他共同开发了Pluribus,在六人无限注德州扑克中超越顶级人类玩家,还在Meta开发了CICERO,在《Diplomacy》中达到人类水平。他获得了Marvin Minsky Medal和MIT Technology Review 35位35岁以下创新者等荣誉,并在卡内基梅隆大学获得博士学位。
今天我很高兴向大家介绍OpenAI的最新成果——具备真正通用推理能力的AI模型:OpenAI全新的o1模型系列(又称"Strawberry")。

o1-preview和o1-mini模型已可即时使用。我们同时公布了尚未完全定型的o1模型评估结果,以展示这不仅是单次改进,而是全新的扩展范式,我们才刚刚起步。

o1通过强化学习(RL)训练,能在回应前"思考",利用私有思维链(private chain of thought)进行推理。思考时间越长,模型在推理任务中表现越佳,为扩展开辟了新维度。我们不再局限于预训练,现可扩展推理计算。

o1模型并非在所有任务上都优于GPT-4o。许多任务无需复杂推理,有时等待o1回答不如迅速获得GPT-4o响应更有效。发布o1-preview的目的之一是了解哪些用例会流行,哪些领域还需改进。

OpenAI的o1-preview并非完美。它有时甚至会在井字棋等简单任务上犯错。这些失败案例可能会在社交媒体上传播。但在许多被用来论证"LLM不能推理"的流行示例中,o1-preview表现更佳,o1表现出色,且我们知道如何进一步提升其能力。

例如,2024年计算语言学协会会议上,Subbarao Kambhampati的主题演讲《LLM能否进行推理和规划?》(Can LLMs Reason & Plan?)展示了一个所有LLM都失败的问题。然而,OpenAI o1-preview能正确解决,o1几乎每次都得出正确答案。

OpenAI的o1模型推理时间可能需要几秒,但我们的目标是未来版本能思考数小时、数天乃至数周。推理成本会更高,但如果用于研发新型抗癌药物、突破性电池技术或证明黎曼猜想,这样的代价是值得的。AI的潜力远不止于聊天机器人。

加入OpenAI时,我曾写过关于在研究扑克和Diplomacy游戏AI推理时的经验,亲眼目睹"思考"带来的巨大差异,这促使我将此范式引入LLM。这一进展比预期快,令人振奋。
Jim Fan
2024年9月13日 1:35 AM
这可能是自2022年Chinchilla原始规模法则(Scaling Laws)提出以来,LLM研究领域最重要的突破。关键洞见在于存在两条协同作用的曲线,而非单一曲线。
许多人通过推测训练规模法则(Scaling Laws),预测LLM能力将趋于停滞,却未能预见推理扩展才是突破能力瓶颈的关键。
我在二月份曾指出,没有自我改进能力的LLM算法无法突破3轮优化的限制。当时认为LLM领域无法复制AlphaGo的成功,即通过增加计算资源将能力提升至超越人类水平。
然而现在,我们已经开启了全新的研究阶段。

Greg Brockman
OpenAI o1是我们首个采用强化学习(reinforcement learning)训练的模型,能在回答前深度思考问题。
这代表一个充满巨大机遇的新范式。量化指标已证实这一点(如推理指标的阶跃式提升),质化方面同样显著(如可靠的思维链使模型推理过程可用简单英文呈现,提高了可解释性)。
一种理解方式是,我们的模型执行系统I型思维(System I thinking),而思维链则解锁了系统II型思维(System II thinking)。人们早已发现引导模型"逐步思考"(think step by step)可提升性能。但通过试错进行端到端训练,让模型学会这种思考模式,比单纯提示更可靠——正如在围棋或Dota等领域所见,这种方法能产生极为惊人的结果。
o1技术仍处于早期阶段,带来了新的安全性机遇,我们正积极探索,包括模型可靠性、幻觉问题及对抗性攻击的鲁棒性。例如,我们发现通过让模型使用思维链推理政策,安全指标得到显著提升。
o1的准确性还有很大提升空间。如发布帖中提到,在今年国际信息学奥林匹克竞赛(IOI)中,每题50次提交限制下,模型达到49百分位/213分。但在每题1万次提交条件下,得分达362.14,超过金牌门槛。这表明模型潜力远超初步表现。
Will DePue
关于今日推理模型发布的几点思考:
新范式
希望大家理解这是全新范式:不要期待与预训练时代相同的进度、时间表或动态。我相信我们的推理模型在评估指标上的进步速度是OpenAI史上最快的。这将是充满变革的一年。

跨领域泛化能力
o1不仅在数学、编程、问题解决等方面表现出色,还是我使用过的最佳模型,用于回答复杂问题、学习新知识、提供医疗建议或解决冷门问题。这种能力不应被视为理所当然。
通过推理提升安全性
我们的推理模型在安全行为和安全推理上的改进非常显著。多年来,AI领域的"噩梦"(boogeyman)一直是那些游戏表现出色但完全不具备推理或理解人类价值观能力的强化学习代理。o1模型有力地反驳了这一观点。

推理时计算(inference-time compute)扩展可与训练时计算(training compute)扩展竞争
o1-mini在某些评估中优于o1,这一点值得关注。关于这一发现的深远意义,留给大家思考。

多模态推理
令人惊叹的是,推理能力在多模态评估中也得到提升。参见MMMU和MathVista的结果:这些都不是小幅改进。

这完全是推理团队及相关团队的杰出工作。进展速度之快超乎我的经验:团队在发现这一范式后,迅速提升了多个数量级,令人难以置信。
非正式建议
对过度解读者、过度宣传者、粉丝和批评者提出警告:这是新范式。如所有新生项目,会有漏洞、问题和需要修复的地方。不要期望瞬间完美!但应关注我们在解决预训练规模法则(Scaling Laws)中看似遥不可及问题上的进展,以及我们现在能解决许多人认为LLM永远无法完成的任务。
预训练范式中的许多特点和优势可能在推理范式中不再适用,反之亦然。举例来说,我确实认为推理范式中会出现比预训练世界更多的"反向扩展"(inverse scaling)现象(而预训练中这种现象罕见)。
学习使用LLMs进行推理(官方)
https://openai.com/index/learning-to-reason-with-llms/
我们推出了OpenAI o1,一款通过强化学习训练的大型语言模型,能执行复杂推理任务。o1在回答前会深度思考,可在响应用户前生成长串内部思维链。
OpenAI o1在编程竞赛问题(Codeforces)中排名前11%,美国数学奥林匹克预选赛(AIME)中跻身全美前500名,并在物理、生物和化学问题基准测试(GPQA)上超越人类博士水平准确率。虽然让这个新模型像现有模型一样易用还需更多工作,但我们已推出早期版本OpenAI o1-preview,供ChatGPT和受信任的API用户立即使用。
我们的强化学习算法在高度数据高效的训练过程中,教会模型如何利用思维链高效思考。我们发现,随着更多强化学习(训练时计算)和更长思考时间(推理时计算),o1性能持续提升。这种方法的扩展限制与LLM预训练限制大不相同,我们正持续研究这些差异。
o1的性能在训练时和推理时计算量的增加下平滑提升
评估
为突出o1推理能力的进步,我们在一系列人类考试和机器学习基准测试上评估了模型。结果显示,o1在大多数推理密集型任务中显著优于GPT-4o。除非特别说明,我们在最大化推理时计算的设定下评估o1。
o1在具有挑战性的推理基准测试中大幅超越了GPT-4o。实心条表示pass@1准确率,阴影区域显示64个样本下多数投票(共识)的性能表现。
o1在多个基准测试上优于GPT-4o,包括MMLU的54/57个子类别。图中展示了七个类别作为示例。
在许多推理密集型基准测试中,o1表现可媲美人类专家。近期前沿模型在MATH和GSM8K等基准测试中表现出色,以至于这些基准不再能有效区分模型。我们在AIME考试上评估数学表现,AIME专为挑战美国最优秀高中生设计。2024年AIME考试中,GPT-4o平均仅解决12%(1.8/15)题目,而o1单样本下平均解决74%(11.1/15),64样本共识达83%(12.5/15),使用学习得分函数对1000样本重排序后达93%(13.9/15)。13.9分已列入全国前500名,超过美国数学奥林匹克入围门槛。
我们还在GPQA diamond上评估o1,这是测试化学、物理和生物学专业知识的高难度智能基准。我们招募博士学位专家回答GPQA diamond问题进行对比。结果显示,o1表现超过这些人类专家,成为首个在该基准上做到这一点的模型。这并不意味o1在所有方面都强于博士——仅表明它在解决某些博士级问题时更出色。在其他多个机器学习基准中,o1也超越最新研究成果。开启视觉感知能力后,o1在MMMU基准中得分78.2%,成为首个能与人类专家竞争的模型。
思维链(Chain of Thought)
类似人类回答困难问题前需长时间思考,o1解题时使用思维链。通过强化学习,o1学会优化思维链,精炼策略。它学会识别并纠正错误,将复杂步骤分解为简单部分,在当前方法失效时尝试不同途径。这一过程显著提升模型推理能力。为展示进步,我们列举了o1-preview在复杂问题上生成的思维链示例。
编程
我们训练的模型在2024年国际信息学奥林匹克竞赛(IOI)中获得213分,排名第49百分位。该模型基于o1初始化并进一步强化编程技能,与人类参赛者在相同条件下参与2024年IOI。模型有10小时解决6道复杂算法问题,每题允许50次提交。
对每个问题,系统生成多个候选提交,基于测试时选择策略提交50个。这些提交基于IOI公开测试案例、模型生成测试案例和学习得分函数选择。随机提交平均仅156分,表明该策略在竞赛约束下额外贡献近60分。
放宽提交限制后,模型性能显著提高。每题允许10,000次提交时,即便无测试时选择策略,模型得分达362.14分,超过金牌门槛。
我们还模拟了Codeforces主办的编程竞赛,严格遵循竞赛规则,允许10次提交。GPT-4o的Elo评分为808,位于人类参赛者第11百分位。该模型远超GPT-4o和o1,获得1807的Elo评分,超过93%参赛者。
在编程竞赛上进一步微调模型提升了o1的表现。改进后的模型在2024年国际信息学奥林匹克竞赛中,按竞赛规则排名在第49百分位。
人类偏好评估
我们评估了人类对o1-preview和GPT-4o在各种挑战性、开放式任务中的偏好。训练师匿名查看两个模型对相同提示的响应,投票选择偏好回答。o1-preview在数据分析、编程和数学等推理密集型领域大幅优于GPT-4o。然而,o1-preview在某些自然语言任务中并不被偏好,表明它不适用于所有场景。
人们在那些需要更好推理能力的领域更偏好o1-preview。
安全性
思维链推理为对齐和安全提供新机会。将模型行为策略整合到推理模型思维链中,是稳健教授人类价值观和原则的有效方式。通过在上下文中教会模型安全规则及其推理方式,我们发现推理能力直接增强模型鲁棒性:o1-preview在关键"越狱"评估和最难内部安全边界测试中表现显著提升。
我们在部署前进行了一系列安全测试和红队攻击测试。思维链推理在各类评估中促进能力提升。特别是,我们观察到一些有趣的"奖励黑客"现象。详细评估结果可在附带系统卡中查看。
- XSTest中良性边缘案例的合规性(“不过度拒绝”)(Röttger等人, 2023):GPT-4o为0.924,o1-preview为0.976。
隐藏思维链
隐藏思维链为监控模型提供独特机会。如果思维链忠实且清晰,允许我们"读取"模型思维过程。未来可能通过监控思维链识别模型是否操纵用户。实现这一目标,模型必须自由表达未经修改的想法,因此不能在思维链上训练政策合规性或用户偏好。同时,我们不希望未对齐的思维链直接对用户可见。
权衡用户体验、竞争优势及思维链监控可能性后,我们决定不向用户展示原始思维链。我们承认这一决定存在缺点,但会努力通过引导模型在回答中复述思维链中有用想法来部分弥补。对o1系列模型,我们展示模型生成的思维链摘要。
结论
o1在AI推理领域取得显著进展。我们计划持续迭代发布改进版本。预计这些新推理能力将增强模型与人类价值观和原则的对齐。我们相信,o1及后续版本将为科学、编程、数学及相关领域的AI应用解锁更多场景。我们期待用户和API开发者发现该模型如何提升日常工作。
附录A
- pass@1:GPT-4o为63.8,o1未提供数据,o1为73.2。
OpenAI "Strawberry"与推理能力突破
Ethan Mollick
2024年9月12日
https://www.oneusefulthing.org/p/something-new-on-openais-strawberry
我有幸提前接触备受期待的OpenAI "Strawberry"增强推理系统。这项技术非常出色,尽管仍有局限,但更重要的是它预示了未来技术发展方向。
新模型o1-preview能在解决问题前"思考"。这使其能应对需要规划和迭代的复杂问题,如全新的数学或科学难题。事实上,它现在能击败博士级专家,解决极其困难的物理问题。

需要明确,o1-preview并非在所有方面都优于现有AI系统。例如,它的写作能力并不优于GPT-4o。但对需要规划的任务,o1-preview带来了巨大变革。我曾指示o1-preview基于一篇论文,结合教师和学生观点,设计一个使用多代理系统和生成式AI的教学模拟器,并编写详细代码。我只粘贴了整篇论文,额外提示仅为"构建完整代码"。
Strawberry的实际应用
评估复杂输出并不容易。展示"Strawberry"提升(及其局限)的简单方式是通过填字游戏。我从一个极难的填字游戏中选取8个提示,转换为文本格式(因o1-preview暂不处理图像)。

填字游戏对大型语言模型特别困难,因需要迭代解决:反复尝试和排除多个互相影响的答案。这超出了传统大型语言模型的能力,它们只能逐步添加词或符号。例如,Claude首先猜1-下为"STAR",错误后陷入困境,无法继续解题也未接近正确答案。缺乏规划过程,Claude只能直线思考。

当我将任务交给"Strawberry"时,AI首先"思考"了108秒(大多数问题解决时间更短)。其思维过程展示了推理和规划能力,通过分析和思考,最终完成传统语言模型难以处理的任务。

大型语言模型(LLM)反复迭代,创造并淘汰各种想法。结果相当令人印象深刻,它的表现也很出色……但o1-preview似乎仍然基于GPT-4o,它在解决这个有些不公平的谜题时显得过于字面化。1横“Galaxy cluster”并不是指真实的银河系,而是指三星Galaxy手机(这也让我困惑)——答案是“APPS”。卡在真实银河上,人工智能不断尝试实际的银河团名称,最终决定1横是COMA(这是一个真实的银河团——我之前不知道)。因此,其他结果并不完全正确,也没有完全符合规则,但相当有创意:1纵是CONS,12纵是OUCH,15纵是MUSICIANS,等等。
为进一步探索,我提示:"1下的答案是APPS。"AI再次思考一分钟,不断迭代想法。最终答案完全正确,解决所有困难引用,尽管幻想出了不存在的23横提示。


o1-preview实现了之前无法做到的事,但仍不完美:错误和幻觉依然存在,受限于GPT-4o的"智能"水平。获得新模型后,我不再使用Claude进行复杂规划或问题解决,但仍用其评判文章——Claude在风格方面更佳。复杂规划或问题解决时,我完全转向o1-preview,它在这些领域带来巨大飞跃。
从协同智能到自主行为
使用o1-preview意味着AI范式转变。规划是一种自主行为,AI能自行得出解决方案,无需我们帮助。AI经大量思考和推理给出完整结果,人类参与度降低。我们可通过其推理内容查找错误,但不再感觉与输出结果紧密相连,或在决定解决方案走向上扮演重要角色。
随着这些系统演进,接近真正自主智能体,我们需要找到保持问题解决过程参与度的方法——既捕捉错误,也掌握问题脉络。即使o1-preview有局限,但已揭示AI能力一角,展示了未曾预见的潜力。这引出关键问题:当AI不断进化时,我们与其协作方式该如何演变?这是目前o1-preview尚无法解决的问题。
思维链(Chain of Thought,CoT)解读
CoT技术的工作方式是通过提示模型在解决问题的过程中表达其推理过程。这是通过以下方式实现的:
提供示例:模型会看到推理过程被明确描述的示例。例如,在解决数学问题时,模型将被引导首先识别问题,然后概述解决问题所需的步骤,最后提供答案。
拆解问题:通过将复杂问题拆解为更小的、按顺序进行的步骤,模型可以一次集中处理一个方面,从而提高回答的准确性和清晰度。
规模的突现能力:研究表明,CoT提示在较大模型(如1000亿参数或更多)中效果尤为明显。较小的模型往往生成的推理链不够连贯,因此其性能低于标准提示方法。
改进的推理能力:CoT提示显著增强了模型执行复杂推理任务的能力,通过引导其经过逻辑步骤,减少了推理错误的可能性。
透明性:这种方法提供了对模型思维过程的洞察,使开发者能够理解模型如何得出特定结论。这种透明性有助于调试和优化模型的性能。
可扩展性:CoT提示可以在不进行大量重新训练的情况下实施,使其成为在各种应用中提升推理能力的可扩展解决方案。
尽管有诸多优势,CoT提示也面临一些挑战:
模型规模依赖性:CoT提示的效果随着模型规模的减小而降低,较小模型可能难以生成逻辑推理链。这引发了在实际应用中部署大模型的可及性和效率问题。
实施复杂性:设计有效的CoT提示可能耗时且需要对任务有良好的理解。这种复杂性可能阻碍了这一技术在某些背景下的广泛采用。
不是训练方法:CoT提示是一种更有效利用现有模型的技术,而不是替代适当训练的方法。它不能弥补在模型训练阶段应该解决的根本性限制。
思维链(CoT)提示目前已在多种大型语言模型(LLMs)中应用,以增强它们在多个领域的推理能力。以下是一些显著的应用和示例:
算术推理:CoT提示在解决算术问题上显示出了显著的改进,特别是在GSM8K和MultiArith等基准测试中。例如,像PaLM 540B这样的模型通过将复杂的数学问题分解为更简单的逻辑步骤,实现了高准确率。
常识推理:这种技术在需要常识知识的任务中表现有效,如CommonsenseQA和StrategyQA基准测试中评估的任务。CoT提示帮助模型进行多跳推理,使其能够将不同的信息片段连接起来,从而得出准确的结论。
符号推理:CoT提示使模型能够处理符号推理任务,这在使用标准提示方法时较为困难。它使模型能够更好地处理需要理解关系和逻辑操作的任务。
自然语言推断与问答:CoT提示通过引导模型经过结构化的推理过程,提高了模型在自然语言推断和问答任务中的表现。这有助于模型澄清问题的各个组成部分之间的关系,从而得出准确的答案。
企业应用:在实际应用中,CoT提示被用于客户支持聊天机器人、法规合规分析和供应链优化等领域。例如,聊天机器人可以将客户查询分解为可管理的部分,从而提供更精确和有上下文的回答。
使用思维链提示的模型
GPT-3及其变体:GPT-3模型系列,特别是较大的变体,已经在CoT提示下展示了增强的表现,特别是在需要逻辑步骤的推理任务中。
PaLM(Pathways Language Model):PaLM系列,特别是具有5400亿参数的模型,在使用CoT提示时在推理任务上表现出显著改进,超越了没有利用这一技术的较小模型。
LaMDA:谷歌的LaMDA模型也结合了CoT提示,以提升其在各种话题上的对话能力和推理能力,从而贡献于更连贯和上下文相关的互动。
OpenAI o1:最近发布的OpenAI o1模型专门训练以进行思维链推理,利用强化学习来提高其推理能力。o1模型能够在回答之前进行深思熟虑,产生长时间的内部推理链,从而在复杂的科学推理和数学问题上表现出色。在处理复杂任务时,o1模型能够识别和纠正错误,进一步提升其推理能力。
[Inference scaling laws]相关论文
Let's Verify Step by Step
https://arxiv.org/abs/2305.20050
WebGPT: Browser-assisted question-answering with human feedback
https://arxiv.org/abs/2112.09332
Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters
https://arxiv.org/abs/2408.03314
An Empirical Analysis of Compute-Optimal Inference for Problem-Solving with Language Models
https://arxiv.org/abs/2408.00724
Are More LLM Calls All You Need? Towards Scaling Laws of Compound Inference Systems
https://arxiv.org/abs/2403.02419
Large Language Monkeys: Scaling Inference Compute with Repeated Sampling
https://arxiv.org/abs/2407.21787
---【本文完】---
近期受欢迎的文章:
更多交流,可加本人微信
(请附中文姓名/公司/关注领域)





