Groq - 生成式AI时代的科技巨头

Andy730 2024-09-17

229

核心观点

1. 时代变迁与计算范式

信息时代 vs 生成时代

信息时代：强调数据的高保真复制和传播，商业竞争从获取答案转向创造答案，互联网和移动设备提升了数据的效率。
生成时代：关注实时生成个性化内容，算力的提升成为核心竞争力，超越了数据拥有权的重视。

数据与计算的关系

数据的重要性：数据是构建模型的基础，但在生成时代，数据的价值依赖于算力。
算力的核心作用：算力决定了生成个性化内容和即时响应的质量，类似于工业时代对能源的重视。
数据处理的变革：现代技术允许通过少量数据和大量计算生成高质量输出，强调计算在数据转换中的关键作用。

2. 未来趋势与权力转移

权力的地理转移

数据中心的重要性：数据中心的地理位置决定了算力和竞争力，如俄勒冈的水电资源带来的优势。
AI计算资源的竞赛：算力的提升带来竞争优势，领先者能够加速能力提升，形成市场壁垒。

算资源与算法生态

开源模型的未来：开源模型可能成为主流，类似于Linux的成功，降低AI技术成本，推动普及。
开源的优势：经济效益促使开源模型获得广泛应用，降低技术成本。

3. 生成式AI的社会与经济影响

技术采纳与竞争

采纳速度：生成式AI的采纳速度快于早期互联网技术，市场竞争推动技术进步。
开源 vs 专有技术：开源技术的快速发展可能超越专有技术，对社会和经济产生重大影响。
工作机会创造：新技术可能创造更多的工作机会，而非替代现有工作，促进消费和活动。

行业颠覆与企业优势

行业影响：生成式AI将改变行业格局，类似于信息时代对纸张生产行业的影响，具体赢家尚不确定。

4. 国家安全与AI技术

AI的战略重要性

战略资产：AI改变冲突和战争的动态，降低攻击门槛，尤其在虚假信息战方面。
AI的优势：拥有强AI能力类似于获得空中优势，在冲突中占据有利位置。
防御与脆弱性：AI可能增加攻击途径，使强国在防御上变得脆弱，特别是选举系统的安全。

5. 硬件市场与技术竞争

Nvidia的成功因素

CUDA与专用内核：Nvidia通过CUDA和专用内核建立市场优势，难以复制的内核优化了GPU性能。
前向整合：Nvidia扩展至整个技术链，包括服务器和云服务，控制更多市场份额和利润。

Groq的LPU芯片

自动化编译器：LPU设计阶段开发编译器，简化了优化过程。
系统集成：全面构建网络和系统，使用大量设备提高低延迟性能。
重新设计体系：LPU彻底重新设计体系结构，兼容PyTorch和OpenAI API，降低开发门槛。
开发者吸引：LPU的兼容性和易用性迅速吸引大量开发者，显示市场接受度。

6. 行业成本与供应链管理

硬件和基础设施成本

计算资源的重要性：计算资源的丰富程度成为创新的主要成本因素，影响AI模型的效果和能力。
算力与决策质量：增加计算资源能显著提升模型表现，特别是在战略决策中带来巨大的回报。
模型复杂度与计算资源：复杂问题需要更多计算资源，大型模型提供更强直觉能力，但成本较高。
减少幻觉：增加算力有助于减少模型的错误结果，通过更多计算探索更广泛的解空间。

供应链管理

美国制造的优势：在北美制造和封装减少供应链风险，便于快速迭代。
地缘政治与供应链限制：全球供应链的政策变化可能影响供应，集中控制关键技术减少风险。
Nvidia的采购策略：通过长期合同确保稀有技术供应，提升供应链话语权。
避免稀有技术风险：选择普遍技术减少生产成本和供应风险。
互连带宽的重要性：优化互连架构提升数据传输效率，对处理大规模任务至关重要。

7. 摩尔定律与未来技术

摩尔定律的演变

摩尔定律调整：未来将侧重于三维堆叠技术，继续提升芯片集成度和性能，维持摩尔定律的有效性。
大语言模型的幻觉问题：高成本解决方案可能显著减少幻觉，优秀的提示设计也能提升模型准确性。
低延迟与迭代改进：低延迟支持模型优化，快速迭代能显著提升模型性能。

-----

标题: Groq CEO Jonathan Ross - Tech Giants in the Generative AI Age
时间: 2024年9月15日 (视频上传日期)
节目: World of DaaS
主持人: Auren Hoffman
嘉宾: Jonathan Ross (Groq创始人兼CEO)

生成时代的转型与数据计算范式变化
数据与计算的价值关系
未来的趋势与领域间的权力转移
算资源与算法竞争的生态系统
生成式AI对社会与经济的影响
国家安全与AI技术的未来
芯片市场的竞争与Nvidia的成功因素
Groq的LPU芯片与计算能力的提升
Apple在AI竞赛中的地位与未来
硬件和基础设施的成本变化及其行业影响
硬件制造的地理位置与供应链风险
摩尔定律的未来展望
提示工程在大语言模型中的优化作用
阴谋论和传统智慧或建议

-----

生成时代的转型与数据计算范式变化

Auren Hoffman

今天的嘉宾是Jonathan Ross。Jonathan是Groq公司的创始人兼首席执行官，Groq是一家专注于开发用于人工智能和机器学习领域的高性能芯片的企业。在创立Groq之前，Jonathan还曾发明了谷歌的AI处理器TPU。

Jonathan，您对数据计算领域有着许多独到的见解，特别是关于我们从信息时代向生成时代转型的观点。能否请您详细解释一下这一转型的含义，以及它将如何影响数据的处理与应用？

Jonathan Ross

我们进入信息时代的标志是，我们第一次能够制作高保真数据副本，并将其传播到全球。随着时间的推移，这改变了我们的商业运作方式。突然间，竞争从“谁能即时获得答案”变成了“谁能够创造答案”，想法的起源成为了一种概念，也成为了一种可变现的资源。随着时间的推移，我们得到了新的技术：互联网，它使得可以即时复制和分发高保真内容；移动设备，使得这一切可以随身进行。实际上，这些技术本质上和印刷术一样，只是效率更高。这种变化的程度足以颠覆我们的直觉认知。

生成式AI并不是一种信息时代的技术。它不是关于复制和分发数据，而是关于在瞬间创造内容。它是创造性的，是生成式的。你会得到一个专门为你定制的即时答案，而这需要计算能力。因此，它改变了范式，并打破了我们的直觉。现在，不再是“谁拥有数据”重要，而是“谁拥有计算能力”——谁能在当下为你生成答案。

数据与计算的价值关系

Auren Hoffman

这是否意味着数据的价值下降了，而计算的价值上升了？你怎么看待这种关系的变化？

Jonathan Ross

没有数据就不可能有模型，但同样，没有能源也不可能有信息时代的经济。工业时代的基础是能源，而现在我们看到的是一个新的层叠关系。这确实在一定程度上改变了范式。通常，当我们与人们交流时，越是精通技术的人，越倾向于固守“数据至上”的理念。你还记得我们第一次见面时，我有没有给你演示过我们当时的技术？

Auren Hoffman

我也这么认为。

Jonathan Ross

当时我们距离服务器大概有9000英里，或者几千英里，但响应几乎是即时的。所以，仔细想想，印度的主要出口实际上是“tokens”，只是这些tokens是由人生成的，而不是由计算机生成的。在这种情况下，你不需要地理上的接近性，因为只需要输入少量数据，经过大量计算后生成答案，再输出少量数据。我们常常接收两个字节的数据，进行1800亿次计算操作，然后返回两个字节的结果。这有点像客户服务代理一样。

没错。我们甚至不在服务器中安装硬盘，我们完全解耦，专注于计算。数据当然重要，但这不是我们的核心。我们是在生成时代做事情，但我们是建立在处理数据的其他人的工作基础上的。

未来的趋势与领域间的权力转移

Auren Hoffman

明白了。但如果我们讨论未来的趋势，这次转型会是什么样子？它对不同领域意味着什么——无论是数据供应商、计算供应商还是能源领域？这些领域之间的相互关系将如何变化？权力如何重新分配？

Jonathan Ross

权力会以一种方式发生转移：历史上，地理位置赋予了你很大的权力，比如你可以从地下开采石油。后来，我们开始建造数据中心，这导致了一次转变。数据中心建在哪里，决定了你拥有多大的权力；这不仅仅是找到资源，而是你在哪里构建这些设施。

Auren Hoffman

为什么说俄勒冈比内布拉斯加有更多的权力，或者类似的说法？

Jonathan Ross

嗯，在俄勒冈的情况下，我不确定他们真的有更多的权力，但如果他们有，可能是因为他们拥有丰富的水电资源。为什么说某个地方的数据中心更接近就意味着它有更多的权力呢？从技术角度来看，当前的美中冲突很大程度上是围绕获取多种技术，尤其是AI计算资源。

这里有个“强者愈强”的现象。石油领域，你擅长开采石油并不会让你获得更多的石油；它没有一种循环机制，即你提取的石油越多，获得的石油就越多。但在AI和这些技术领域，随着你能力的提升，你越能更快地提升能力。这会让你在竞争中脱颖而出，当前确实存在一场竞赛，谁能率先取得领先地位。领先者有可能拉开距离，让其他人难以追赶。

算资源与算法竞争的生态系统

Auren Hoffman

在这个背景下，有计算方面的竞争，包括芯片，也有算法方面的竞争，比如OpenAI或者Anthropic的模型。整个生态系统的各个部分同等重要吗？或者某些部分更关键？如果缺失了某些部分，可能就无法取得全面进展。但有些部分可能会免费开放，比如开源模型。

Jonathan Ross

想想Linux。最初，人们对Linux的开源模式并不看好，Linux需要证明自己。但现在，开源已经成为大多数项目的默认选择。很多人认为最终会有一个开源模型胜出，问题只是哪个会胜出。Linux是在互联网泡沫破灭后开始崛起的，当时公司希望降低成本。相比昂贵的Sun服务器，Linux提供了一个更加便宜的替代方案，因此它开始流行起来。

生成式AI对社会与经济的影响

Auren Hoffman

现在是该考虑这一点的时刻了吗？你怎么看？

Jonathan Ross

有趣的是，早期互联网技术的采用速度比生成式AI的采用速度要慢得多。仅仅过去一年多，看看相关公司的增长速度，已经非常惊人了。现在，人们更关注产品质量，而早期互联网提供商并没有这种情况。当时，人们通常只能使用本地的ISP或者可用的网站。而现在，大家都在关注谁将成为赢家，并且倾向于选择更好的方案。

Auren Hoffman

没人想陷入专有技术的困境。这是个重大关切。基于过去的经验，人们假设开源将发展得更快。你不想使用目前领先但可能会被开源超越的专有系统。随着我们进入这个以计算为驱动的生成时代，它会带来哪些社会和经济影响？

Jonathan Ross

我无法准确预测未来会发生什么，但有几点观察很有意思。每一个新的技术时代都会打破我们的直觉认知。一个有趣的现象是，很多人认为新技术会替代工作，实际上我们可能会创造出比现有人口更多的工作机会。比如，过去文章很少会包含图表，而现在，几乎所有的文章和博客都会有图表，因为这些图表的制作变得非常容易。这和“杰文斯悖论”（Jevons paradox）很相似，效率提高反而导致了更高的消费。生成式AI让任务变得更简单，可能会反而促使人类在这些领域的活动增加。

Auren Hoffman

“杰文斯悖论”（Jevons paradox）是否类似于高速公路扩建反而导致更多交通的现象？

Jonathan Ross

是的，这是一个很好的类比。这也与价格弹性有关。

Auren Hoffman

在这个新世界里，哪些类型的公司会拥有最大的优势？

Jonathan Ross

在AI时代，确实会有一些公司拥有显著的优势，甚至可能会有公司取得更大的成功，虽然很难预测具体是哪些公司。在信息时代到来时，生产纸张的公司迎来了好时机，但很难预测哪些报纸会成功。同样，在AI时代，我们知道我们会需要能源、数据和计算。这些是行业的“铲子和镐”。但哪家生成式AI公司会成为下一个谷歌或微软，目前还不确定。

比如，某些航空公司会不会比其他公司更早采用AI，从而表现得更好，还是所有航空公司都会受到类似的影响？医疗、运输等其他行业也是一样。生成式AI将会颠覆每一个行业。相比信息时代，我们从未拥有过一项能让我们如此快速进步的技术。

国家安全与AI技术的未来

Auren Hoffman

执法和国家安全方面呢？在这个生成式世界中，它们将如何发展？

Jonathan Ross

先谈国家安全。有个概念叫做第一、第二和第三次偏移（offset）。第一次偏移是火药，它改变了战争；第二次偏移是核武器，改变了冲突动态。而AI被认为是第三次偏移。与核武器不同，核武器让人们因为风险高而避免了大规模冲突，而AI降低了发动攻击的成本，比如虚假信息战。这可能会加剧冲突，并改变动态。未来的成功将取决于能否在AI上取得优势，类似于空中优势。那些AI能力较弱的实体需要大幅度压倒他们的对手。

在AI冲突中，即使美国的进攻能力更强，也可能面临更多的攻击途径，因此需要显著加强防御。AI可能会让美国在面对攻击时更加脆弱。我特别担心选举。只要我们能确保选举自由和安全，其他与AI相关的问题可以逐步解决。确保选举的完整性至关重要。

芯片市场的竞争与Nvidia的成功因素

Auren Hoffman

在深入讨论你正在研究的新范式之前，可能听众已经知道，Nvidia在过去十年中取得了巨大的成功。为什么Nvidia的GPU在过去十年如此成功？

Jonathan Ross

有很多原因。首先，NVIDIA。让我们稍微回溯一下，谈谈为什么CPU变得成功。大多数人都听说过Intel，最初Intel是一家存储器公司，他们不情愿地转向了CPU，而CPU成了更赚钱的业务。原因是CPU适合非标准化的环境，所以转换成本更高。它符合Hamilton Helmer的“七种力量”（7 Powers）框架中的所有要素。CPU就是这一理论的体现。你可以看到Intel通过“Intel Inside”的品牌营销，以及其他一些手段，形成了难以复制的优势，而不像存储器那样成为商品化产品。

AMD也有x86芯片，它与Intel相似，但Intel的优势不仅仅是因为建一个芯片厂需要20亿美元，背后还有其他原因。

对于AMD，还有另一个因素。部署芯片时，关键不是芯片的成本，而是整个基础设施的成本。如果你能让芯片性能提高15%，就相当于你从数据中心的每一个部分中获得了15%的额外价值。微小的性能优势会带来巨大的结果差异。数据中心提供商有时会使用AMD的芯片来与Intel谈判价格，但他们并不打算大量部署，因为尽管Intel的芯片更贵，但性能更好。这就是“强者愈强”的情况。当你领先时，你就获得了优势。

这也是一个双面市场。你为x86编写代码，人们购买x86系统来运行这些代码。所有软件都必须支持x86中的这些bug，而AMD不得不复制这些bug。有些专家专门研究x86的bug，确保这些复制芯片能够高效工作。

Nvidia的成功因素至少有两大点，还有很多其他因素。首先是CUDA，它也是一种双面市场。CUDA被宣传为一种开发平台，用于为Nvidia芯片编写代码。然而，实际上CUDA很容易复制，难的是CUDA内核。CUDA内核是为GPU编写的程序。如果你想让视频游戏在GPU上运行得更好，目前没有已知的算法可以有效地将代码转化为多核系统。因此，Nvidia的人会根据你的代码手动编写这些内核。如果你是大型游戏设计工作室，你会把游戏交给Nvidia，Nvidia会为它编写内核，让游戏运行得更快。

对专用内核的需求，以及Nvidia在创建这些内核中的作用，成了他们的重大优势。当我们在Google开发TensorFlow时，我们不得不为Nvidia的GPU编写内核，否则TensorFlow就不会有竞争力。这种双面市场的效应使得Nvidia的生态系统几乎无法攻破。

第二个主要因素是Nvidia的前向整合比大多数人注意到的更深入。大多数公司制造芯片、系统和网络，但并不做所有事情。Nvidia从GPU和CUDA软件起步。AMD让别人为他们编写软件，然后他们增加了系统。而Nvidia从一开始就构建了整个体系：GPU、CUDA、DGX服务器，甚至收购了Mellanox以进入网络领域。现在他们还有自己的云服务，直接与客户竞争。

一个最近的例子是，有家公司制作Nvidia显卡，并从中获得了大量收入。某天，该公司宣布退出，因为Nvidia已经挤压了他们所有的利润空间。Nvidia的前向整合战略是他们成功的关键原因之一。通过向上延伸供应链，他们不断抢占更多利润，与客户直接竞争。

Groq的LPU芯片与计算能力的提升

Jonathan Ross

唯一的竞争方法是采用新的范式。你正在研究的LPU是什么？它有什么不同，为什么在这个生成式世界中重要？

Jonathan Ross

我们的方法与GPU完全不同。首先，我们花了前六个月的时间开发编译器。当我们开始设计芯片时，软件已经运行了。这让我们完全避免了内核问题，因为这一过程完全自动化了。

其次，我们从零开始构建了所有东西，包括所有的网络和系统集成。当我们在硬件上运行大型语言模型时，我们使用的是数十万台LPU，而不是一两台。我们的集成互连允许我们同步扩展到更多芯片，实现高效的大规模处理。

在训练中，低延迟并不那么关键，因为你有时间。而在推理中，关键在于你能多快给出答案。每件事情都需要精确调度。想象一下，如果一个任务需要792个人，而他们不能同时完成自己的部分，那就会花费很长时间。

Auren Hoffman

明白了。那么，如何设计出一种全新的低延迟方案？今天需要做些什么，而这些在过去没有做过？

Jonathan Ross

其实你必须完全从头重新设计整个体系。最大的问题是，大家都在试图用功能来解决AI计算，而不是产品。他们会说：“我对这个前向集成堆栈中的某一部分做了一个小改动，这就是我的优势。”然后他们要求别人为此编写软件，构建网络，开发系统，整合所有框架。但没有人愿意这么做，因为成本太高，收益太小。

所以在我们的例子中，我们让它完全兼容PyTorch，这是所有人都在使用的开发平台。你有一个PyTorch模型，它可以直接在我们的硬件上运行，完全不需要额外的工作。因为这样，我们的API也兼容OpenAI，你只需将指向更改为Groq，代码就能直接运行。人们不需要重新编写代码，因此可以立即吸引开发者。

我们实际上已经“病毒式传播”了，差不多已经一个月了。我们已经有了7万名开发者。

作为对比，Nvidia大概用了七年才获得10万开发者，而我们预计会在七周内达到这个数字。

Apple在AI竞赛中的地位与未来

Auren Hoffman

人们似乎很少提到Apple参与生成式AI的讨论，但他们有个优势——或者说你认为是优势？——他们有自己的芯片，自己设计芯片。你如何看待这一点？你对Apple持乐观还是悲观态度？

Jonathan Ross

我对Apple在AI竞赛中持乐观态度，但原因是因为我对他们的现状感到悲观。我认为Apple目前远远落后于其他公司，这反而会促使他们做出一些明智的决定。他们可能会选择与他人合作，而其他一些领先者可能不会这么做。像Google这样的公司，处境最为艰难，因为他们比大多数公司都领先很多。他们有自己的芯片，自己的软件，所有这些东西。他们还发表了《Attention Is All You Need》论文。他们已经领先很多，但他们没有意识到，他们的策略并不奏效，需要做些改变。

其他大型公司也一样。我认为Apple的优势在于，他们是唯一意识到自己没有锁定局面的人。我认为微软、Meta和Google都觉得自己已经是赢家了。而亚马逊，显然根据他们的举动和讨论，意识到自己有些落后，我认为这会给他们更多的灵活性。你经常会看到，落后的人有时反而会迎头赶上，因为他们不太珍惜自己正在做的事情，愿意改变方向。

Auren Hoffman

Apple最近解散了自动驾驶团队，并让他们转向生成式AI的研发。

硬件和基础设施的成本变化及其行业影响

Auren Hoffman

是的。过去，创新的最大成本是工程师的薪水。而在未来，最大成本可能是硬件和基础设施。这将如何改变整个行业？

Jonathan Ross

实际上，这也是Groq公司创立的部分原因——我们希望在AI时代保持人类的自主权。问题在于，如果一小部分人掌握了所有的计算能力，那么他们将掌控一切话语权。我们希望确保每个人都能获得计算资源。这是个非常现实的担忧，因为通过提供更多的计算能力，你可以让员工、合作伙伴以及其他人变得更高效。这与信息时代的技术如搜索引擎不同。你构建了一个索引，然后从中检索数据。虽然可以通过更深层次的搜索提升一点质量，但这并不会对整体结果产生根本性的影响。你实际上是在为所有人构建同一个索引，大家使用的都是相同的索引。

然而，在大语言模型（LLMs）中，虽然你可能是为所有人构建模型，因为构建模型的成本极高，但实际上，计算资源越多，结果就会越好。可以这样想：这有多线性？要获得两倍的结果，需要增加100倍的计算资源吗？这其中的工作机制尚不完全明确。

Auren Hoffman

不过，我换种方式解释。如果你要与一位顾问合作，这位顾问比另一位顾问好10%，你会只愿意多付10%的费用吗？

Jonathan Ross

我会付更多的费用。

这在认知任务中普遍适用。即使计算资源的增加成本是线性的，你也会追求更好的结果，因为你可能正依赖这些结果做出战略决策，这可以带来巨大的回报。

Auren Hoffman

在芯片领域，是否也会看到类似的情况？比如有少数超级昂贵的芯片——有些可能用于手机，有些是GPU等——而绝大多数芯片可能是20或30年前生产的。我们是否会看到类似的分化现象？即在处理某些重要问题时使用复杂的模型，而在其他问题上使用便宜的模型？

Jonathan Ross

我确实相信，越复杂的问题会使用越多的计算资源，而简单的问题则会使用较少的计算资源。这有点像下国际象棋。你可以下快棋，也可以下慢棋，慢棋需要思考更多，耗时也更长。如果你按秒收费使用硬件（这实际上是当前的模式），那么你会希望在能快速解决的情况下使用快棋策略。你可能只想快速生成一系列词语，而不希望它深入思考以提供更好的答案。

正如你提到的，模型大小也影响成本和质量。较大的模型实际上可以提高模型的直觉能力。即便是较小的模型，如果你给它更多的计算资源，它也可能会产生更好的答案。在某些任务中，你可能更希望使用较小的模型，尤其是当你面对的是你从未处理过的全新问题时。你不需要一个大型模型，真正需要的是更多的计算循环来得出答案。

另一方面，模型越大，产生幻觉（错误结果）的概率越小。这就像你开车去某个地方，到了目的地后却发现“这不是我要去的地方”。导航系统可能给你提供了错误的信息，但你自己意识到了。这类错误在更大的模型中更难出现。因此，未来你可能会看到这些模型继续变大，以减少产生幻觉的概率。对于需要减少错误的场景，这将是有效的方式。当然，也可以通过增加计算资源来减少幻觉，只是这需要更多的工作和努力。

Auren Hoffman

那么，为什么增加计算能力可以减少幻觉？

Jonathan Ross

举个例子，假设我要说下一个词是什么？所有听众脑海中可能都会浮现同一个词。如果我问你一句话的下一部分，比如“双曲正切的平方的二阶导数是...”？你可能会说：“我不知道。”那为什么你不知道呢？因为这是一个不常见的话题。大语言模型有点像下国际象棋，区别在于它是处理一系列的词语而非棋步。在每个步骤上，模型会为所有可能的词语分配一个概率分布，然后按从高到低排列。这类似于自动完成功能，通常算法会选择概率最高的词语，但它并不总是选择最明显的答案，有时会考虑其它选项。

你做出这种选择时，就像下棋时第一个想到的棋步。但如果你稍微多想一会儿，可能会找到更好的棋步。这类似于AlphaGo第二场比赛中的“肩冲”棋步。这步棋在一万场比赛中只会出现一次，但因为运行TPU的计算能力足够强，才能找到这步棋并且最终下出来。你明白了吗？这就是计算能力的作用。

Auren Hoffman

因为可以探索更深的解空间，对吧？

Jonathan Ross

没错，这同样适用于语言模型。如果我问你双曲正切的平方的二阶导数是什么，并强迫你立即回答，你可能会说出一些胡话。但如果你有时间回溯并尝试多个不同的选项，最终你可能会找到一个合理的答案。这就像当你听到一个答案觉得“听起来对”一样。你可能不知道答案是否正确，但它听起来对。这种识别正确答案的能力正是需要更多计算资源来实现的。模型在这种直觉部分非常擅长，而通过搜索功能进一步提高精度，这种方法称为束搜索（beam search）。

硬件制造的地理位置与供应链风险

Auren Hoffman

你们的芯片是在美国制造的。能解释一下这样做的经济优势吗？为什么选择在美国制造？

Jonathan Ross

除了你提到的半导体供应链爱国主义等原因，当时我们做这个决定还有很多其他因素。首先，有一些关于供应链的担忧，虽然这并不是我们当时做决定的主要原因。其次，我们能够找到一支更渴望与我们合作的团队。我们与GlobalFoundries合作，他们在纽约州北部制造我们的芯片，然后在加拿大进行封装，并在美国组装我们的系统。我们正努力实现一个完全基于北美的供应链。

这样做的优势在于，我会建议其他初创公司也考虑这么做，尤其是你希望成功崛起时。关键并不在于成为应对突发事件的解决方案，而在于减少未来可能发生问题的风险。因为供应链中的每个环节都在同一个时区内，能更快地进行迭代。对于从零到一的公司，这样的方式更为合理，而当你从一扩展到更大规模时，全球化供应链可能更适合。

此外，地缘政治风险也是一大考虑因素。尽管这并不是我们当时的主要担忧，但我们逐渐意识到，全球供应链涉及太多国家，任何一个国家都可能阻碍供应链的运转，这是一种巨大风险。现在我们也看到，许多大芯片设计公司都在争夺台积电的生产配额，实际上他们是在相互竞标，以获取生产优先权。我猜这意味着台积电的产能有限，尽管目前还没有成为行业的瓶颈。

实际上，限制因素并不是GPU，或者在我们情况下，是LPU本身。而是一种叫做HBM的技术。HBM是高带宽存储器（High Bandwidth Memory）的缩写，全球几乎所有的HBM供应都来自韩国。两大主要制造商是SK海力士和三星。美国的美光也希望成为一个规模化的制造商，但它通常被认为是一个遥远的第三名。

Nvidia做了什么？这也引出了他们取得巨大成功的第三个原因，他们实际上建立了一个单买方市场（monopsony），这是垄断的对立面。与其成为唯一的卖家，Nvidia是唯一的大买家。他们可以与三星和其他公司签订长期合同，买下所有供应。但不仅仅是HBM，还有一种叫做中介层（interposer）或CoWoS的东西，HBM就安装在这上面。而这种中介层的供应也很有限。Nvidia也是全球最大的超级电容买家，他们在这方面也掌握了主导权。

Jonathan Ross

最近有人指出，AMD下调了其产量预期，这很奇怪，因为他们的需求实际上在增长。但这是因为他们无法获得所需的材料，无法生产。因此，不论你是从AMD还是Nvidia购买GPU，实际上你买的都是来自三星或SK海力士的HBM。我们公司做了一件非常不寻常的事情，从一开始就做出设计决策，避免使用任何稀有技术，因为我们知道无法获得这些技术的供应。

Jonathan Ross

我们曾一度想尽可能多地使用普通的、易于获得的商品化技术。事实上，我们下一代芯片的一个版本设计中实际上包含了HBM。我们预购了一百万美元的HBM，因为这种材料需要提前很长时间购买，并且计划在生产中使用。但当我发现这种材料不仅需要很长时间提前采购，而且其成本远远高于芯片时，我决定取消这项计划。我们将HBM移除了，这不仅减少了成本，也降低了风险。

我们的架构非常特别。GPU是围绕HBM构建的，它们需要HBM。而我们的芯片虽然使用的是14纳米工艺，这已经是几代前的技术了，但这在某种程度上是一种优势，而不是缺点。还有一点，大家都专注于浮点运算能力（FLOPS），也就是每个芯片能执行的计算量。但实际上，限制因素往往是芯片之间的互连带宽，而不是FLOPS。如果你能加快芯片之间的通信速度，那么计算能力本身就不再是问题，你可以通过增加芯片数量来解决问题。

最好的类比是，GPU在运行大型语言模型时效率比我们的LPU慢得多。举个例子，如果你需要100万平方英尺的装配线空间来生产汽车，但你只有十分之一的仓库空间，那么你只能搭建十分之一的装配线，将汽车生产一部分后停放在停车场，然后拆除装配线，再搭建下一部分，这就是“批处理”（batching），而GPU正是这样运作的。它们在等待HBM提供数据。而我们有同步互连（synchronous interconnect）和数百颗芯片，等于是拥有完整的装配线。每个“token”就像一辆汽车，从头到尾不必等待内存加载。因此，我们不仅解决了HBM的问题，甚至在供应链问题上也实现了加速。

现在很多人可能会说，“你需要792颗芯片来完成这个任务，而别人只需要8颗。”我们则回答：“是的，但我们每颗芯片的成本只有其他芯片的百分之一。”实际上，每颗芯片只负责一小部分计算任务，因此进展非常快。这有点像说“工厂成本这么高，从工厂生产的汽车肯定比手工打造的更贵。”这是很多人直觉上无法理解的。

摩尔定律的未来展望

Auren Hoffman

现在，很多人认为摩尔定律已经到达极限，或者即将到达极限。你同意这个看法吗？这对芯片开发和其他相关领域有什么影响？

Jonathan Ross

摩尔定律是一个令人惊叹的假设，大家都遵循并把它当作现实。我们做了许多创新来维持它的有效性。我认为我们可以稍微调整一下摩尔定律，让它继续成立。与其说是通过缩小晶体管的数量或尺寸来增加密度，不如把它变成一条经济学定律。我们可以开始谈论“单位体积的三维空间”，这样我们可以开始堆叠芯片，继续提升密度。一旦我们充分利用了三维空间，而不是二维平面，我们会找到下一个突破口，继续保持进步。所以，摩尔定律的功能性并没有结束。它已经转移了焦点，不再仅仅是芯片本身，而是芯片封装，这是当前所有公司争相攻克的新领域。

Auren Hoffman

好的，明白了。总体来看，作为这些大语言模型的用户，感觉它们的进步速度非常快。你预计未来一年会发生什么？

Jonathan Ross

今年年初我做了一些预测。我的主要预测是，到年底，会有一些部署几乎不会产生幻觉（hallucination）。虽然幻觉无法完全消除，但有些情况下它不会再成为问题，因为这个问题会被很好地解决。当然，这并不是说所有人都能使用这样的技术，而是可能有一些更昂贵的解决方案实现了这一点，比如通过更大的计算量或者更大的模型。这将带来很大的改变。

目前争论的焦点是小模型。事实上，根据你如何定义问题和提示，今天就可以在很多情况下消除幻觉。如果你是个优秀的提示设计者，已经可以大幅减少幻觉。很多人甚至开始用大语言模型来自动优化提示，因为事实证明，LLMs在提示工程方面表现得非常出色。

Auren Hoffman

对，没错，所以这也能让效果更好。

提示工程在大语言模型中的优化作用

Jonathan Ross

是的，正如你所看到的，这其实是一个延迟问题。每进行一步操作，都会延迟答案的生成。而我们（Groq）的延迟非常低，所以我们非常支持这些技术，它们目前在使用中并且效果显著。事实上，有一种叫做“反思”（reflection）的技术，你可以问模型：“这个输出如何改进？”然后让它尝试改进，再次反思。通常来说，每三次反思相当于模型的一次代际改进，呈指数增长。如果你想获得两代进步，就是\(2^3\)，三代进步就是\(3^3\)。这就是为什么你在很多最先进的论文中会看到一个指标，可能叫做“shot”或其他名词，表示模型进行了多少次迭代。通过大量实例，反复改进输出，速度在这里非常重要。

Auren Hoffman

那么，当你自己设计提示时，有什么技巧可以让你现在获得更好的结果吗？

Jonathan Ross

是的，我发现，和人类一样，明确的目标设定对LLMs也非常有效。如果你只是说“写一个故事”，它会写一个故事，但结果可能让你失望。如果你说“写一个令人兴奋的故事”，或者定义一个“英雄之旅”的故事结构，比如在故事中需要有张力和障碍，而最后这些障碍不再是主要问题，新的问题才是关键，那它会写得更好。另外，在开始之前让它先写出一个大纲，再根据大纲生成内容，这也有很大帮助。总之，想一想你会如何让一个人类做得更好，用同样的方法对待模型，效果会提升。一个非常有效的技巧是，要求模型“想象答案应该是什么样的”，它的输出质量会立刻提升。

Auren Hoffman

有意思。看来，我也得试试把这些方法用在我和人类的工作互动上。

Jonathan Ross

没错。我也是从LLMs身上学到的，然后把这些方法用在人类身上，效果确实不错。

Auren Hoffman

嗯，真有趣。现在，你作为CEO处于一个很有趣的位置。你的员工是全世界最抢手、最被积极招揽的人才之一。在这种情况下，你是怎么管理公司的？

Jonathan Ross

从一开始我们就处于这样的境地，所以我们已经习惯了。我认为可以引用Hamilton Helmer的“七大力量”（Seven Powers）理论。如果你只关注经济利益，比如说“我给你更多的钱”，你就会输。我们招聘时的一个原则是，尽量不要给出他们在其他地方能拿到的最高薪水，否则我们无法判断他们是否真的对公司有信念；我们需要的是那些真正认同公司愿景的人。另外，吸引优秀的人才往往还能留住更多优秀的人才。我们的团队中，每个人都认为自己身边的同事很出色。我记得有一次，一个CEO非常自豪地谈论他们的“人才密度”，直到他遇到了我们的人，才说：“我原以为我懂什么是人才密度，现在才真的明白了。”

当你招募到真正优秀的人才时，其他优秀人才也会愿意留下来一起工作，想要挖走他们是非常困难的。在你们的行业中，市场对这些员工的薪酬要求在过去七年里显著上涨，年增幅超过20%。这是增长最快的领域之一。相比之下，普通的软件工程师，尤其是过去三年，工资水平实际上是下降的，但AI相关的工程师却经历了大幅加薪，所以你仍需要根据市场情况进行适当的调薪。

Auren Hoffman

没错，我们公司不做AI，而是提供基础工具。

Jonathan Ross

确实如此。其实我们在Groq也没有太多从事AI工作的人，我们更多的是和Nvidia这样公司竞争。

Auren Hoffman

明白了，所以你们更像是在与Nvidia这类公司竞争。

Jonathan Ross

没错。我们有一些员工从事AI工作，但更多的机会在于，当你接触这些领域，帮助客户让这些技术发挥作用时，你会从中学到很多。如果你是一名软件或硬件工程师，能有机会与世界上最优秀的人才合作，这让你可以比其他人更深入地了解这个领域的核心技术。但我们并不是直接做这些技术本身，所以竞争压力相对小一些。

阴谋论和传统智慧或建议

Auren Hoffman

好的，最后两个问题。第一个是：你相信的阴谋论是什么？

Jonathan Ross

我可能是全世界最不擅长相信阴谋论的人。大多数阴谋论爱好者能够同时相信两件相互矛盾的事情。而在Groq，我们招聘时非常看重“现实感知力”（reality quotient）。我们有一套提高现实感知力的方法，起点是“可塑性思维”（malleable mindset），即当事实发生变化时，你的思维也会相应改变。这和阴谋论格格不入，因为当阴谋论被推翻时，你需要承认自己错了。我可能有一些奇怪的看法，我们的团队也有一些独特的想法被证明是正确的，但我不确定它们是否算阴谋论。比如我们曾坚信推理（inference）会在市场中变得越来越重要，而不是训练。大家当时都觉得我们疯了，认为只有训练才是关键。但我们说：“训练是花钱的，推理是赚钱的。推理市场肯定会变大。”我在阴谋论方面表现很差，抱歉。

Auren Hoffman

好的，最后一个问题是：你认为哪些传统智慧或建议实际上是糟糕的建议？

Jonathan Ross

我不太喜欢给建议，因为人们通常不太愿意接受建议。但我可以说，对我自己和我认识的其他人最有利的一点是，学会更加无畏。问题不在于如何变得更无畏，而在于意识到自己被恐惧阻碍了。我经常在会议上听到有人说“我们不应该做某件事”，但实际上他们不想做的原因是害怕。有些人完全无所畏惧，常常陷入麻烦。

但我们常打交道的这类人，往往更倾向于害怕。我想说，创业者通常会少一些恐惧，但在工程领域，错误的代价意味着人们会更加谨慎。他们希望一切都做得完美，而在面对高风险事物时，风险的价值并没有被充分考虑。你应该追求那些高风险的事情，因为生活中的低风险事物往往蕴含着没有被定价的潜在风险。

举个例子，所有人租赁房产时都需要购买火灾保险，但没有人会购买大流行病保险。然而，在过去200年里，办公楼员工因大流行病而无法工作的时间实际上比因火灾导致的停工时间更长。所以，你需要关注那些风险较高的事物并追求它们，因为它们的风险价值比更好。创办初创企业是你能做的最具性价比的低风险之事。如果你在大公司工作，你可能面临裁员风险，而且成长速度较慢。寻找那些大家都害怕的事情，去追求它们。而对于那些大家都不害怕的事情，反倒要小心。

Auren Hoffman

非常好。感谢Jonathan Ross加入我们的“World of DaaS”节目，这次对话非常有趣。

附录1：Jonathan Ross金句

每一个新的技术时代都会打破我们的直觉认知。
生成式AI让任务变得更简单，可能会反而促使人类在这些领域的活动增加，这和“杰文斯悖论”（Jevons paradox）很相似，效率提高反而导致了更高的消费。
关于国家安全：第一次偏移（offset）是火药，改变了战争；第二次偏移是核武器，改变了冲突动态；AI是第三次偏移，降低了发动攻击的成本，比如虚假信息战。
摩尔定律的功能性并没有结束，它已经转移了焦点，不再仅仅是芯片本身，而是芯片封装，这是当前所有公司争相攻克的新领域。
我们（Groq）的延迟非常低，通过减少延迟并优化反思机制，可以大幅提升语言模型的输出质量。每三次反思相当于模型的一次代际改进，这种指数增长是提升模型效果的关键。
训练是花钱的，推理是赚钱的。

附录2：定义

摩尔定律（Moore's Law）

摩尔定律由英特尔创始人戈登·摩尔（Gordon Moore）在1965年提出，指出集成电路上晶体管数量每两年翻一番，推动计算机性能提升和成本降低。尽管面临物理限制，摩尔定律仍对半导体行业和技术创新产生深远影响。

杰文斯悖论（Jevons Paradox）

杰文斯悖论由英国经济学家威廉·斯坦利·杰文斯（William Stanley Jevons）于1865年提出，指技术进步提高资源使用效率时，反而可能导致总体消费量增加。这是因为效率提升降低了使用成本，从而刺激需求增长，抵消节约效果。

“双面市场”（Two-Sided Market）

双面市场是一种商业模式，涉及两个不同用户群体通过一个平台相互连接，彼此之间的价值依赖于双方的参与。成功的双面市场能够实现规模效应，广泛应用于科技和金融行业，影响商业策略和市场动态。

强者愈强现象（Winner-Takes-All Phenomenon）

强者愈强现象描述了在某些市场中，少数成功者获得绝大部分资源和市场份额，通常发生在网络效应明显的行业。这一现象使得成功公司通过规模和影响力吸引更多用户，从而形成自我强化的循环。

7 Powers 理论

“7 Powers”是经济学家Hamilton Helmer于2020年提出的理论，旨在帮助企业获得持久的竞争优势。该理论识别了七种关键力量：品牌力量、规模经济、网络效应、切换成本、资源垄断、工艺优势和反向定位。企业需要关注如何建立这些力量的障碍，以确保能够持续创造高于平均水平的现金流。通过理解和应用这些力量，企业能够制定有效的战略，保持在竞争激烈的市场中的领先地位。这一理论为企业在快速变化的商业环境中提供了重要的战略指导。

参考资料：World of DaaS. (2024, September 15). Groq CEO Jonathan Ross - Tech Giants in the Generative AI Age [Video]. YouTube. https://www.youtube.com/watch?v=IbarROtj4lU

---【本文完】---

近期受欢迎的文章：

AI芯片领域新旧势力的博弈：投资、扩张与监管的复杂局面
云端生成式AI：解密微软AI创新
AI数据中心能源困境：空间争夺战
[PPT] Feeding the AI Beast - Memory & Storage for AI
Cerebras联合创始人剖析Blackwell GPU延迟背后的技术挑战

更多交流，可加本人微信

（请附中文姓名/公司/关注领域）

科技人工智能摩尔定律供应链英伟达

文章转载自Andy730，如果涉嫌侵权，请发送邮件至：contact@modb.pro进行举报，并提供相关证据，一经查实，墨天轮将立刻删除相关内容。

Groq - 生成式AI时代的科技巨头

评论