暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

忘记ChatGPT vs Bard,真正的战斗是GPU与TPU,谷歌挑战英伟达AI“最大军火商”地位

284

 


  ChatGPT让生成式AI成为时代的风口。国外的微软、谷歌,以及国内的百度、华为、阿里、京东、360等科技巨头,纷纷备战,打得一塌糊涂。


  不过他们干的是训练语言大模型,用的是包括AI功能的超级计算机,吃的是标记好的数据,输出的是用自然语言进行交互的服务。


  而提供AI计算所需的GPU,则被戏称为AI大战的“军火商”。大模型很多,商业进程复杂,一路走来,肯定会有跌倒的,有铩羽而归的。但是,提供GPU计算能力的军火商,却铁定是最大的赢家!


  目前,英伟达已经稳稳地成为了AI大战的“最大军火商”,谁都要向他买GPU!这就是为什么美国政府要求英伟达最强大的“武器”GPU H100对中国禁售。


  不过,谷歌正以自己的TPU向英伟达发起了挑战!


  忘记ChatGPT vs Bard,真正的战斗是GPU与TPU。


01

谷歌最强的 AI 芯片 ——TPU v4露真容


  虽然谷歌早在2020年就在自家的数据中心上部署了当时最强的AI芯片——TPU v4,但直到今年的4月4日,才首次公布了这台 AI 超级计算机的技术细节。


  虽然英伟达在人工智能模型训练和部署市场占据主导地位,市场占有率高达90%以上,但谷歌自2016年以来一直在设计和部署一种名为Tensor Processing Unit(TUP)的人工智能芯片,用于内部使用。


  谷歌表示,已经建成了一台超级计算机系统,其中包含4096个TPU,并加入了旨在运行和训练AI模型的定制组件。自2020年投入谷歌的PaLM模型训练以来,一直在运行。该模型与OpenAI 的GPT模型展开竞争。


  根据谷歌公布的论文,谷歌的基于TPU的超级计算机TPU v4“比Nvidia A100快1.2-1.7倍,功耗低1.3-1.9倍”


  性能、可扩展性和可用性使TPU v4超级计算机成为大型语言模型的主力。相比于TPU v3,TPU v4 的性能要高出 2.1 倍,而在整合4096个芯片之后,AI超级计算机的性能更是提升了10倍。


  问题来了,谷歌为什么不和英伟达最新的GPU H100 比较?


  谷歌表示,由于H100是在谷歌TPU v4芯片推出后使用更新技术制造的,所以没有将其与英伟达最新的旗舰 H100 芯片进行比较。


  谷歌暗示正在研发一款与Nvidia H100竞争的新TPU,但没有提供详细信息。


02

英伟达GPU快速升级


  训练出一个类ChatGPT大模型,需要极大的算力,需要成千上万个GPU。据报道,OpenAI训练ChatGPT就用了10000个英伟达的GPU。


  英伟达凭借GPU搭上了AI的快车道。随着ChatGPT爆火,英伟达今年以来股价上涨近80%,最新市值超过6400亿美元。


  在3月21日的GTC大会上,英伟达带来了一款全新的核弹级GPU产品 H100 NVL!4月初公布的名为MLperf的全行业AI芯片测试的结果和排名,最新英伟达芯片H100的结果明显快于上一代,比A100高4倍的性能。


  下一代生成式AI需要新的AI基础设施来训练具有高能效的大型语言模型。谁能买到H100 NVL,谁就能在这AI大战中,获取更充足的弹药!


  GPU芯片对于开大语言模型训练和生成式AI发展至关重要。因此,GPU已经上了美国对中国禁用的黑名单。


  2022年8月,美国监管机构以国家安全为由,对NVIDIA A100、H100两款GPU实施禁令,不得销售给中国企业。禁止将具有强大计算能力和高芯片数据传输率的芯片卖给中国。


  在使用大量数据训练AI模型时,传输速度非常重要,因为较慢的传输速度意味着更多的训练时间。


03

GPU与TPU的对决



  支持 ChatGPT 和 Bard“决一死战”的是英伟达的 GPU(图形处理单元)和谷歌定制的 TPU(张量处理单元)。换句话说,ChatGPT与Bard对抗的背后是TPU与GPU之间的对决,以及如何有效地进行矩阵乘法计算。


  由于在硬件架构方面的出色设计,英伟达的 GPU 非常适合矩阵乘法任务,能有效地在多个 CUDA核心之间实现并行处理。


  虽然像AMD和英特尔这样的竞争对手已经创造了人工智能加速器竞争产品,但NVIDIA的行业知识和对CUDA的铁腕控制再次为其赢得了优势。


  因此从2012年开始,在GPU上训练模型便成为了深度学习领域的共识,至今都未曾改变。


  而随着 NVIDIA DGX系列的推出,英伟达能够为几乎所有的AI任务提供一站式硬件和软件解决方案,也是竞争对手由于缺乏知识产权而无法提供的。


  相比之下,谷歌则在2016年推出了第一代张量处理单元(TPU),其中不仅包含了专门为张量计算优化的定制 ASIC(专用集成电路),并且还针对自家的TensorFlow框架进行了优化。而这也让TPU在矩阵乘法之外的其他AI计算任务中具有优势,甚至还可以加速微调和推理任务的速度。


  此外,谷歌 DeepMind 的研究人员还找到了一种能够创造出更好的矩阵乘法算法的方法 ——AlphaTensor。


  然而,即便谷歌通过自研的技术和新兴的AI计算优化方法取得了良好的成果,但微软与英伟达长久以来的深度合作,则通过利用各自在行业上的积累,同时扩大了双方的竞争优势。


  虽然谷歌的技术堆栈和优化人工智能计算的新兴方法取得了良好的成果,但像微软这样的竞争对手一直在利用英伟达的行业地位来获得竞争优势。


  虽然AWS等其他竞争对手也推出了AI加速器,如AWS下一代计算芯片Graviton,以及推理芯片Inferentia,但战场目前似乎由GPU和TPU主导。人工智能加速器可能会进入企业的下一个升级周期,但现有的解决方案无法轻易更换的USP。


  然而,随着今天的GPU变得越来越资源繁重,除了性能以外在功耗和冷却方面的投入也令用户担心,企业正在寻找替代方案。此外,人工智能需要计算才能变得更好,一项研究预测人工智能计算需求将每3.4个月翻一番


  最后的观点是:NVIDIA GPU的通用特性使其能够加速各种工作负载,而Google TPU的专注特性使其能够为在Google的AI工具生态系统中工作的人员提供最佳的计算能力。


  这个领域的范式转变可能会导致一方战胜另一方,但摩尔定律的死亡表明,在赢得战争之前,我们将不得不等待一段时间。


参考资料:


·https://mp.weixin.qq.com/s/5552JK4hsLlQbVFSiCFMXQ


·https://www.cnbc.com/2023/04/05/google-reveals-its-newest-ai-supercomputer-claims-it-beats-nvidia-.html


·https://www.reuters.com/technology/google-says-its-ai-supercomputer-is-faster-greener-than-nvidia-2023-04-05/


·https://analyticsindiamag.com/forget-chatgpt-vs-bard-the-real-battle-is-gpus-vs-tpus/




扫码关注我们

大数据应用

从现在开始



END


文章转载自Hadoop大数据应用,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论