老黄200亿「钞能力」回应谷歌:联手Groq,补上推理短板

  • 首页
  • 澳门真人平台玩法技巧介绍
  • 产品展示
  • 新闻动态
  • 澳门真人平台玩法技巧
    你的位置:澳门真人平台玩法技巧 > 新闻动态 > 老黄200亿「钞能力」回应谷歌:联手Groq,补上推理短板
    老黄200亿「钞能力」回应谷歌:联手Groq,补上推理短板
    发布日期:2026-02-05 12:50    点击次数:167

    Jay 发自 凹非寺量子位 | 公众号 QbitAI

    老黄稳准狠,谷歌的 TPU 威胁刚至,就钞能力回应了。

    200 亿美元说砸就砸,只为拉拢一家炙手可热的「铲子新工厂」——Groq。

    这无疑也标志这家芯片巨头,面向 AI 新时代的一次重大布局。但在某种程度上,也的确反映出老黄对包括 TPU 在内等一众新芯片范式的担忧。

    所以,Groq 究竟能为英伟达带来什么?

    针对这个问题,知名科技投资人 Gavin Baker 发表了自己的观点。

    而他的这一连串技术剖析,纷纷指向了英伟达帝国防守最薄弱的那块领土——推理。

    推理方面,Groq LPU 的速度远超 GPU、TPU,以及目前所见的任何 ASIC。

    Gavin Baker

    这一观点得到大量网友点赞:

    GPU 架构根本无法满足推理市场对低延迟的需求,片外 HBM 显存速度实在太慢了。

    网友观点

    但也有网友指出,LPU 所采用的 SRAM,或许并不能胜任长下文 decode。

    对此,Gavin 认为英伟达可以通过产品「混搭」的方式解决。

    下面具体来看——

    Groq:英伟达斥 200 亿美元购入的一剂疫苗

    Gavin 认为,GPU 在新时代水土不服的根本原因在于——推理过程的两个阶段,prefill 和 decode,对芯片能力有截然不同的要求。

    先看 prefill:

    这一步,简单来说就是让模型「读题」,把用户提供的关键信息在脑子里记好,用于后续调用。

    读题过程中,模型会一次性吃下用户所给的上下文,所有输入 token 都可以同时计算。

    这正是 GPU 最擅长的舞台,其为图形处理而生,可以一次性计算数千个像素,天生适合处理并行任务。

    在这个准备阶段,模型不用急着响应用户问题。即便有延迟,模型也完全可以通过显示「思考中」来掩盖等待时间。

    因此,相比「速度」,prefiil 需要芯片有更大的上下文容量。

    但到了decode,这套逻辑不再适用。

    decode 是串行任务,必须得一个一个 token 挨着算。更重要的是,用户还会亲眼看到 token 被一个个「打」出来的过程。这种情况下,延迟对用户体验来说是致命的。

    然而,GPU 的数据主要存放在 HBM,而不是紧贴算力核心的片上存储。这意味着,每生成一个 token,GPU 都需要重新从内存中读取数据。

    这时候,GPU 的问题就暴露出来了——大部分算力都处于闲置,FLOPs 根本用不满,常常在等内存把数据搬过来,实际计算量远小于 prefill。

    相比之下,Groq 有更好的解决方案——LPU。

    比起 HBM,LPU 使用直接集成在芯片硅片中的 SRAM。这种片上存储的模式不需要读取数据,这让其速度比 GPU 快 100 倍。即使只处理单个用户,它也能跑出每秒 300 – 500 个 token 的速度,并能始终保持满负荷运转。

    事实证明,在速度这一块,LPU 几乎打遍天下无敌手——不仅是 GPU,就连 TPU,以及市面上绝大多数 ASIC 都难以望其项背。

    但这并非没有代价的。

    相比 GPU,LPU 的内存容量小的多。单颗 Groq 的 LPU 芯片,片上 SRAM 只有 230MB。

    作为对比,即便是英伟达的 H200 GPU,也配备了高达 141GB 的 HBM3e 显存。

    结果就是:你必须把成百上千颗 LPU 芯片连在一起,才能跑起一个模型。

    以 Llama-3 70B 为例,用英伟达 GPU 的话,只需要两到四张卡,塞进一个小型服务器盒子里就能搞定。而同样的模型,需要数百颗 LPU,占地面积也将远大于使用 GPU 的数据中心。

    这意味着,即便单颗 LPU 价格更低,整体硬件投资依然会非常巨大。

    因此,AI 公司在考虑 LPU 时,最重要的问题是——

    用户是否愿意为「速度」付费?

    对于这个问题,一年前的市场还不无法给出答案。但从 Groq 如今的业绩情况来看已经非常明确:「速度」是个真实存在的巨大需求,并且仍在高速成长。

    而对英伟达而言,这不仅是一个新的业务盘,更是一个颠覆者暗流涌动的高风险地带。倘若错失这个风口,英伟达在 AI 时代的机会可能会被新玩家颠覆,就像英伟达当年通过游戏业务颠覆其他竞争对手一样。

    为了抵抗这些竞争者蚕食自己的护城河,英伟达选择注射名为 Groq 的疫苗。希望通过人才收购引入新血液,补齐这块低延迟场景的推理短板,帮助英伟达这艘巨舰摆脱创新者窘境。

    「铲子」进入新时代

    TPU 的崛起,给英伟达的金钟罩撕开了一道裂缝。

    通过自研芯片,谷歌成功摆脱了对英伟达天价 GPU 的依赖,这在很大程度上帮助谷歌削薄了训练和推理成本,这让谷歌在服务大量免费用户的情况下,依然能维持相当健康的财务账面。

    谷歌通过 Gemini 3 Pro 的绝地翻盘,证明了 GPU 并非 AI 时代的唯一解。在技术周期高速迭代的背景下,作为 AI「心脏」的芯片,也需要根据不同的发展阶段做出相应的调整。

    随着基础模型的进展放缓,AI 竞争的重点开始从训练层转向应用层。而在 AI 应用市场,「速度」对用户体验而言至关重要。

    而这次人才收购 Groq,虽然也是变相承认了公司在推理赛道的不足,但同样标志着英伟达帝国的又一次扩张。

    称霸预训练的英伟达,这次要借 Groq 的东风,入局竞争对手喷涌而出的「推理大陆」。

    而在这个新市场,英伟达或许不再能像如今这样风光。

    正如 Groq CEO 所言,推理芯片是项高销量、低利润的苦活。这与即便炒到天价也有客户抢着要,毛利率高达 70-80% 的 GPU 截然不同。

    参考链接: [ 1 ] https://x.com/gavinsbaker/status/2004562536918598000 [ 2 ] https://www.uncoveralpha.com/p/the-20-billion-admission-why-nvidia

    本文来自微信公众号"量子位",作者:关注前沿科技,36 氪经授权发布。