老黄200亿「钞能力」回应谷歌：联手Groq，补上推理短板

澳门真人平台玩法技巧

新闻动态: 澳门真人平台玩法技巧介绍; 产品展示; 新闻动态

热点资讯

特斯拉开源硬件，中国公司开源大脑：智平方 AlphaBrai

老黄200亿「钞能力」回应谷歌：联手Groq，补上推理短板

县城经济神话，梦醒时分

你的位置：澳门真人平台玩法技巧 > 新闻动态 > 老黄200亿「钞能力」回应谷歌：联手Groq，补上推理短板

老黄200亿「钞能力」回应谷歌：联手Groq，补上推理短板

发布日期：2026-02-05 12:50 点击次数：167

Jay 发自凹非寺量子位 | 公众号 QbitAI

老黄稳准狠，谷歌的 TPU 威胁刚至，就钞能力回应了。

200 亿美元说砸就砸，只为拉拢一家炙手可热的「铲子新工厂」——Groq。

这无疑也标志这家芯片巨头，面向 AI 新时代的一次重大布局。但在某种程度上，也的确反映出老黄对包括 TPU 在内等一众新芯片范式的担忧。

所以，Groq 究竟能为英伟达带来什么？

针对这个问题，知名科技投资人 Gavin Baker 发表了自己的观点。

而他的这一连串技术剖析，纷纷指向了英伟达帝国防守最薄弱的那块领土——推理。

推理方面，Groq LPU 的速度远超 GPU、TPU，以及目前所见的任何 ASIC。

Gavin Baker

这一观点得到大量网友点赞：

GPU 架构根本无法满足推理市场对低延迟的需求，片外 HBM 显存速度实在太慢了。

网友观点

但也有网友指出，LPU 所采用的 SRAM，或许并不能胜任长下文 decode。

对此，Gavin 认为英伟达可以通过产品「混搭」的方式解决。

下面具体来看——

Groq：英伟达斥 200 亿美元购入的一剂疫苗

Gavin 认为，GPU 在新时代水土不服的根本原因在于——推理过程的两个阶段，prefill 和 decode，对芯片能力有截然不同的要求。

先看 prefill：

这一步，简单来说就是让模型「读题」，把用户提供的关键信息在脑子里记好，用于后续调用。

读题过程中，模型会一次性吃下用户所给的上下文，所有输入 token 都可以同时计算。

这正是 GPU 最擅长的舞台，其为图形处理而生，可以一次性计算数千个像素，天生适合处理并行任务。

在这个准备阶段，模型不用急着响应用户问题。即便有延迟，模型也完全可以通过显示「思考中」来掩盖等待时间。

因此，相比「速度」，prefiil 需要芯片有更大的上下文容量。

但到了decode，这套逻辑不再适用。

decode 是串行任务，必须得一个一个 token 挨着算。更重要的是，用户还会亲眼看到 token 被一个个「打」出来的过程。这种情况下，延迟对用户体验来说是致命的。

然而，GPU 的数据主要存放在 HBM，而不是紧贴算力核心的片上存储。这意味着，每生成一个 token，GPU 都需要重新从内存中读取数据。

这时候，GPU 的问题就暴露出来了——大部分算力都处于闲置，FLOPs 根本用不满，常常在等内存把数据搬过来，实际计算量远小于 prefill。

相比之下，Groq 有更好的解决方案——LPU。

比起 HBM，LPU 使用直接集成在芯片硅片中的 SRAM。这种片上存储的模式不需要读取数据，这让其速度比 GPU 快 100 倍。即使只处理单个用户，它也能跑出每秒 300 – 500 个 token 的速度，并能始终保持满负荷运转。

事实证明，在速度这一块，LPU 几乎打遍天下无敌手——不仅是 GPU，就连 TPU，以及市面上绝大多数 ASIC 都难以望其项背。

但这并非没有代价的。

相比 GPU，LPU 的内存容量小的多。单颗 Groq 的 LPU 芯片，片上 SRAM 只有 230MB。

作为对比，即便是英伟达的 H200 GPU，也配备了高达 141GB 的 HBM3e 显存。

结果就是：你必须把成百上千颗 LPU 芯片连在一起，才能跑起一个模型。

以 Llama-3 70B 为例，用英伟达 GPU 的话，只需要两到四张卡，塞进一个小型服务器盒子里就能搞定。而同样的模型，需要数百颗 LPU，占地面积也将远大于使用 GPU 的数据中心。

这意味着，即便单颗 LPU 价格更低，整体硬件投资依然会非常巨大。

因此，AI 公司在考虑 LPU 时，最重要的问题是——

用户是否愿意为「速度」付费？

对于这个问题，一年前的市场还不无法给出答案。但从 Groq 如今的业绩情况来看已经非常明确：「速度」是个真实存在的巨大需求，并且仍在高速成长。

而对英伟达而言，这不仅是一个新的业务盘，更是一个颠覆者暗流涌动的高风险地带。倘若错失这个风口，英伟达在 AI 时代的机会可能会被新玩家颠覆，就像英伟达当年通过游戏业务颠覆其他竞争对手一样。

为了抵抗这些竞争者蚕食自己的护城河，英伟达选择注射名为 Groq 的疫苗。希望通过人才收购引入新血液，补齐这块低延迟场景的推理短板，帮助英伟达这艘巨舰摆脱创新者窘境。

「铲子」进入新时代

TPU 的崛起，给英伟达的金钟罩撕开了一道裂缝。

通过自研芯片，谷歌成功摆脱了对英伟达天价 GPU 的依赖，这在很大程度上帮助谷歌削薄了训练和推理成本，这让谷歌在服务大量免费用户的情况下，依然能维持相当健康的财务账面。

谷歌通过 Gemini 3 Pro 的绝地翻盘，证明了 GPU 并非 AI 时代的唯一解。在技术周期高速迭代的背景下，作为 AI「心脏」的芯片，也需要根据不同的发展阶段做出相应的调整。

随着基础模型的进展放缓，AI 竞争的重点开始从训练层转向应用层。而在 AI 应用市场，「速度」对用户体验而言至关重要。

而这次人才收购 Groq，虽然也是变相承认了公司在推理赛道的不足，但同样标志着英伟达帝国的又一次扩张。

称霸预训练的英伟达，这次要借 Groq 的东风，入局竞争对手喷涌而出的「推理大陆」。

而在这个新市场，英伟达或许不再能像如今这样风光。

正如 Groq CEO 所言，推理芯片是项高销量、低利润的苦活。这与即便炒到天价也有客户抢着要，毛利率高达 70-80% 的 GPU 截然不同。

参考链接： [ 1 ] https://x.com/gavinsbaker/status/2004562536918598000 [ 2 ] https://www.uncoveralpha.com/p/the-20-billion-admission-why-nvidia

本文来自微信公众号"量子位"，作者：关注前沿科技，36 氪经授权发布。

上一篇：县城经济神话，梦醒时分

下一篇：特斯拉开源硬件，中国公司开源大脑：智平方 AlphaBrain Platform 重新定义具身智能开源范式