到,,, 2025-08-2008: 精彩, 读的那种荡气回肠 的感觉,会 上闻的“引 用: AI 越智能,英伟达越危险【精华贴】 我坚信,任何满足这五个特性的可解问题 ,都 将在未来几年内被 AI: 彻 诬攻克。 一 一Jason Wei,前OpenAI 研究员 堪比茅台的电子印钞机 最近和朋友 聊投资,英伟达成为了绕不开的 话题。
它的市值超4 万亿美元,登顶全球第一。它 的GPU,一卡难求。它的财报数据,好到令 人 吓 舌 人 们都 说,为 AI 淘金者们提供算力的英伟 达,是最赚钱的“ 卖镁人”。 这把“铲子 ”有多赚钱? 来 看几个数字。 先看市场份额。 IoT Analytics 的数据显示 ,2024 年前三季 度,在全球数据中心 GPU 这条赛道上,英伟 达一家就合下了92% 的份额,近乎垄断。
再 看利润率。 根据各家公司最新发布的年 报,英伟达的毛 利率高达75%,净利率高达55. 8%。 这是什么概念? 要知道,同为硬件厂商的小 米,净利率常年 在个位数拓扎。 以品牌溢价能力著称的革果,净利率仅为 24%,相较和于英伟达,腰斩有余。 即便是被誉 为“液体黄金”的贵州茅台,销 售净利率“也只不 过” 52. 3%,依然相形见 细。
反观英伟达, 它主要服务的明明是痴迷于“ 降 本增效”的企业客户,利润率却足以让酒中 之王和消费电子震主都踏然失色。 此刻的英伟 达,拥有极强的定价 权,即使是 豪掷上百亿美金购买GPU 的巨头客户,在它 面前也没有讨价还价 的余地。 去年,官方渠道售价3 万美元的 H00,市 场价一度炒到4;万美元以 上。说它是“电子 苯台”,也和蕊不为过。 这令人垂族的印钞能力,并非一日之功。它 的种子早在十多年前就已埋 下。而我恰好有 幸在故事的起点入 场,一路见证了它波澜壮 阔的成长。
亲历 万亿帝国的崛起 早在2009 年,英伟达就开始与中国高校合 作,,将GPU 计算 的种子,播撒到学术研究的 最 前 沿 我 的GPU 启蒙 ,始于2012 年的那个暑假。 当时 在清华NICS-EFC .实验 室实习 ,课题任 务 就是利用 ;GTX 580 显卡的并行计算能力, 来加速通信算法。 同样 是那年夏天,在万里之外的多伦多大学, Geoffrey Hinton 和他的两个学生Alex Krizhevsky、Ilya Sutskever,也在用GTX 580 显卡 ,训练他们的神经网络AlexNet,
为即将到来的ImageNet 图像识别比赛做最 后 的冲刺。 惊雷在2012 年的秋天 炸啊。 AlexNet 在ImageNet 大赛中以碾压性的优 势夺 冠,从此开启了AI 的黄金 时代。 那 次实习,让我第一次颖见了GPU 并行计算 的潜力。后来去上交读博,,… 扎进了计算 机视 觉 的研究中, 也因此 得以在AI 风暴 的中心, 完整见证了英伟达万亿希国的崛起。 刚 入学时,实验室里只有一两张GPU,那时 神经网络还是个不被看好的冷门方向。 然而AlexNet 掀起 的这场革命,以惊人的速 度席卷了整个学术 圈。仅仅三年后 ,计 算机
视觉 领域的顶尖算法,齐刷刷地转向了神经 网 络的阵营。 学术界 的“GPU 苗备竞赛” 就此拉开序幕。 因为 大家很快发现,一个实验室所拥有的 GPU 数量,与论文的产出效率直接挂钩。英 伟达的GPU,也从无 人问唐的“游戏卡 一跃成为每个实验室都必须标配 的“科研神 器 ”,人和手一张都远远不够 革命 的烈火,也迅速从象牙塔烧到了产业界。 AI 方同的研究生成为大三竞相争抢 的“香饼 馆 ”,薪酬水涨船高 。AI 方向 的导师,成了 招生季最炙手可热 的明星。而AI 领域 的论 文投稿量,也迎来了爆发式增长。
Al 顶会CVPR 论文投稿数 数据来 源: Paper Copiloty’CVPR Statistics 年赴美访学期 间,我杀身感受到了这波 学术浪淹的冲击。 当年CVPR 的投稿 量井喷,审稿人严重 不足。 当时的我竟被分到了 10 篇论文,要求在一 个月内审 完,一边审稿一边赶稿的日子令人 爆 肝。
这成千上万篇论文的创新成 果,几乎都诞生 于英伟达的 之上。 每一篇论文都在为它 的生态高墙添砖加瓦。 随后ChatGPT 的横空出 世 ,彻底将这场AI 浪潮推向了新的高 峰,也把英伟达送上了如 今的市值王座。 故事到这里,英伟达已成为AE 时代无可争 议的算力基座。在许多人眼中,投资英伟达, 就等同于下注整个AI 行业的光明未来。 然而,一家独大,会是AT 芯片行业的终局 吗? 我 对此存疑。
水能载舟,亦能履舟。那股将英伟达推上王 座的 AI 洪流,或许也将成为颠覆其生态的 滔天巨浪。 这份疑虑从何而来? 还得先从英伟达的“护城河 ”说起。 AI 硬件性能的“ 铁三角?” 让英伟达坐拥垄断地位、尽享超额利润的护 城 河,究竟是什么? 是登峰造极的GPU 微架构设计能力吗? 远 不止于此。
要知道 ,AI 数据中心的人硬件性能,由三大要 素共同决定: 算力、显存、带宽。 简单来说,算力就是GPU 的运算速度,显存 是GPU 用于存放中间数据的高速内存空间, 带宽则是数据传输的速度。 为了彻底搞懂三者的关系,我们不妨走进一 个熟悉的场景一一厨房。 想象你是家中的掌勺大厨,今天的任务 是以 最 快的速度,搞定三菜一汤。 工 欲善其事 ,必先利其器。要想高效完工, 你最关心厨房里的哪几样东 西呢?
首先得有一骨好锅。锅的好坏,决定了训饪 的效率一一这就好比是GPU 的算力。 同样 是炖排骨,用高压 锅 ,15 分钟就已骨酥 肉烂。而换成一口普通的砂锅,就要咕嘟咕
其次,你还需要一个足够宽敞的备荣台一一 这就好比是显存。 如果人台面够大,所有食材、配料就可以一字 排开,信手拓来。 但如果人台面小到只能放下一小块砧板呢? 想象一下那种手念脚乱的场景: 切好的土豆丝,必须先小必辟翼地装进盘子, 挪到身后的冰箱里存 着,才能给切肉丝腾出 地方; 等要下锅时,又得急急忙忙把盘子从 冰箱取出来。这么来回折腾,效率目然就低 了。上一道菜已熟透要出锅了,下一道菜的 食材 还没准备好呢。
这就是显存不足引发的效率灾难。当显存容 量告急 时,GPU 就不得不将中间数 据,暂存 到速度慢得多的CPU 内存或硬盘 中。低效的 数据搬运,让GPU 时常处于摸鱼等待的状态, 宝贵的算力就这样被白白浪费了。 最后,别筷了检查水龙头的水流大小一一这 就好比是带宽。 洗菜、接 水,都离不开它。 若是水龙头一 开,水流就哗哗作 响,那干起 活 来自然得心应手。 如果水压较 低,水流细如滴 管,接满一盆洗 菜水都要十几分钟,那么顶配的高压锅和宽 敞的备菜人台就都成了昂贵的摆设。你只能桂
在原地 ,眼睁睁看着 时间“噶 咬哄”地流 国顺。放 有 僧人和一 1T 晤 CR 一| 三 一二 因此, 算力、显存、带宽, 三者共同构成了AI 数据 中心 的“性 能木桶 ”。任何一方出现短 板,都会限制整个系统的效率。
下表清晰展示了英伟达与其主要竞争对手在 最新一代产品上的核心参数。无论是算力、 显存 ,还 是带宽,其性能都 无懈可击。 NVIDIA “NVIDIA Huawei 。” GB200 全人| MI355X “Ironwood ”NVL72 BF16 Dense 峰值算力(TFLOP/As ) FP8 Dense 峰值算力(TFLOP/As ) 不支持 FP6 Dense 峰值算力(TFLOP/As) 丰和支持 不支持 FP4 Dense 峰值算力(TFLOP/As) 不支持 不支持 显存带宽(TBytes/s) 显存容量(GB) Up单 向带宽(GBytesks) Scale Out 单向带宽( Gbits ) 未公开 由 此可见,英伟达的便件霸权,源目于“三 位一 体” 的绝对领先: GPU 的微架构设计能 力,对先进HBM 显存 的整合能力,以及独步 天下的高速互联技术CNVLink/ Infiniband)。
正是这三者的合力,铸就了它在“ 单挑”中 的王者地位。 那么,全方位领先的硬件性 能,就是英伟达 的护城河 吗? 芯片 之上上,系统为王 并 非如此。 请注意,我刚刚用了一个词: “ 单挑”。也 就是说,上表展示 的,是单个GPU 的算力、 显存 容量和通信带宽。
然而,如今 AI 数据中心的竞赛早已不是 1V1 对 决,而是动加成千上万颗芯片协同作 战的团体争霸赛。衡量胜负的终极标准并非 单芯片的峰值性 能,而是整个集群的系统级 效率。 这意味 着,卓越的系统架构与互联效率,甚 至比芯片本身的微架构设计更为关键。 换言之,芯片“ 单其作战”能力的不 足,完 全可以用系统工程的智慧来弥补。 为了更好地理解这一 点,让我们再次回到熟 悉的厨房。 这次挑战 升级了。
你是执掌一家大型饭店的行政主厨,正筹备 一场百人盛实的备 菜,需要在最短的时间内, 炖熟 30 斤排骨。 那口昂贵的高压锅虽 快,一次也只能炖3 斤 肉。 分10 次下锅? 不 行,宾客可等不了那么扩! 再买9 个高压锅一次炖完2 对不 起,没预算。 怎么 办? 不如用 10 口廉价的普通砂锅。 虽然单口砂锅的效率不如高压 锅,但只要 口锅一起开火,就能一次炖完所有排骨。 尽管总能耗更 高,但相比省下的大笔采购费 和备餐时间,依然划算。
这就是以系统工程取胜。 当然,现实中的AI 集群远比这复杂,它并 非芯片数量的暴力堆砌。 成败的关键在 于,能和否通过高效的通信网络 和互联架构,来确保芯片间无颖协作,犹如 凝聚成一个整体,而非沦为一盘散沙。 今天的华为异 腾,走的正是这条“砂锅军团” 的逆袭之路。其最新推出的CloudMatrix 384 超英 点,由384 颗异腾910C 芯片构成。虽 然单卡算力远不及英伟 达,但得益于自家领 先的光通信互联技术,CloudMatrix 384 的 总算力、总显存和总带宽,已全面超越英伟 达最新推出的GB200 NVL72 超节点。
CloudMatrix 384 超节点 中队忆大 一] 当1小 人 下 高速 无 独有偶,人谷歌的TPU 集群,走的也是以系 统工程取胜的道路。 由 此可见 ,行业完全有能力统开英伟 达,构 建出在系统层面极具竞争力的 数据中心。 不 仅如此,即便回到英伟达引以为傲的“ 单
对于单芯片的算力和显存指标,从纸面规格 上看,AMD 新推出的MI355X 几乎已追平英 伟达的同期产品,价格还更具吸引力。 而在带宽方面,由AMD、英特尔、谷歌、微 软、Meta 等巨头组成的行业联盟,正在合力 打造全新开放的传输标准〈UALink/UEC)., 旨在打破英伟达在高性能互联领域的专有技 术壁又CNVLink/Infiniband) ,避 免被单一 供应 商卡脖子。 理论上, 既然存在性价比更高的蔡代方案, 英伟达的市场份额和利润率理应受到侵蚀。 然而,现实却上演了截然相反的一 幕: 时至 今日,英伟达的市场份额稳如磐石,利润率 也依旧 高企。
诚然,我们可以从需求器,找到利润率庆高 不下的部分原因: AI 应用的空前火爆与产能 的暂时短缺,共同造就了供不应求的局面。 更深层次看,“ 杰文斯悖论”正在生效: 尽 管计算效率的提升使得单一任务所需的算力 消耗显著下降,但悖论在于,这反而解锁了 海量的、过去无法想象的新应用,导致全社 会的算力总需求不减反增。 可 是,这依然无法解释英伟达在供给端近乎 芍断的市场地位。 为什么全球顶尖的科技巨头 们,宁愿付出令 人顺和瑞的溢价,忍受长达数月的等待,也不 愿大规横转疝那些看似更具性价比的蔡代方 案 呢?
真正 的护城河:CUDA 生态飞轮 答案 在硬件之外。 那些看似强大的替代方案 ,缺失了至关重要 的一环一一一套能顺畅运行,并且棕干便件 潜能 的软件,以及由其衍生的开发者生态。 在许多关键 场景下,由于软件能力的缺失, 这些硬件不仅仅是不好 用,而是几乎 不可用。 这个将所有对手挡在门外的无形壁垒,就是 英 伟达的CUDA,以及由其孕育出的那个早已 根深蒂固的开发者生态。
CLD4,会敌Compute LT7Frea Derrce 41rcp7tecture, 已纪一矿售硼青兢胡。攻在 光芒 区只严2006 全豆开姐羽h形厅太代 殉分观顷枯大腊,生在将CPO 人游戏 历央, 为了彻底理解CUDA 为何如 此重要,需要再 借 厨房一用。 我 们知道 ,做饭时要注意合理规划工序,避 免 无谓的鞭待。 如 果 是 做 一 顿 家 第 便 饭 倒 也 不 难 只 需 先 找 出其中最耗时的步骤《比如 炖肉) ,然后 围绕它见颖插针地安排其他任务即可。 但现在 ,规模升级了。
想象一 下,你是执掌一家大型餐厅的行政主 厨,要指挥整个厨师团队高效协作,在极短 的时限内,完成一场百人盛宣。 与此同时,厨房规格也升级了: 一整列高压 锅时刻待命,一长排独火灶火力全 开,超大 的备菜台能容纳多人同时操作,数十个增压 水龙头即便全部开启,水流也依然滚浒。 拥有如此项 配,身为主厨的你,是否觉得可 以高枕无忧了? 恰恰相反。你很快便会发现,难度反而呈指 数 级增长了。 为了打赢这场厨房里的“闪电战”,你必须 像一位运筹肉悍的将 军,系统性地思考一系 列规划问题:
- 任务拆解与依赖管理: 如何将“百人盛宴” 这个宏大目标,拆解成一个个独立的子任务, 并理清各项任务间“ 先洗后切,先切后炒” 的依赖关系,确保执行时不会乱套。
- 任务分配与协作模式: 拆解出来的任务该 如何分配给整个团队? 是让每位厨师各上自从 头到尾负责几道染,还是流水线作业,安排 专人切 菜,专人掌勺入亦或是因人设 岗,因 菜设法,将这两种模式灵活相结合?
- 资源调度与流程优化: 厨房里的灶台、水 槽有限,如何高效调度资源,避免厨师因排 队而空等? 如何优化流程,动态填补每一段 空尊,让设备和人力的利用率达到极致? 这么多难题,是不是想想就焦头烂额?
别担心。这家厨具厂商早已为你备好了一本 专为自家设备量身打造的烹饪秘籍 一方面,它能帮助厨师将刀功等基本功打磨 成绝技。你只需下达“ 切肉” 的指令,厨师 便能施展出“应丁解牛”般精准高效的刀法。 另一方面,它将红烧肉等经典菜式的工序因 化为标准的流程。你无需再亲自设计工序, 如同使用预制菜包那样简单方便。 更标的是,它还贴心地提供了一整套调度策 略,辅助你进行资源和任务的动态规划,址 免“人等设备”或“设备等人”的空耗,让 出餐的流水线高效运转。 然而,这些都还不是最历害之处
真正让这本秘籍独步天下 的,是它孕育出了 一个全球最大的“美食家社区”。 因为好用顺手,社区里的大厨们开始纷纷基 于这套厨具和秘籍研发新菜式。每当有人研 发出新妆,或是优化了现有流程,就会将经 验分享到社区。而这家厂商会将这些由社区 目发贡献的智慧迅速收录和推广,让它的厨 具变得更强大、更好用。 于 是,一个目我强化的生态飞轮开始转动: 更好用的厨具,更活跃的社区一吸引更多大 厨加入一基于这套厨具研发出更多的菜式和 更优的流程一厨具更好用,社区更活跃
妙就妙在,菜品的创新是永无止境的一一这 恰恰为生态飞轮注入了源源不断的燃料,驱 动它永不停上歇地转动。 现在,想象一下“迁移”的痛若。 假设你在这家餐厅和干了五年,对整套厨具和 烹饪流程早已烂熟于心。突然》老板让你去 筹备开家分 店,为了省 钱,新店的厨房打算 更换为另一家广商的设备。 你一走进新厨房的样板 间,就傻眼了。一切 都似是而非: 锅的脾性全然陌生,备全台和 水龙头的布局也让你原本习惯的走位变得矿 奢绊绊 。你过去反复优化、沉演下来的所有 菜品流程,几乎一夜间作废。
更要命的是,你失去了那个庞大的“美食家 社区”的支持。所有荣式、所有流程,孝得 根据新设备的特性,从零开始摸索。你和团 队将陷入漫长而混乱的磨合期,出餐效率也 会 一落干丈。 此时,你可能会冲进老板的办公室,拍者桌 子告诉他 千万别为了省点采购费而更换三 商,否则会付出无底洞般的学 习、磨合成本, 甚至面临册夏崩塌的风险。这笔账,怎么算 都 是血亏! 可能有人会问,那让这家新厂商也出一本配 套的京饪秘籍,不就解决了? 难就难在这里。
因为缺乏庞大的用户基础,新广商无法号令 全世界的厨师都免费、目发、日以继夜地为 它贡献智慧和创意。 当用户还在抱怨新广商连红烧肉这样的经典 菜式都缺乏支持 时,在那个美食社区 里,早 己诞生出上百种新菜的高效做法。面对层出 不穷的妆式创新,仅靠势单力薄的内部员工 闭门造车 ,又如何追赶得上? 最 终,就形成了一个无解的死亡飞轮: 秘籍残缺 ,厨具难用一没人愿用一缺乏用户 反馈和生态页献一厨具愈发难用。 追赶者的飞轮,从一开始就转不起来。 这才是那家领先的厨具三商不可蔡代的根源。
厨房里的故事,正是AI 领域的真实写照。 运筹惟幅的主厨,是AI 开发者。顶级的厨 房设备,是英伟达的数据中心解决方案。而 那本万能的训饪秘籍,就是CUDA。 CUDA 提供 的,正是一整套从底层到上层的操 作 系 统 在 最底层,CUDA 提供了高性能线性代数运算 库cuBLAS,将:AI 计算中使用最频繁的“和矩 阵乘法”等运算,优化到了极致,如同谍丁 解牛般高效、丝滑。 在中层,CUDA 提供了深度神经网络的基础算 子库cuDNN,将神经网络中复杂的算子〈如 卷积、池化、注意力机 制) 封装成开箱即用
的标准库 ,使得构建神经网络如同使用预制 来包一样简单。 在上层,CUDA 还提供了多GPU 节点通信库 NCCL 和分布式推理 框架Dynamo, 高效指挥 成千上万颗GPU 协同工作。 这 ,还只是冰山 一角。 DA 四局导的5 注 人 全记国 国- 放二本
经过十多年的积累,英伟达针对不同的应用 场景,已打造多达上百个并行计算 库。这些 计算库共同组成了CUDA 这个庞大的工具箱, 孕育出生生不息的开发者生态。 AI 工程师圈中经常流传这样的趣图:
Al 工程师 公众眼中的我 朋友眼中的我 老板眼中的我 实际 的我 任, 上脸总
全 尼 权 外界以为我们在造终结者 ,实际上我们是在 快乐地搭积木。这既是目哺, 也是对CUDA 的
最高赞誉一一它做到了让构建神经网 络,变 得如同搭积木般直观高效。 正是CUDA,将科研人员从繁琐的底层工程中 解放出来,让他们得以专注于算法与架构的 创新。开发者在享受CUDA 便利的同时,也 用他们层出不穷的算法创意,为这座生态高 墙添砖加瓦 ,使其愈发难以逾越。 而一旦开发者试图转向其他看似性价比更高 的平台时,便会踏上一段充满陷阱的旅程 以AMD 为 例,虽然它也为自家的GPU 提供 了名为ROCm 的软件工具箱,但其成熟度和 易用性远不及CUDA。 过去在CUDA 中“ 开箱即用”的代码,到了 ROCm 上,人往往要经历一番伤筋动骨的修改、
调试和优化。即使最终揭强跑 通,性能也可 能 大打折扣。 更深层次的痛苦,是一旦离开活跃的CUDA 生态社区,便如同哈入了信息的欧漠。当开 发者在ROCm 上遇到性能瓶颈或是诡异的 bug 时,能求助 的“老师传”、能查阅的:“ 锅 襄”都远少于CUDA 社区,只好在黑暗 中独 自摸索。 期 、性能骨折。 现在,你应该不难理解,为何那些科技巨头 不愿轻易离开英伟达的“温柔乡”了? 高昂的迁移成本和压倒性的生态优势,将客 户牢牢锁 定,这就是英伟达真正的护城河。
它让领先者一骑绝尘,让追赶 者望尘莫及。 那么,这条护城河 当真无法逾越吗? 当 AI 让迁移 成本趋近于零 对于人类开发者而言,或许如此。 但, 如果未来的开发者, 根本就不是人类呢? 想象一个专门为此训练 的“AI 代码翻译官”。 它只需通读一遍新平台的技术文要,便能洞 悉其软硬件特性,然后将基于CUDA 的代码, 自动转译成在新平台上人性能最优的代码。