老唐转发AI精华帖

到,,， 2025-08-2008: 精彩, 读的那种荡气回肠的感觉,会上闻的“引用: AI 越智能，英伟达越危险【精华贴】我坚信，任何满足这五个特性的可解问题，都将在未来几年内被 AI: 彻诬攻克。一一Jason Wei，前OpenAI 研究员堪比茅台的电子印钞机最近和朋友聊投资，英伟达成为了绕不开的话题。

它的市值超4 万亿美元，登顶全球第一。它的GPU，一卡难求。它的财报数据，好到令人吓舌人们都说，为 AI 淘金者们提供算力的英伟达，是最赚钱的“ 卖镁人”。这把“铲子 ”有多赚钱? 来看几个数字。先看市场份额。 IoT Analytics 的数据显示，2024 年前三季度，在全球数据中心 GPU 这条赛道上，英伟达一家就合下了92% 的份额，近乎垄断。

再看利润率。根据各家公司最新发布的年报，英伟达的毛利率高达75%，净利率高达55. 8%。这是什么概念? 要知道，同为硬件厂商的小米，净利率常年在个位数拓扎。以品牌溢价能力著称的革果，净利率仅为 24%，相较和于英伟达，腰斩有余。即便是被誉为“液体黄金”的贵州茅台，销售净利率“也只不过” 52. 3%，依然相形见细。

反观英伟达, 它主要服务的明明是痴迷于“ 降本增效”的企业客户，利润率却足以让酒中之王和消费电子震主都踏然失色。此刻的英伟达，拥有极强的定价权，即使是豪掷上百亿美金购买GPU 的巨头客户，在它面前也没有讨价还价的余地。去年，官方渠道售价3 万美元的 H00，市场价一度炒到4;万美元以上。说它是“电子苯台”，也和蕊不为过。这令人垂族的印钞能力，并非一日之功。它的种子早在十多年前就已埋下。而我恰好有幸在故事的起点入场，一路见证了它波澜壮阔的成长。

亲历万亿帝国的崛起早在2009 年，英伟达就开始与中国高校合作,，将GPU 计算的种子，播撒到学术研究的最前沿我的GPU 启蒙，始于2012 年的那个暑假。当时在清华NICS-EFC .实验室实习，课题任务就是利用 ;GTX 580 显卡的并行计算能力，来加速通信算法。同样是那年夏天，在万里之外的多伦多大学， Geoffrey Hinton 和他的两个学生Alex Krizhevsky、Ilya Sutskever，也在用GTX 580 显卡，训练他们的神经网络AlexNet，

为即将到来的ImageNet 图像识别比赛做最后的冲刺。惊雷在2012 年的秋天炸啊。 AlexNet 在ImageNet 大赛中以碾压性的优势夺冠，从此开启了AI 的黄金时代。那次实习，让我第一次颖见了GPU 并行计算的潜力。后来去上交读博,，… 扎进了计算机视觉的研究中, 也因此得以在AI 风暴的中心，完整见证了英伟达万亿希国的崛起。刚入学时，实验室里只有一两张GPU，那时神经网络还是个不被看好的冷门方向。然而AlexNet 掀起的这场革命，以惊人的速度席卷了整个学术圈。仅仅三年后，计算机

视觉领域的顶尖算法，齐刷刷地转向了神经网络的阵营。学术界的“GPU 苗备竞赛” 就此拉开序幕。因为大家很快发现，一个实验室所拥有的 GPU 数量，与论文的产出效率直接挂钩。英伟达的GPU，也从无人问唐的“游戏卡一跃成为每个实验室都必须标配的“科研神器 ”，人和手一张都远远不够革命的烈火，也迅速从象牙塔烧到了产业界。 AI 方同的研究生成为大三竞相争抢的“香饼馆 ”，薪酬水涨船高。AI 方向的导师，成了招生季最炙手可热的明星。而AI 领域的论文投稿量，也迎来了爆发式增长。

Al 顶会CVPR 论文投稿数数据来源: Paper Copiloty’CVPR Statistics 年赴美访学期间，我杀身感受到了这波学术浪淹的冲击。当年CVPR 的投稿量井喷，审稿人严重不足。当时的我竟被分到了 10 篇论文，要求在一个月内审完，一边审稿一边赶稿的日子令人爆肝。

这成千上万篇论文的创新成果，几乎都诞生于英伟达的之上。每一篇论文都在为它的生态高墙添砖加瓦。随后ChatGPT 的横空出世，彻底将这场AI 浪潮推向了新的高峰，也把英伟达送上了如今的市值王座。故事到这里，英伟达已成为AE 时代无可争议的算力基座。在许多人眼中，投资英伟达，就等同于下注整个AI 行业的光明未来。然而，一家独大，会是AT 芯片行业的终局吗? 我对此存疑。

水能载舟，亦能履舟。那股将英伟达推上王座的 AI 洪流，或许也将成为颠覆其生态的滔天巨浪。这份疑虑从何而来? 还得先从英伟达的“护城河 ”说起。 AI 硬件性能的“ 铁三角?” 让英伟达坐拥垄断地位、尽享超额利润的护城河，究竟是什么? 是登峰造极的GPU 微架构设计能力吗? 远不止于此。

要知道，AI 数据中心的人硬件性能，由三大要素共同决定: 算力、显存、带宽。简单来说，算力就是GPU 的运算速度，显存是GPU 用于存放中间数据的高速内存空间，带宽则是数据传输的速度。为了彻底搞懂三者的关系，我们不妨走进一个熟悉的场景一一厨房。想象你是家中的掌勺大厨，今天的任务是以最快的速度，搞定三菜一汤。工欲善其事，必先利其器。要想高效完工，你最关心厨房里的哪几样东西呢?

首先得有一骨好锅。锅的好坏，决定了训饪的效率一一这就好比是GPU 的算力。同样是炖排骨，用高压锅，15 分钟就已骨酥肉烂。而换成一口普通的砂锅，就要咕嘟咕

其次，你还需要一个足够宽敞的备荣台一一这就好比是显存。如果人台面够大，所有食材、配料就可以一字排开，信手拓来。但如果人台面小到只能放下一小块砧板呢? 想象一下那种手念脚乱的场景: 切好的土豆丝，必须先小必辟翼地装进盘子，挪到身后的冰箱里存着，才能给切肉丝腾出地方; 等要下锅时，又得急急忙忙把盘子从冰箱取出来。这么来回折腾，效率目然就低了。上一道菜已熟透要出锅了，下一道菜的食材还没准备好呢。

这就是显存不足引发的效率灾难。当显存容量告急时，GPU 就不得不将中间数据，暂存到速度慢得多的CPU 内存或硬盘中。低效的数据搬运，让GPU 时常处于摸鱼等待的状态，宝贵的算力就这样被白白浪费了。最后，别筷了检查水龙头的水流大小一一这就好比是带宽。洗菜、接水，都离不开它。若是水龙头一开，水流就哗哗作响，那干起活来自然得心应手。如果水压较低，水流细如滴管，接满一盆洗菜水都要十几分钟，那么顶配的高压锅和宽敞的备菜人台就都成了昂贵的摆设。你只能桂

在原地，眼睁睁看着时间“噶咬哄”地流国顺。放有僧人和一 1T 晤 CR 一| 三一二因此, 算力、显存、带宽, 三者共同构成了AI 数据中心的“性能木桶 ”。任何一方出现短板，都会限制整个系统的效率。

下表清晰展示了英伟达与其主要竞争对手在最新一代产品上的核心参数。无论是算力、显存，还是带宽，其性能都无懈可击。 NVIDIA “NVIDIA Huawei 。” GB200 全人| MI355X “Ironwood ”NVL72 BF16 Dense 峰值算力(TFLOP/As ) FP8 Dense 峰值算力(TFLOP/As ) 不支持 FP6 Dense 峰值算力(TFLOP/As) 丰和支持不支持 FP4 Dense 峰值算力(TFLOP/As) 不支持不支持显存带宽(TBytes/s) 显存容量(GB) Up单向带宽(GBytesks) Scale Out 单向带宽( Gbits ) 未公开由此可见，英伟达的便件霸权，源目于“三位一体” 的绝对领先: GPU 的微架构设计能力，对先进HBM 显存的整合能力，以及独步天下的高速互联技术CNVLink/ Infiniband)。

正是这三者的合力，铸就了它在“ 单挑”中的王者地位。那么，全方位领先的硬件性能，就是英伟达的护城河吗? 芯片之上上，系统为王并非如此。请注意，我刚刚用了一个词: “ 单挑”。也就是说，上表展示的，是单个GPU 的算力、显存容量和通信带宽。

然而，如今 AI 数据中心的竞赛早已不是 1V1 对决，而是动加成千上万颗芯片协同作战的团体争霸赛。衡量胜负的终极标准并非单芯片的峰值性能，而是整个集群的系统级效率。这意味着，卓越的系统架构与互联效率，甚至比芯片本身的微架构设计更为关键。换言之，芯片“ 单其作战”能力的不足，完全可以用系统工程的智慧来弥补。为了更好地理解这一点，让我们再次回到熟悉的厨房。这次挑战升级了。

你是执掌一家大型饭店的行政主厨，正筹备一场百人盛实的备菜，需要在最短的时间内，炖熟 30 斤排骨。那口昂贵的高压锅虽快，一次也只能炖3 斤肉。分10 次下锅? 不行，宾客可等不了那么扩! 再买9 个高压锅一次炖完2 对不起，没预算。怎么办? 不如用 10 口廉价的普通砂锅。虽然单口砂锅的效率不如高压锅，但只要口锅一起开火，就能一次炖完所有排骨。尽管总能耗更高，但相比省下的大笔采购费和备餐时间，依然划算。

这就是以系统工程取胜。当然，现实中的AI 集群远比这复杂，它并非芯片数量的暴力堆砌。成败的关键在于，能和否通过高效的通信网络和互联架构，来确保芯片间无颖协作，犹如凝聚成一个整体，而非沦为一盘散沙。今天的华为异腾，走的正是这条“砂锅军团” 的逆袭之路。其最新推出的CloudMatrix 384 超英点，由384 颗异腾910C 芯片构成。虽然单卡算力远不及英伟达，但得益于自家领先的光通信互联技术，CloudMatrix 384 的总算力、总显存和总带宽，已全面超越英伟达最新推出的GB200 NVL72 超节点。

CloudMatrix 384 超节点中队忆大一] 当1小人下高速无独有偶，人谷歌的TPU 集群，走的也是以系统工程取胜的道路。由此可见，行业完全有能力统开英伟达，构建出在系统层面极具竞争力的数据中心。不仅如此，即便回到英伟达引以为傲的“ 单

对于单芯片的算力和显存指标，从纸面规格上看，AMD 新推出的MI355X 几乎已追平英伟达的同期产品，价格还更具吸引力。而在带宽方面，由AMD、英特尔、谷歌、微软、Meta 等巨头组成的行业联盟，正在合力打造全新开放的传输标准〈UALink/UEC).，旨在打破英伟达在高性能互联领域的专有技术壁又CNVLink/Infiniband) ，避免被单一供应商卡脖子。理论上，既然存在性价比更高的蔡代方案，英伟达的市场份额和利润率理应受到侵蚀。然而，现实却上演了截然相反的一幕: 时至今日，英伟达的市场份额稳如磐石，利润率也依旧高企。

诚然，我们可以从需求器，找到利润率庆高不下的部分原因: AI 应用的空前火爆与产能的暂时短缺，共同造就了供不应求的局面。更深层次看，“ 杰文斯悖论”正在生效: 尽管计算效率的提升使得单一任务所需的算力消耗显著下降，但悖论在于，这反而解锁了海量的、过去无法想象的新应用，导致全社会的算力总需求不减反增。可是，这依然无法解释英伟达在供给端近乎芍断的市场地位。为什么全球顶尖的科技巨头们，宁愿付出令人顺和瑞的溢价，忍受长达数月的等待，也不愿大规横转疝那些看似更具性价比的蔡代方案呢?

真正的护城河:CUDA 生态飞轮答案在硬件之外。那些看似强大的替代方案，缺失了至关重要的一环一一一套能顺畅运行,并且棕干便件潜能的软件，以及由其衍生的开发者生态。在许多关键场景下，由于软件能力的缺失，这些硬件不仅仅是不好用，而是几乎不可用。这个将所有对手挡在门外的无形壁垒，就是英伟达的CUDA，以及由其孕育出的那个早已根深蒂固的开发者生态。

CLD4，会敌Compute LT7Frea Derrce 41rcp7tecture，已纪一矿售硼青兢胡。攻在光芒区只严2006 全豆开姐羽h形厅太代殉分观顷枯大腊，生在将CPO 人游戏历央，为了彻底理解CUDA 为何如此重要，需要再借厨房一用。我们知道，做饭时要注意合理规划工序，避免无谓的鞭待。如果是做一顿家第便饭倒也不难只需先找出其中最耗时的步骤《比如炖肉) ，然后围绕它见颖插针地安排其他任务即可。但现在，规模升级了。

想象一下，你是执掌一家大型餐厅的行政主厨，要指挥整个厨师团队高效协作，在极短的时限内，完成一场百人盛宣。与此同时，厨房规格也升级了: 一整列高压锅时刻待命，一长排独火灶火力全开，超大的备菜台能容纳多人同时操作，数十个增压水龙头即便全部开启，水流也依然滚浒。拥有如此项配，身为主厨的你，是否觉得可以高枕无忧了? 恰恰相反。你很快便会发现，难度反而呈指数级增长了。为了打赢这场厨房里的“闪电战”，你必须像一位运筹肉悍的将军，系统性地思考一系列规划问题:

任务拆解与依赖管理: 如何将“百人盛宴” 这个宏大目标，拆解成一个个独立的子任务，并理清各项任务间“ 先洗后切，先切后炒” 的依赖关系，确保执行时不会乱套。
任务分配与协作模式: 拆解出来的任务该如何分配给整个团队? 是让每位厨师各上自从头到尾负责几道染，还是流水线作业，安排专人切菜，专人掌勺入亦或是因人设岗，因菜设法，将这两种模式灵活相结合?
资源调度与流程优化: 厨房里的灶台、水槽有限，如何高效调度资源，避免厨师因排队而空等? 如何优化流程，动态填补每一段空尊，让设备和人力的利用率达到极致? 这么多难题，是不是想想就焦头烂额?

别担心。这家厨具厂商早已为你备好了一本专为自家设备量身打造的烹饪秘籍一方面，它能帮助厨师将刀功等基本功打磨成绝技。你只需下达“ 切肉” 的指令，厨师便能施展出“应丁解牛”般精准高效的刀法。另一方面，它将红烧肉等经典菜式的工序因化为标准的流程。你无需再亲自设计工序，如同使用预制菜包那样简单方便。更标的是，它还贴心地提供了一整套调度策略，辅助你进行资源和任务的动态规划，址免“人等设备”或“设备等人”的空耗，让出餐的流水线高效运转。然而，这些都还不是最历害之处

真正让这本秘籍独步天下的，是它孕育出了一个全球最大的“美食家社区”。因为好用顺手，社区里的大厨们开始纷纷基于这套厨具和秘籍研发新菜式。每当有人研发出新妆，或是优化了现有流程，就会将经验分享到社区。而这家厂商会将这些由社区目发贡献的智慧迅速收录和推广，让它的厨具变得更强大、更好用。于是，一个目我强化的生态飞轮开始转动: 更好用的厨具，更活跃的社区一吸引更多大厨加入一基于这套厨具研发出更多的菜式和更优的流程一厨具更好用，社区更活跃

妙就妙在，菜品的创新是永无止境的一一这恰恰为生态飞轮注入了源源不断的燃料，驱动它永不停上歇地转动。现在，想象一下“迁移”的痛若。假设你在这家餐厅和干了五年，对整套厨具和烹饪流程早已烂熟于心。突然》老板让你去筹备开家分店，为了省钱，新店的厨房打算更换为另一家广商的设备。你一走进新厨房的样板间，就傻眼了。一切都似是而非: 锅的脾性全然陌生，备全台和水龙头的布局也让你原本习惯的走位变得矿奢绊绊。你过去反复优化、沉演下来的所有菜品流程，几乎一夜间作废。

更要命的是，你失去了那个庞大的“美食家社区”的支持。所有荣式、所有流程，孝得根据新设备的特性，从零开始摸索。你和团队将陷入漫长而混乱的磨合期，出餐效率也会一落干丈。此时，你可能会冲进老板的办公室，拍者桌子告诉他千万别为了省点采购费而更换三商，否则会付出无底洞般的学习、磨合成本，甚至面临册夏崩塌的风险。这笔账，怎么算都是血亏! 可能有人会问，那让这家新厂商也出一本配套的京饪秘籍，不就解决了? 难就难在这里。

因为缺乏庞大的用户基础，新广商无法号令全世界的厨师都免费、目发、日以继夜地为它贡献智慧和创意。当用户还在抱怨新广商连红烧肉这样的经典菜式都缺乏支持时，在那个美食社区里，早己诞生出上百种新菜的高效做法。面对层出不穷的妆式创新，仅靠势单力薄的内部员工闭门造车，又如何追赶得上? 最终，就形成了一个无解的死亡飞轮: 秘籍残缺，厨具难用一没人愿用一缺乏用户反馈和生态页献一厨具愈发难用。追赶者的飞轮，从一开始就转不起来。这才是那家领先的厨具三商不可蔡代的根源。

厨房里的故事，正是AI 领域的真实写照。运筹惟幅的主厨，是AI 开发者。顶级的厨房设备，是英伟达的数据中心解决方案。而那本万能的训饪秘籍，就是CUDA。 CUDA 提供的，正是一整套从底层到上层的操作系统在最底层，CUDA 提供了高性能线性代数运算库cuBLAS，将:AI 计算中使用最频繁的“和矩阵乘法”等运算，优化到了极致，如同谍丁解牛般高效、丝滑。在中层，CUDA 提供了深度神经网络的基础算子库cuDNN，将神经网络中复杂的算子〈如卷积、池化、注意力机制) 封装成开箱即用

的标准库，使得构建神经网络如同使用预制来包一样简单。在上层，CUDA 还提供了多GPU 节点通信库 NCCL 和分布式推理框架Dynamo，高效指挥成千上万颗GPU 协同工作。这，还只是冰山一角。 DA 四局导的5 注人全记国国- 放二本

经过十多年的积累，英伟达针对不同的应用场景，已打造多达上百个并行计算库。这些计算库共同组成了CUDA 这个庞大的工具箱，孕育出生生不息的开发者生态。 AI 工程师圈中经常流传这样的趣图:

Al 工程师公众眼中的我朋友眼中的我老板眼中的我实际的我任，上脸总

全尼权外界以为我们在造终结者，实际上我们是在快乐地搭积木。这既是目哺, 也是对CUDA 的

最高赞誉一一它做到了让构建神经网络，变得如同搭积木般直观高效。正是CUDA，将科研人员从繁琐的底层工程中解放出来，让他们得以专注于算法与架构的创新。开发者在享受CUDA 便利的同时，也用他们层出不穷的算法创意，为这座生态高墙添砖加瓦，使其愈发难以逾越。而一旦开发者试图转向其他看似性价比更高的平台时，便会踏上一段充满陷阱的旅程以AMD 为例，虽然它也为自家的GPU 提供了名为ROCm 的软件工具箱，但其成熟度和易用性远不及CUDA。过去在CUDA 中“ 开箱即用”的代码，到了 ROCm 上，人往往要经历一番伤筋动骨的修改、

调试和优化。即使最终揭强跑通，性能也可能大打折扣。更深层次的痛苦，是一旦离开活跃的CUDA 生态社区，便如同哈入了信息的欧漠。当开发者在ROCm 上遇到性能瓶颈或是诡异的 bug 时，能求助的“老师传”、能查阅的:“ 锅襄”都远少于CUDA 社区，只好在黑暗中独自摸索。期、性能骨折。现在，你应该不难理解，为何那些科技巨头不愿轻易离开英伟达的“温柔乡”了? 高昂的迁移成本和压倒性的生态优势，将客户牢牢锁定，这就是英伟达真正的护城河。

它让领先者一骑绝尘，让追赶者望尘莫及。那么，这条护城河当真无法逾越吗? 当 AI 让迁移成本趋近于零对于人类开发者而言，或许如此。但, 如果未来的开发者, 根本就不是人类呢? 想象一个专门为此训练的“AI 代码翻译官”。它只需通读一遍新平台的技术文要，便能洞悉其软硬件特性，然后将基于CUDA 的代码，自动转译成在新平台上人性能最优的代码。

唐朝投资

知识库导航

关系图谱