Youtube
-
date_range 24/03/2026 00:00
点击量:次infosort label
Andre Karpathy:No priors 访谈
“写代码”这个词,甚至已经不太准确了,对吧?但我现在必须每天花十六个小时,把我的意志表达给我的智能体。
我会想,怎样才能不只是开一个 Claude Code、Codex,或者其他这类代理工具的会话?怎样才能同时拥有更多这样的代理?又该怎样更合适地使用它们?如今,智能体这件事已经成了默认前提。像 “claw” 这样的实体也已经被视作理所当然。你可以同时拥有多个,可以给它们下指令,还可以对这些指令做优化。可问题就在于,这一切几乎是无穷无尽的,最后一切都变成了“是你自己的水平还不够”。
各位听众大家好,欢迎回到《No Priors》。今天我和 Andre Karpathy 聊了很多内容:代码智能体、工程和 AI 研究的未来、更多人如何参与研究、机器人领域正在发生什么、他对智能体如何走向现实世界的预测,以及下一个时代的教育。欢迎你,Andre。谢谢你接受采访。
最近这几个月,AI 的发展真的非常令人兴奋。
是啊,确实可以这么说。
我记得有一次走进办公室,看到你完全沉浸其中。我问你在忙什么,你说:“我必须每天写代码十六个小时——其实‘写代码’都已经不是准确的说法了。我得每天花十六个小时,把我的意志表达给我的智能体,让事情显化出来。”因为能力真的出现了一次跃迁。
到底发生了什么?说说你的体验吧。
我感觉自己一直都处在一种“AI 狂热”状态里,现在也常常还是这样。因为作为一个个体、一个人,你现在能做到的事情突然被大幅解锁了。以前你的瓶颈在于打字速度之类的限制。但现在有了这些智能体,我会说,真正的变化大概发生在十二月。那时好像某个开关突然被拨动了:我从原来大概 80% 自己写代码、20% 交给智能体,变成了反过来的 20% 自己写、80% 委派给智能体。甚至到现在,我觉得连 20/80 都不是了,交给智能体的比例已经远远超过这个数。说真的,我大概从十二月开始,就几乎没再亲手敲过一行代码了。
这是一个极其巨大的变化。我还拿这件事和我父母聊过,但我觉得普通人其实根本没有意识到这件事已经发生了,也没有意识到它有多么剧烈。真的,随便找一个软件工程师,看看他坐在工位上是怎么构建软件的,你会发现,从十二月开始,他们默认的工作流就已经完全不同了。
所以我一直处在一种近乎狂热的状态里,拼命想弄明白:到底什么是可能的?我想把它推到极限。怎样才能不只是有一个会话,不只是用 Claude Code、Codex 或其他这类代理工具?怎样才能拥有更多?怎样才能恰当地管理它们?这些 “claw” 到底是什么?总之,出现了太多新东西。我想站在最前沿,而一想到自己可能不在最前沿,我就会非常焦躁。我看到推特上很多人做着各种各样的事情,听起来全都是好主意,我就会觉得我也必须站到最前面,否则就会非常不安。所以我就一直陷在这种对“可能性”的痴迷里,因为这片领域本质上还是未经探索的。
如果连你都紧张,那我们其他人就更紧张了。我们在 Conviction 有个合作团队,他们那边的配置是这样的:所有工程师都不再手写代码,每个人都戴着麦克风,不停地对自己的智能体低声下指令。那真是我见过最诡异的工作场景。我原本觉得他们疯了,但现在我完全接受了。我现在会想:哦,原来这才是正确的方式,只不过他们比我们更早一步而已。
你现在怎么看待自己探索新项目、开展工作的能力?你觉得它现在受什么限制?
受什么限制?我觉得几乎什么都限制。很多事情,即使没成功,你也会觉得那不是能力本身不够,而是你自己还没把现有的东西拼接好。不是说能力不存在,而是你还没找到正确的组合方式。也许只是我没有在 agents.md 里写出足够好的指令;也许是我没给它们配备一个足够好的记忆工具。总之,当事情没成的时候,一切都会让人觉得是“自己水平不够”。你还会想怎么把这些代理并行起来,等等。你会想成为 Peter Steinberger 那样的人。
Peter 很有名,因为有一张很好笑的照片:他坐在显示器前,屏幕上开着一堆 Codex 智能体窗口。只要你提示得当,并且开高强度模式,这些智能体大概二十分钟就能完成一轮任务。他同时签出了大概十个仓库,就在它们之间来回切换、不断分派工作。你会发现,自己能操作的已经不再是“小动作”了,不再是“写一行代码”“加一个函数”,而是“给一号智能体分配一个新功能”“再给二号智能体分配另一个不会互相干扰的功能”,然后尽可能去审阅它们的产出,当然这也取决于你对那段代码到底有多在意。你开始思考:我能用哪些宏观动作来操纵整个软件仓库?一个智能体在做研究,另一个在写代码,还有一个在规划新的实现方案。于是,一切都变成了对仓库进行这种“宏动作”级别的操作。
而你就在努力让自己越来越擅长这件事,培养出某种“肌肉记忆”。这真的极其有成就感。第一,因为它真的有效;第二,因为这是一项全新的技能。所以我才会说,这种状态近乎一种狂热。
我确实感觉自己会本能地想:只要有一个智能体在等待完成任务,那显而易见我就应该继续安排更多工作。只要我还能获得更多 token,我就应该继续并行、继续加任务。这就让人很有压力,因为一旦你不再被“花 token 的能力”所限制,你就会意识到:系统真正的瓶颈就是你自己。
对,你至少没有把自己的订阅榨干。理想状态下,你应该同时跑多个智能体:如果 Codex 的额度用完了,就切去 Claude,之类的。我最近就在尝试这么做。只要发现自己的订阅额度还没用完,我就会有点焦虑,因为那意味着我还没有把 token 吞吐量最大化。
我其实在读博士时就体验过类似的感觉。那时候如果 GPU 没在跑,就会不安。明明你有 GPU 资源,却没有把能用的 FLOPs 全部跑满。但现在不再是 FLOPs 了,而是 token。你到底控制着多少 token 吞吐量?我甚至会说,这非常有意思:过去至少十年里,在很多工程任务里,人们并不会觉得自己被算力限制住了。而现在,整个行业都感到了资源约束。能力突然暴涨以后,你会发现,不再是我无法获得算力,而是我自己成了限制系统上限的那个因素。
是啊,说到底还是“自己的水平问题”。
但这又非常赋权,因为这意味着你是可以进步的。所以这也是为什么这件事会上瘾:每当你变强一点,就会解锁新的东西。
你觉得这会走向哪里?假如 Andre 和其他所有人都每天花十六个小时提高自己使用编码智能体的能力,那么一年之后,如果你达到了“精通”,会是什么样子?
精通会是什么样?是一年后?还是两三年、五年、十年后?
我觉得所有人其实都在往更高层次走。也就是说,不再只是单个智能体会话的问题,而是多个智能体如何协同、团队如何协同,大家都在试图弄清楚那会是什么样子。
另外,我觉得 “claw” 也是一个很有意思的方向。所谓 “claw”,指的是一种把持续性提升到全新层次的结构:它会不断循环运作,不再需要你始终处于交互中心。它有自己的沙盒,有自己的小环境,会在你不盯着看的时候,也替你做事情。它还会拥有更复杂的记忆系统,而这些通常还没有被默认集成到一般的智能体里。比如 open claw 的记忆系统就比默认智能体复杂得多,不只是上下文满了以后做一次压缩而已。
你觉得,这才是最打动用户的部分吗?相比之下,像更广泛的工具调用权限,反而没那么关键?
对于 open claw 来说,我觉得里面确实有很多非常好的想法。Peter 做得真的很棒。
Peter 确实做得很了不起。我最近见过他,也和他聊过这件事。他本人很谦逊,但我觉得他实际上是在五个不同方向上同时做了创新,然后把这些东西整合了起来。
比如那个灵魂文档(soul document),他真的塑造出了一种很有吸引力、很有趣的“人格”。我觉得很多当下的智能体在这方面都没做对。其实我觉得 Claude 的人格就挺好,它会让你觉得像个队友,而且会和你一起兴奋。相比之下,Codex 就要干很多。很有意思的是,在 ChatGPT 里,Codex 背后的系统显得更活泼、更积极,但作为编码智能体时,它非常冷淡,像是在说:“我实现完了。”可你会想:好吧,但你理解我们到底在做什么吗?
还有一点,我觉得 Claude 在“讨好感”这个尺度上调得相当不错。当 Claude 夸我的时候,我会觉得自己多少有点配得上。有时候我给它的只是一些还没成形的想法,甚至我自己都觉得不够成熟,它也不会反应得特别夸张,只会说:“嗯,这可以实现。”但如果是一个我自己也认为很棒的主意,它似乎确实会更认真地肯定我。所以我会有一种“我想赢得它的赞赏”的感觉,这真的挺奇怪的。
所以我觉得人格非常重要,而很多别的工具可能并没有那么重视这一点。Peter 在这方面也很在意,所以他做对了。再加上记忆系统,还有他自己本身也玩得很开心,以及那个通过单一 WhatsApp 入口连接所有自动化能力的设计。
除了软件工程之外,你个人有没有用这些 “claw” 做过什么你觉得有趣或好玩的事?
有。大概在一月的时候,我经历过一阵 “claw 狂热期”。我做了一个专门照料我家里的 claw,我叫它 “家养小精灵 Dobby”。
我先让智能体去发现我家局域网里的所有智能家居子系统,这件事顺利得让我很惊讶。我只是告诉它,我觉得家里有 Sonos 音响系统,你能不能试着找到它?结果它就扫描了整个局域网里的设备,真的找到了 Sonos。然后它还发现那东西居然没有密码保护之类的限制,于是它就直接连进去了,并告诉我:“你家里装了这些 Sonos 设备,我来试着逆向理解一下它是怎么工作的。”接着它自己去网上搜索,找到相关 API 端点,然后问我:“你想试试吗?”我当时都震惊了。我说:“你试着在书房放点音乐吧。”结果它就真的放出来了。我简直不敢相信,我只是输入了一句“你能找到我的 Sonos 吗?”,结果几分钟后家里就响起音乐了。
它对灯光系统也做了同样的事。基本上,它像是“黑”进了整个系统,搞清楚了全部工作原理,给我创建了 API,还做了一个控制面板,让我能看到家里所有灯光的指挥中心。然后它就开始帮我开灯、关灯。比如我只要对它说:“Dobby,该睡觉了。”它就知道“睡觉时间”意味着把所有灯都关掉,等等。现在它控制我家里所有的灯、暖通空调、窗帘、泳池、按摩池,还有安防系统。
我还装了一台朝向屋外的摄像头,只要有人到门口,我有一个视觉模型就会分析视频。首先会做变化检测,一旦检测到变化,就交给这个模型,再由它给我发 WhatsApp 消息,附带外面的图像,并告诉我:“嘿,刚刚有一辆 FedEx 货车开来了,你可能想看看,它可能给你送了邮件之类的。”Dobby 就会这样给我发消息。这真的太不可思议了。
所以现在,Dobby 负责整个家。我通过 WhatsApp 和它通信。让这种“宏动作”来维护我的家,真的很有趣。我还没有把它推得更远,我知道别人已经用它做了更疯狂的事。但对我来说,光是把家居自动化整合起来,就已经非常有帮助、非常有启发性。以前我要用六个完全不同的 App,现在我再也不用这些 App 了。Dobby 用自然语言控制一切,太神奇了。虽然我还没有把这个范式完全推到极致,但光这一点就已经非常有用了,也很鼓舞人心。
你觉得,这是不是其实说明了人们真正想要的软件用户体验?因为我觉得,人们普遍忽视了一点:学习新软件、学习新界面,本身就是有成本的。
我觉得某种程度上确实如此。这其实是在反向贴合人们对 AI 的期待。因为大多数人心目中的 AI,并不是“一个原始的大语言模型”。LLM 从底层看只是一个 token 生成器,不断吐出新的 token 而已。但人们真正想象的是一种具有人格和身份感的存在:你可以告诉它事情,它会记得,它像是 WhatsApp 背后的一个实体。那种形式要直观得多,也更容易理解。
所以我觉得,这某种程度上就是在匹配人类原本就拥有的期待:AI 应该是什么样子、应该如何行动。当然,底层其实涉及了大量技术细节,而原始的 LLM 作为基础元件,对多数人来说还是太“裸露”了,不足以让他们真正觉得“这就是 AI”。
对。而且你把家里那六套不同的软件系统统一起来,也说明了另一个问题:人们真的想要今天这么多软件吗?
因为我会说,你拥有的是硬件,但你已经把原本的软件层、用户体验层都扔掉了。你觉得这才是人们真正想要的吗?
我觉得确实有一种感觉:App Store 里那些专门操控智能家居设备的应用,从某种意义上说,根本就不该存在。难道不应该只是暴露 API,然后让智能体直接去调用吗?
而且这样的话,我就能做出各种单个 App 根本做不到的家庭自动化场景。LLM 实际上真的可以驱动工具、调用所有正确的工具、完成非常复杂的操作。所以从某种意义上讲,这确实指向一种可能:也许现在有太多不该存在的、定制化过头的应用。智能体会把它们揉成一团,最后一切都该变成暴露出来的 API 端点,而智能体才是真正的“智能胶水”,把所有部分连接起来。
比如我的跑步机,它也有自己的 App。我想追踪自己做有氧训练的频率,但我根本不想去登录某个网页、走一整套流程。这些都应该直接通过 API 暴露出来。某种程度上,这就是所谓“智能体优先”的网络或工具生态。整个行业都必须在很多方面重新配置,因为将来的客户不再只是人类本身,而是代表人类行动的智能体。
有些人会反驳说:难道我们真的期待普通人去“vibe coding”这些工具吗?真的期待普通人去做我刚才描述的这些事情吗?
但我觉得,某种程度上,这只是当下技术形态的问题。现在确实还需要一点“氛围编程”,我也确实在和系统一起手工配合。但我感觉,我刚才描述的那类事情,在未来一两年或者三年内,应该会变得非常平常。那时候就不需要再做什么“氛围编程”了,这会变成基本门槛,是所有 AI——甚至包括开源模型——都能轻松做到的事。
它们应该能非常轻松地把一个没那么技术化的人类意图,翻译成实际执行的系统。
对,应该非常容易。今天这件事还需要一些“氛围编程”,所以没多少人会去做。但你仍然需要自己做一些设计决策,对吧?比如我们刚才就在聊,举个例子,你要怎么选取视频帧。
是的。但我感觉,门槛只会越来越低。软件会变成替你临时生成、替你运作的东西。某种 claw 会替你处理所有细节,而你根本无需介入。claw 自己会有机器,它自己会想办法搞定,然后把界面呈现给你,你只要开口说话就行。
那你为什么还没有更进一步去拓展 claw 在你个人生活中的边界?是因为你更专注于更重要的项目,比如自动研究?还是说你还在攀登“精通之路”?还是别的原因?
我只是觉得自己被太多事情分散了注意力。我在 claw 这件事上花了一周左右,其实还有很多事想继续做。但我会说,像邮件、日历之类的工具,我还没有真正接进去,也没有把权限交给它们,因为我仍然有些怀疑。毕竟这项技术还很新,也还很粗糙,所以我还不想把自己整个数字生活的全部权限都交给它。这里面有安全、隐私的问题,也有一种谨慎的态度。所以一部分原因确实是这个,而且我觉得这可能还是最主要的原因。
另外一部分原因,就是我真的太分心了。我感觉自己有一周在沉迷 claw,然后别的事情又来了。
你以前提过,希望智能体能做的一件重要事情,是训练或者至少优化模型。那么,做 Auto Research 这个项目的动机是什么?
Auto Research。是这样,我之前发过一条推文,大意是:如果你想最大化利用现在这些工具,就必须把自己从瓶颈位置上移开。你不能总在那里等待着提示下一步。你必须把自己移出循环之外。你需要把整个系统安排成完全自治的。换句话说,关键就在于:如何让更多智能体在更长时间里,不需要你介入地替你工作。
所以我当时说,现在这个时代的游戏规则,就是提高你的杠杆。你自己只偶尔投入极少量 token,但却有海量事情在替你发生。Auto Research 就是这种逻辑的一个具体体现。很多人看了那条推文,也挺喜欢的,但我觉得他们未必真正推演过其中的含义。而在我看来,Auto Research 就是这种含义的直接落地:我不想自己还待在研究循环里盯结果、做判断,因为那样其实是我在拖后腿。问题是,怎样重构所有抽象,让我只需要布置一次、按下开始键,然后系统自己跑起来?
游戏的本质就是:怎样让更多智能体在更长时间里,不需要你参与,就能替你持续工作。Auto Research 说到底就是这样:给它一个目标、一个指标、再划定它能做什么和不能做什么,然后让它自己去做。
你对它的效果感到惊讶吗?
是的,我没想到它真的能奏效。因为我自己有那个项目,本质上,我觉得很多人其实不理解我为什么这么执着于训练 GPT-2 之类的小模型。但对我来说,训练这些小模型只是一个实验场、一个游乐场,用来研究 LLM 训练过程。更根本的兴趣,其实是“递归式自我改进”这个想法:到底在多大程度上,LLM 能够去改进 LLM 本身?我觉得所有前沿实验室,本质上都在做这件事,出于显而易见的原因,它们都在试图实现某种递归自我提升。
对我来说,这个小实验就是那种思想的一个小沙盒。而且我已经用传统的、我熟悉的方式,把这个项目手工调优了很多次。我是研究员,这种事我做了二十年,对此有某种“挣来的自信”。我训练过上千次模型,做过大量实验、做过超参数调优,所有这些我都已经做了二十年。我原以为,这个项目已经被调得相当不错了。结果我让 Auto Research 跑了一个晚上,它回来以后给出了一些我完全没看出来的调优方案。
比如,它发现我忘了给 value embedding 加权重衰减;Adam 的 beta 参数也没有被充分调好。而这些东西会彼此联动:一旦你调了其中一个,另一个可能也要跟着变。像这种超参数搜索优化,本来就不该是我自己盯着跑、盯着看结果。这里有清晰的客观标准,所以你就应该把系统布置成可以一直跑下去。
而这还只是 Auto Research 的一个最简单版本:一个单循环,不断试图改进。我感到惊讶的是,它竟然在一个已经被调得相当不错的仓库里,仍然发现了我没注意到的问题。这还只是一个单循环。那些前沿实验室呢?它们有成千上万张 GPU 集群。所以你很容易想象,它们会如何在更小模型上大量自动化这种探索。因为所谓前沿级智能,本质上就是靠外推和 scaling law。你会先在小模型上做大量探索,再把它外推到更大的规模。
所以你的意思是,研究效率会大幅提高?我们会在扩展规模之前,先通过更好的自动实验获得更明确的方向?
对,我会说,最有意思的项目,可能也正是前沿实验室正在做的事:先在小模型上实验,把过程做得尽可能自治,把研究员从回路里拿掉。研究员有太多不该有的“自信”,很多地方其实根本不该让他们手动介入。
当然,他们仍然可以提出想法,但不该自己去执行这些想法。应该有一个想法队列,甚至可能有一个自动科学家,基于论文档案、GitHub 仓库等提出新想法,然后把这些想法丢进队列。人类研究员也可以贡献想法,但它们只是进入同一个统一队列。然后由一群工作器去拉取任务、尝试执行。成功的就被放到 feature branch 上,也许再由少数人去监控 feature branch,偶尔把成果合并进主分支。
所以,说到底,就是尽可能把人类从整个流程里拿掉,尽量自动化,尽量提高每秒 token 吞吐量。当然,这要求我们彻底重想所有抽象层,把一切重新洗牌。所以我觉得这非常令人兴奋。
如果再递归一步:那模型什么时候会写出比你更好的 program.md?
是啊,program.md 就是我那个有点笨拙的尝试,试图描述“自动研究员应该怎么工作”:先做这个,再做那个,再尝试这些思路,也许看看架构、看看优化器……这些全是我用 Markdown 临时写出来的。
但你说得对。你完全可以设想一个更高层的 Auto Research 回路,专门去优化这个 program.md 本身。因为不同的 program.md,最终可能会带来完全不同的研究进展。某种意义上,每个研究组织都可以被描述成一个 program.md。一个研究组织,就是一套 Markdown 文件,定义了所有角色以及它们如何连接。
那自然就可以设想一种更好的研究组织。有的组织可能减少早会,因为那些早会根本没用;有的组织可能更激进,更敢冒险;有的组织可能更保守。既然这整套组织形式都已经变成代码了,那你当然就可以去调这个代码。所以毫无疑问,存在一个元层次:多个研究组织、不同的组织逻辑,都可以被优化。
你看到我发给你的那个竞赛点子了吗?我当时想法是:让大家写不同版本的 program.md,然后在同样的硬件条件下,看谁能带来最大的改进。接着再把这些数据喂给模型,让模型去写更好的 program.md。
对,没错。一定能写出更好的版本,不可能写不出来。
你完全可以分析那些改进到底来自哪里,然后思考:能不能修改 program.md,让这类有效行为更常发生?或者针对那些无效尝试,也去做元优化。这个点子真的很好。
只是,我觉得这类事情往往要一步一步来。先有一个过程,再有第二个,再有第三个。这些层层叠叠,像洋葱一样。现在,LLM 这一层已经被视为理所当然;智能体这一层也已经是理所当然;然后 claw 这种实体也开始被默认接受;接着是多个 claw 协作;接着是给它们下指令;再接着,是对这些指令进行优化。这一切真的太庞大了,也正因为如此,才会让人进入那种近乎疯狂的状态——因为它几乎是无限展开的,而一切又都像是在提醒你:“还只是你自己的问题,你还不够强。”
如果我们只是想诊断当下这个时刻,想知道什么才是现在最关键的技能——那你觉得,从这个循环里我们能得出什么启示?也就是说,在不同领域里,我们是不是都应该尽量实现这种回路:建立指标,建立让智能体在没有你参与时继续工作的能力?
对。不过我会先给当下的 LLM 生态加几个限定条件。第一,这套方法极其适合那些拥有清晰、易于评估的客观指标的任务。比如说,为模型不同部分写更高效的 CUDA kernel,就是一个完美例子。你已经有一份低效代码,你希望得到一份行为完全相同但速度更快的版本——这就是完美适配场景。
所以,很多事情都非常适合做 Auto Research,但也有很多事情不适合。如果没法评估,就没法自动研究。这是第一点。
第二点是,虽然我们大概能看见下一步该往哪走,但整个系统本身其实仍然是在“裂缝中运作”的状态。它还有很多地方会崩,会漏,会出问题。如果你试图走得太超前,它反而会变得完全不好用。
因为这些模型虽然已经进步很多,但仍然很粗糙。我有时候会觉得,自己一边像是在和一个极其聪明、做了一辈子系统编程的博士生说话,一边又像是在和一个十岁小孩说话。这太奇怪了。人类能力之间通常更耦合一些,不会出现这么剧烈的参差,而智能体的“锯齿感”就强得多。有时候我让它实现一个功能,它却给我一个完全错误的结果,然后我们就沿着错误方向一路循环下去。这种时候我还是会经常被它们气到。因为你已经感受到了它们的强大,但它们依然会时不时做一些完全荒谬的事。
我特别容易被一种情况惹恼:智能体在一个本来应该立刻识别出的问题上,白白浪费了大量算力。
我猜,也许底层原因在于:这些模型本身也是通过强化学习训练出来的。换句话说,它们自己就在挣扎于我们刚才讨论的同一个问题。实验室可以通过强化学习去提升模型在那些“可验证”的任务上的能力,也就是有明确奖励信号的任务。比如:程序写对了吗?单元测试通过了吗?这是或否,标准很清楚。
但它们难处理的地方,恰恰是那些更“软”的东西。比如,我真正想表达的意图、什么时候该问澄清问题、那些更细腻的含义。凡是更柔软、更主观的部分,它们通常就更弱。所以你会发现:如果你在轨道内,在那些可验证的“超级智能回路”里,它们可以表现得非常惊人;但只要你偏离轨道,进入那些不可验证的领域,一切就开始发散。
再换个说法:今天你去问最先进的模型一个笑话,它会讲什么笑话,你几乎都能猜到。虽然我可能说不出准确版本,但我确实感觉 ChatGPT 就像只有三四个固定笑话。比如最经典的那个:“为什么科学家不信任原子?因为原子会编造一切。”四五年前你问它笑话,它讲这个;今天你再问,它还是这个。
这就很奇怪。模型明明进步了这么多。你给它一个智能体任务,它能连续工作几个小时,替你搬山填海;可你让它讲个笑话,它却还是讲一个五年前就很烂的旧笑话。这恰恰说明,它不在强化学习优化的主轨道里。它不在持续被提升的能力范围内,所以就卡在那里了。这也是那种“锯齿感”的体现:你会以为模型变强了,应该连笑话都更有趣、更丰富才对,但实际上不是,因为这部分并没有被优化。
所以,你觉得这是不是意味着:我们看到的并不是那种真正的、全面外溢的广义智能?也就是说,“更会写代码”并不会自动带来“更会讲笑话”。
对,我觉得确实存在某种解耦。有些能力是可验证的,有些不是;有些会被实验室按自己的目标去优化,有些则不会。有人会主张:如果你在代码生成和其他可验证领域更聪明了,那你理应在所有事情上都更聪明。但“笑话”这个例子就说明,事情并没有那样自然发生。至少,没有发生到让人满意的程度。
当然,人类本身也有这种参差。你可以数学非常强,但讲笑话很差。
是的。但这仍然说明,我们并不是“免费获得了所有领域的能力”。很多人讲的故事是:模型越强,我们就会顺带在社会各个领域都得到更多智能与能力;但实际上并不是这样。这里面有盲区,有没被优化的部分。而所有这些都被包裹在这个不透明的神经网络模型里。你要么踩在它被训练优化过的轨道上,体验像光速一样的推进;要么不在轨道上,然后一切就变得迟钝、混乱。
所以,尽管我们大致知道未来应该如何发展,但你还不能完全放手让系统自己跑,因为它还没有真正成熟。或者,还是那句话,也许只是我们还没学会怎么用。
那我想问一个有点“异端”的问题:如果这种锯齿感持续存在,而我们又把一切都塞进一个单一模型、单一接口里,这真的合理吗?还是说,它应该被拆分成多个可以针对不同智能领域分别优化、分别提升的系统?比如,更明确地把模型拆成不同领域的专家,而不是一个我们完全看不透的整体,否则人们就会困惑:为什么它在这个方面这么强,在另一个方面却这么差?
我现在的感觉是,各大实验室仍然在努力追求一种“单一文化”式的大模型——一个在所有领域都可以任意智能化的统一模型,它们把所有东西都往参数里塞。但我确实认为,我们应该期待未来出现更多“物种分化”式的智能。
动物王国里的大脑形态本来就极其多样,不同生态位造就了不同的神经系统。有些动物视觉皮层异常发达,有些则擅长别的能力。我们也应该看到类似的智能分化。你并不需要一个“无所不知的神谕”。你可以把智能做成更专业化的形态,再部署到特定任务上。我觉得我们确实应该看到这类趋势。因为理论上,你完全可以有更小的模型,但保留核心认知能力——它们仍然是有胜任力的,只不过在某个方向上特别擅长。这样一来,它们在特定任务上的延迟、吞吐量、效率都能更好。
比如,如果你是一个在 Lean 里做数学的研究者,我最近就看到一些模型发布,明显就是针对那个领域做的。所以我觉得未来一定会有更多类似的例子,在那些场景下,“拆分”和“专化”反而更合理。
我有一个问题:会不会因为可用算力基础设施存在瓶颈,所以效率反而会推动更多这种分化?因为如果你不能在每个场景下都部署一个超大模型,那你自然会被迫考虑更专业、更轻量的模型。
这个问题很合理。但我之所以犹豫,是因为我们现在还没真正看到太多这样的“物种分化”。目前还是模型单一化、主模型不断吞并代码能力、不断往主干里合并。哪怕已经有压力了,似乎依然如此。
我猜也许只是因为现在的供给紧张还比较短期,也许短期内它会催生一些分化。
是的。实验室现在提供的是一个面向未知需求的模型,它们根本不知道终端用户会问什么,所以只能尽量多任务覆盖所有可能性。这可能就是其中一个原因:它们必须同时处理各种潜在请求。
但如果你是进入某个企业,和它合作解决一些特定问题,那也许你就会看到这种更明显的专化。或者说,某些高价值但更垂直的应用场景里,会更容易出现这种趋势。
我还觉得,操控“这些大脑”的科学,本身还没有真正成熟。
你说的“操控”是什么意思?
比如说,如何微调而不损失已有能力。我们现在其实没有足够成熟的原语,去真正“操作智能”本身。目前我们更多只能依赖上下文窗口,而上下文窗口确实很好用,也便宜、灵活,所以今天大部分个性化、定制化都是通过上下文完成的。
但如果你想更深层地调整模型,比如持续学习、在某个领域真正变强、直接去动权重,而不只是调整上下文,那就是另一回事了。动权重要棘手得多,因为你是在改变整个模型的内部结构,甚至会改变它整体的智能表现。所以我觉得,关于“智能分化”的科学本身,可能还处在早期阶段,还没有真正成熟。而且,这种分化本身也必须足够便宜,才值得在实际场景中发生。
我想问问你之前提到的 Auto Research 的一个延伸设想。你说过,我们需要更大的协作表面,让更多人能参与研究。你能展开讲讲吗?
可以。前面我们说的 Auto Research,还是单线程式的:一个系统在循环里不断试东西。但真正有意思的,是如何把这件事并行化。
我其实一直在玩一些想法,但还没有哪个简单到让我觉得“对,就是它”。不过这是我在不折腾 claw 的时候,会在旁边慢慢想的事情。
假如你手头有很多节点可以并行运行,那当然很容易让多个 Auto Researcher 通过某个公共系统协同工作。但我更感兴趣的是,如何利用互联网世界里一个“不可信”的工作池。
比如,在 Auto Research 里,你的目标是找到一段能把模型训练到极低验证损失的代码。如果互联网上任何人都提交一个候选 commit,其实都很容易验证它是不是有效:他们可以声称“这段代码训练得更好、性能更强”,你只要重新跑一下就知道了。当然,验证本身仍然可能需要很多工作。但根本上说,他们是可能撒谎的。
所以从某种程度上,这套设计看起来有点像区块链:只不过这里的“区块”变成了 commit,这些 commit 可以建立在彼此之上,包含了对代码的改进。而“工作量证明”则变成了大量实验,去筛出真正有效的 commit。唯一的奖励目前可能只是排行榜名次,并没有金钱回报。但我不想把这个类比推得太远。关键点在于:这里同样符合一种模式——巨量搜索成本,极低验证成本。
有人可能试了一万个思路,最终只给你一个 commit。你不需要重走那一万个思路,只要验证最后这个 commit 真的好就行。所以我觉得你需要设计一套系统,让不可信的工作池能够和可信的验证工作池协作。整套系统应当是异步的,还要在安全上没问题,因为如果有人给你随便发一段代码,而你直接运行,那当然是很危险的。
但从根本上说,这应该是完全可行的。像 SETI@home、Folding@home 这种项目,其实就有类似的结构。比如 Folding@home:折叠蛋白质的低能态结构非常难找,但一旦有人给出一个低能态候选,验证却很便宜。所以凡是“寻找很贵、验证很便宜”的问题,都很适合这种架构。Folding@home、SETI@home,甚至某种意义上的“Auto Research@home”,都属于这一类。
所以,长话短说:互联网上的智能体群体可以协同改进 LLM,甚至有可能在某些方面超过前沿实验室。谁知道呢?前沿实验室有大量可信算力,但地球上的总算力其实更大,只是它们是不可信的。如果你建立好机制来处理这个问题,那么外部的“蜂群”也许真能找到更好的方案。人们可以把自己空闲的算力,贡献给他们真正关心的事情。
比如很多公司都有自己在意的研究问题。如果你有算力,你就可以参与某个具体 Auto Research 赛道。甚至如果你关心癌症之类的问题,你不一定只是给某个机构捐钱;你其实可以直接买算力,然后把它投入你关心的 Auto Research 项目。到那时,算力就会成为你贡献给公共池子的东西。
这非常鼓舞人心。而且也很有意思:至少在硅谷,或者在中国某些排队买设备的人群中,大家重新发现了一件事——拥有“个人算力”又重新变得重要了。
对。也许他们最初只是为了跑自己的 claw,但最终也能把算力贡献给 Auto Research。这几乎让人觉得:大家表面上关心的是美元,但未来真正重要的也许是 FLOPs。比如现在,就算你有钱,也很难买到算力。所以某种意义上,FLOP 反而成了更稀缺、更主导的资源。当然,我并不真的认为 FLOP 会取代财富本身,但这个想法确实挺有意思。
你最近还发布了一个关于就业数据的小分析项目,对吧?虽然你只是把公开数据可视化了一下,但好像确实戳中了很多人的神经。你当时好奇的是什么?
我当时就是很好奇:AI 对就业市场的影响,已经成了所有人都在想的事。于是我就想看看,当前就业市场到底长什么样,哪些岗位在哪里,不同职业大概有多少人。我是真的想把那些具体案例一个个看过去,自己思考:随着 AI 以及它未来的演化,这些职业是会把 AI 当工具,还是会被它替代?当前有哪些职业?它们会怎样变化?会增长吗?会重组吗?还会不会出现全新的职业?
所以对我来说,那更像是一个用来推动自己思考整个行业的燃料。那些就业数据来自美国劳工统计局。他们实际上已经对每个职业给出了未来增长的百分比预测,大概是未来近十年的展望。
我们肯定需要更多医疗工作者。
是的。他们已经做出了那些预测。老实说,我也不完全清楚他们用的具体方法论是什么。我当时有兴趣的一点,是把不同职业按照某些颜色标出来:如果你认为当前最主要在发展的,是这种更偏“数字化”的 AI——某种像幽灵、像精神实体一样,能在数字世界里行动、处理大量数字信息,但目前还没有真正的物理身体和现实存在——那么,很可能物理世界相关的工作变化会慢一些,因为那涉及操纵原子,而不是操纵比特。
比特的复制、粘贴、传输,都会让事情以近乎百万倍的速度加速;而原子世界不是这样。所以从能量和效率的角度看,我觉得数字空间里会有极其剧烈的活动和重构,几乎像沸腾一样。而物理世界的变化,相比之下会慢很多。
所以我当时特别想看的,是那些本质上在处理数字信息的职业——那些理论上可以在家完成的工作。因为我觉得,那些职业一定会发生变化。这并不直接意味着工作岗位会变多还是变少,因为那还涉及需求弹性等等复杂因素,但这些职业肯定会因为新工具而改变。可以把它看成人类超级有机体的神经系统升级,这会迫使这些职业形态发生变化。
看完这些数据之后,你有没有形成什么观察,或者对正在面对就业市场、思考该学什么的人有什么建议?
我觉得很难一概而论,因为就业市场极其多样,答案大概因人而异。但至少目前,这些工具非常新、也非常强大,所以第一步肯定是努力跟上它们。
因为我觉得,很多人会选择忽视它,或者害怕它。这当然完全可以理解。但就目前而言,我觉得它首先是一种赋能工具。一个工作其实是很多任务的组合,而现在其中一部分任务已经可以快很多。所以人们应当先把它当作一种工具来看待。至于长期会怎样,说实话很难预测,这更像是经济学家该去认真做的事情。
不过你本身是工程师。一个我觉得很有意思的点是:工程岗位的需求看起来还在继续上升。
是的。
我不确定这是不是暂时现象,你怎么看?
我觉得这有点像:软件本来就是稀缺品。我们没有更多软件需求,并不是因为人们不想要,而是因为软件太稀缺、太昂贵了。所以一旦门槛降低,其实会出现杰文斯悖论:软件需求反而会上升,因为它更便宜、更强大了。
对,经典案例总是 ATM 和银行柜员。当年大家都担心 ATM 会取代柜员,但结果是:ATM 降低了开银行网点的运营成本,于是网点反而变多了,柜员也变多了。
对。某种意义上,这说明:东西一旦变便宜,就会释放出此前被压抑的需求。所以在软件工程领域,我其实相对乐观。我确实觉得,软件需求会非常非常大,只是它以前太贵了。
软件本身很神奇。它就是数字信息处理。以前你只能被迫使用现成的、并不完美的工具,只能接受市场给你的产品。但现在代码变成了临时生成、可随意修改的东西。于是,数字空间里将会发生大量重构——一切都可以被重新接线。某种意义上,我觉得这会创造出非常巨大的需求。
长期看当然很难说。但至少就眼下而言,我确实觉得软件需求会继续增长。
甚至连那些做 Auto Research 的前沿实验室,比如 OpenAI、Anthropic 等,它们现在雇佣着上千名研究员。而这些研究员本质上也像是在做“高级版 Auto Research”——他们其实在积极地自动化掉自己。
对。
我以前就在 OpenAI 里四处走,然后和大家说:“你们意识到吗?如果我们成功了,那我们所有人都要失业。”我们其实就是在替 Sam、或者替董事会,反正某个管理层,构建自动化系统而已。我们所有人最终都会没工作,也许只能在边上贡献点想法。从那个角度看,确实挺让人不安的。
那我能不能代 Noam 问你一个问题?既然你说得这么明白,你完全可以去某个前沿实验室,利用大量算力、同事和资源来做这些自动研究。那你为什么不这样做?
我之前确实去过,而且后来也重新回到了那个生态一段时间。所以从某种程度上,我是同意这个问题的。但这件事其实可以有很多不同切法,是个很复杂的问题。
我会说,我对人们在前沿实验室之外也能产生巨大影响这件事,感觉很好。不只是整个行业,还有更偏“生态位”的角色。我觉得你现在做的事情,就是一种生态位角色;我自己目前也是某种生态位角色。而我很相信,在这种角色里,人也可以产生非常大的影响。
反过来,我也觉得,把自己过度绑定到前沿实验室,会带来一些很现实的问题。因为从根本上说,在这些实验室里,你有很强的财务激励。而你自己又承认,AI 会非常深刻地改变人类社会。那你一边亲手构建这种技术,一边又从中获得巨大利益,这本身就是一种很难解的张力。其实这正是当年 OpenAI 创立时试图处理的核心矛盾之一,而这个矛盾至今也并没有被真正解决。
所以首先,你不可能是一个完全自由的行动者。你无法真正以完全自主、独立的方式参与这场讨论。身处前沿实验室时,有些话你不能说;反过来,组织也会有一些它希望你说的话。它当然不会直接扭你的手臂逼你这么做,但你会感受到某种压力:知道什么是你“应该说”的。否则场面就会变得很尴尬,会有奇怪的眼神,像是在问你“你到底在干嘛”。
所以,你没法真正成为一个完全独立的行动者。而我会觉得,在前沿实验室之外,我反而更能站在“与人类对齐”的位置上,因为我不需要承受这些压力,我可以自由地说自己真正想说的话。
当然,在前沿实验室里也同样可以产生巨大影响。那里有很多研究员,也许你就是其中之一,也许你的想法真的很好。你也许希望自己在那些关键决策发生时,能够坐在房间里、参与讨论。现在总体上风险还比较低,所以一切还显得比较温和。但当 stakes 真正变高的时候,你作为一个组织里的员工,究竟能有多少决定权,能在多大程度上真正影响那个组织会做什么,我其实是怀疑的。说到底,你不是真正在掌舵的人。你只是在房间里贡献想法,但你不是真正控制那个实体的人。
所以,这里确实存在一些错位的激励。
但从另一个角度看,我也很认同另一种观点:如果你完全在前沿实验室之外,判断会开始漂移。因为前沿实验室是相对不透明的,它们掌握着最前沿的能力和即将到来的东西。如果你长期不在里面,你的判断就不可避免地会逐渐失准。我也担心这一点。我可能会失去对系统底层真实状态的把握,不再真正理解它们是怎么运作的,也不再真正明白它们接下来会如何演进。
所以我觉得,保持和前沿的接触仍然很重要。实际身处前沿实验室一段时间,感受真正发生的事情,这点很有价值。如果未来有某个前沿实验室希望我去一段时间、做一些很棒的工作,然后再出来,我觉得那可能会是很好的安排。这样既能和真正的前沿保持连接,又不至于完全被某个实体控制。
某种意义上,来回切换内外部角色,也许才是理想方案。既能在实验室内部产生影响,也能在外部生态中产生影响。我自己就是先加入了前沿实验室,后来又出来。未来也许还会再进去。所以我现在大概就是这么看这个问题的。
另一个相关问题是:整个世界、整个 AI 生态,到底对“前沿”有多大的可见度?比如,开源距离前沿到底有多近?这种关系是否可持续?
我觉得,最近这一连串发展其实相当令人惊讶。中国和全球的一些模型发布出来以后,我感觉很多人都发现:开源距离前沿的能力差距,比行业原本预期的要小得多。我猜接下来还会有人继续发布一些模型,在能力上进一步逼近前沿。
你是长期做开源的人,你怎么看这个趋势?
是的。大体上,闭源模型仍然更领先,但大家现在其实都在盯着一个问题:开源模型到底落后多少个月。最开始开源和前沿之间几乎什么都没有,后来可能是落后十八个月,而现在已经在收敛了。也许今天的差距大概是六到八个月。
我显然是开源的超级支持者。你看操作系统就知道:Windows 和 macOS 是闭源的大型软件项目,而 Linux 是开源的。但 Linux 实际上非常成功,世界上绝大多数计算设备都在某种形式上运行着 Linux。因为行业始终有一种需求:它需要一个所有人都能安心使用的、公共的开放平台。
我觉得今天的 AI 也是一样。企业、整个行业,都有这种需求。区别在于,AI 这里有巨额资本开支,所以事情更难一些。训练和部署都非常烧钱,这一点和操作系统时代不一样。
不过我会说,当前的开源模型已经非常好了。更有意思的是,对于绝大多数消费者场景,甚至很多普通应用,开源模型其实已经相当够用。而且如果再往前走几年,我觉得大量基础用例都会被很好覆盖,甚至能在本地运行。
当然,对“前沿级智能”的需求永远会存在,而且这一部分需求也可能非常大。但也许未来真正需要前沿级智能的,只会是像诺奖级研究、把 Linux 从 C 重写到 Rust 这种特别大型、特别高难的项目。而很多更基础、更普遍的使用场景,可能会逐渐被开源吃掉。
也就是说,今天的前沿能力,也许到今年晚些时候就已经成了开源;而这些能力本身就已经可以做很多很多事。所以我猜,这种格局会持续下去:前沿实验室拥有闭源、像神谕一样的顶级智能;而开源模型则在后面追赶,慢几个月。我其实觉得这是一种相当不错的平衡。
因为我对“只有闭源智能存在”这件事,本能上是有些犹豫甚至警惕的。我觉得,只存在闭源智能,某种程度上会带来系统性风险。中央化的历史记录并不好,无论是政治上还是经济上。所以我希望,至少存在一个比前沿落后一点、但全行业都能访问、都能共同使用的开放智能工作空间。我觉得这对整个产业来说,是一个相当健康的权力平衡。
我也觉得这很重要。因为如果你继续从前沿推动智能进步,我们就会获得以前做不到的新能力,而人类面前还有很多巨大的问题,必须靠这种昂贵、持续推进的前沿研究才能解决。所以我希望前沿实验室继续存在、继续推进。
但与此同时,你也说得对:如果今天的前沿,明天能变成开放的,那已经是非常强大的能力了。这种能力的民主化,不只是有用,而且是健康的。
是的。我甚至觉得,我们现在几乎是“误打误撞”地落在了一个还不错的位置。某种意义上,不是刻意设计出来的,而是刚好形成了这样一个格局。而且这个格局如果能持续更久,整个生态可能就越健康,因为“曲线下面积”会越来越大。
不过我要说的是,哪怕在闭源这一边,最近我也感觉它变得更集中化了。很多原本被视为前排的玩家,似乎也不再真的是最顶尖的一梯队。所以从这个角度看,我其实并不觉得当前状态特别理想。我真心希望有更多前沿实验室出现。因为我天生就会怀疑太少的人掌握太多权力。我希望有更多人坐在房间里。我甚至会说,在机器学习里,集成模型总是优于单一模型的。所以我也希望,在最困难的问题上,有更多人一起思考;在做最重要的决定时,有更多知情者参与。我不想看到的未来,是在关着门的房间里,只剩两三个人决定一切。
所以,总结来说,我确实希望有更多实验室,也希望开源继续存在。开源现在稍微落后一点,我反而觉得这挺好。
你曾经在汽车上做过某种“通用机器人自主性”的前身工作,对吧?最近这几个月,机器人领域也发生了很多事:很多公司展现出更惊人的泛化能力、更长时间跨度的任务执行能力,也有更多资金流入。你觉得机器人真的要来了么?最近有什么事情改变了你的看法吗?
我的看法很大程度上来自我在自动驾驶上看到的东西。某种意义上,自动驾驶其实就是第一种真正意义上的机器人应用。
大约十年前,那时候有很多自动驾驶初创公司。但我感觉,长期看下来,大多数都没有真正活下来。我看到的是:这个领域需要极其巨大的资本投入,也需要非常长的时间。
所以我会觉得,机器人因为太难、太脏、太乱,需要巨额资本和极强信念,本质上是一个巨大的难题。原子世界真的太难了。相比之下,数字空间里将会先发生大规模重构——以前效率不高的流程,可能被提速一百倍。而这一切发生得快得多,因为处理比特比处理原子容易太多。
所以就“什么会先发生变化、哪里会先沸腾”而言,我依然觉得数字空间会先经历巨变,而物理空间会滞后。对我来说,更有意思的是两者之间的接口层。
因为如果未来有更多智能体替人行动、和彼此交流、完成任务、参与某种“智能体经济”,那它们迟早会把纯数字空间里的事情做完。到那时,你就不得不去现实世界里“问宇宙”问题——也就是做实验、获取现实反馈。你必须和现实发生交互,才能学到新的东西。
现在我们之所以还有巨量数字工作,是因为人类一直没有足够多的思考周期,去完全消化那些已经数字化、已经上传的信息。换句话说,现有的数字世界本身就已经积压了太多还没被充分利用的信息。所以接下来首先会是这部分被大规模挖掘和重构。
但终究有一天,你会把现有论文都读完,把已有数字信息都处理完,然后就必须走向现实世界。那时最重要的,就是数字和物理之间的接口:传感器,用来看世界;执行器,用来影响世界。所以我觉得,很多真正有意思的公司,都会出现在这个接口层:怎样把现实世界的数据喂给“超级智能”,怎样把智能的决策输出变成对现实的操作。
而如果从总市场规模来看,物理世界能容纳的工作量和价值,可能甚至比数字空间还要更大。但它就是更难,所以会滞后。不过等它真正起来的时候,它会非常非常大。
所以如果你问我机会在哪里:眼下我最感兴趣的还是数字世界;再往后是数字和物理的接口;最后才是更全面的物理执行层。它们都会来,只是顺序不同。
这其实是个很有意思的框架。因为即便在原子世界里,有些事也明显更容易。比如“读写物理世界”里,“读”可能比“写”容易得多。摄像头、传感器之类的硬件已经大量存在,你完全可以用很少投资就捕获大量新数据、扩展智能体能力。
对。比如我朋友 Liam 是 Periodic 的 CEO,我上周刚去看过他们,所以印象很深。他们在做的是材料科学方向的自动研究。在那种情况下,给智能提供“感官”的,并不是普通摄像头,而是昂贵得多的实验室仪器。
生物领域也是一样,很多人对生物工程非常感兴趣,而那里的“传感器”也远远不只是视频。另一类公司则是在做“付费获取训练数据”,本质上也是给智能输入世界信息的一种方式。所以这些“感官”形式其实非常多样。
是的。我也很期待有一天,我只要给出一个现实世界的任务、标上价格,然后对智能体说:“你自己去想办法完成,去把数据给我弄回来。”
我其实一直很惊讶:为什么我们还没有足够成熟的“信息市场”?比如博彩市场、股票市场里,已经有这么多自动化活动了,那为什么现实世界中某个地方的一张照片、一个视频,还不能被直接定价?比如一张来自某个地区的实时画面值十美元,为什么没有这样一个过程存在?这其实就是在给智能“喂数据”。
而且最终看的也不是人,而是智能体——它们在替投注平台、金融市场做判断。所以我觉得,智能体网络本身仍然很新,还没有长出这类机制。但我确实觉得,这类东西未来会出现。
有一本书我觉得挺有启发,叫《Daemon》。书里那个智能会像提线木偶一样,在某种程度上操纵整个人类社会:人类既是它的执行器,也是它的传感器。我觉得整个社会最终会朝这个方向重新组织。并不是说人类彼此服务,而是越来越多地在人类与机器之间形成某种新型协作结构。
回到一个具体问题上:我们之前就在说,训练数据里还有很多缺口。而要解决这个问题,我们可能需要某种类似 Auto Research 的机制,让训练循环、SFT 流程都更自动化。如果模型不能自己做训练迭代,那它就很难形成真正的闭环,去说“用新数据提升我的质量”。
对,完全正确。但 LLM 训练其实恰恰是很适合这种范式的。这里有非常清晰的指标。代码更快、训练更优、指标更好,这些都是非常适合自动循环优化的目标。
当然,一旦你让系统围着这些指标自己转,就会出现很多“指标投机”——它会过拟合这些指标。所以接下来你又得让系统帮你设计更多指标,建立更好的覆盖面。事情会变得复杂,但从结构上说,这确实是一个很适合做闭环自动化的任务。
在结束前,我还想问你一个小项目:microGPT。说说它吧。
哦,microGPT。这个其实是我持续了快一二十年的一个执念:不断把 LLM 提炼到最本质的形式。过去我做过很多类似的项目,比如 nanoGPT、makemore、micrograd 等等。我觉得 microGPT 是目前这个执念的最新成果:尽可能把事情压缩到“只剩本质”。
训练神经网络、尤其是训练 LLM,表面上有大量代码,但其中绝大部分复杂度,其实都只是为了效率——为了让它更快。如果你不在乎速度,只在乎算法本身,那整个算法其实只要两百行 Python。非常简单,连注释都算进去,大概也就是这个量级。
因为本质上你只需要:一个文本数据集;一个神经网络结构,可能五十行;前向传播;反向传播;再加一个小型的自动求导引擎,大概一百行左右;最后一个优化器,比如 Adam,其实也就十来行。把这些都放进训练循环里,总共也就是两百行。
以前,如果我做出 microGPT,我大概会忍不住再录个视频,把它一步一步讲给人听。但这次我试着做了一下,就意识到这其实没有太多附加价值了。因为它已经足够简单,简单到任何人都可以让自己的智能体用不同方式解释它。
现在,我已经不再是“向人解释”,而是在“向智能体解释”。只要智能体理解了,它就能作为路由器,再把东西以适合具体人的方式讲出来——而且它有无限耐心,还能因材施教。所以我觉得,教育本身正在改变:过去教育是指南、讲座、课程,而现在,我更像是在给智能体准备材料,让它们去教人。
也许未来我会为 microGPT 做一个“技能包”,告诉智能体应该以什么顺序带人理解这个代码库:先从哪部分开始,再讲哪部分。也就是说,我只需要提供一个课程结构的提示,让模型知道如何更好地教学。
所以我现在越来越觉得,不需要再直接向人解释太多了。关键是:智能体懂了吗?只要它懂了,它就能解释。
当然,我们还没完全走到那一步。至少现在,我仍然觉得自己在某些地方还能讲得比智能体更好一点。但模型进步得太快了,我觉得这是一场注定要输的战斗。
教育会因此被彻底重塑。某种意义上,“人直接教人”的时代可能会弱化。如果我有一个代码库,以前我要给人写 HTML 文档;现在我觉得,真正应该写的是给智能体看的 Markdown 文档。因为只要智能体理解了,它就能把每个部分再解释给不同的人。
所以这是一种通过智能体重新定向知识传播的方式。我觉得未来我们会越来越多地看到这种模式。
不过,未来伟大的老师,也许会变成那些最懂得“如何教会智能体”的人。
是的。比如 microGPT,我其实试过让智能体自己去写一个 microGPT。我让它把神经网络训练压缩到最简单的样子,但它做不到。microGPT 是我多年执念的终点,那两百行代码就是我想出来的最终形态。我想了很久、打磨了很久,这就是那个最简答案。请相信我,它真的已经不能更简单了。
这就是我的价值所在。剩下的事情——智能体都懂。它虽然自己想不出来,但它完全能理解为什么要这样设计、为什么这些部分如此安排。所以,我的贡献就变成了那几个关键比特。至于之后的教育、解释、传播,那已经不再是我的领域了。
也许教育未来就会变成这样:你只需要注入那些你真正确信、真正独特的洞见——某个更好的课程结构、一种更好的解释方式、一些智能体自己还想不出来的部分。凡是智能体做不到的,那就是你的工作;凡是智能体已经能做到的,它很快就会做得和你一样好,甚至更好。所以你必须非常战略性地决定,自己到底该把时间花在哪些事情上。
我们很感激你贡献出的那一点点“别人还做不到的东西”。谢谢你,Andre。
好的。
欢迎在 Twitter 上关注我们:No Priors。也欢迎订阅我们的 YouTube 频道,如果你想看看我们的脸。你也可以在 Apple Podcasts、Spotify 或任何你收听播客的平台关注本节目,这样每周都能收到新一期内容。你还可以在 no-priors.com 订阅邮件,或查看每一期节目的文字稿。
GTC 2024:NVIDIA 创始人兼 CEO 黄仁勋的主题演讲
智能,就是这样被制造出来的。
一种新型工厂, 一个生成 token 的工厂, 而 token 正是 AI 的基本构件。
Token 开启了新的前沿, 把数据转化为知识, 并调用我们已经学到的一切。
Token 正在驾驭新一波清洁能源, 也在解锁群星的秘密。
在虚拟世界里,它们帮助机器人学习; 在现实世界里,它们帮助完善技术, 开辟新的道路, 为丰收清除障碍。
在关键时刻,token 已经在那里。
而在漫长路途之间,它们也从不停歇。
它们在人手无法触及之处工作, 让我们都能呼吸得更轻松一些, 也让最幼小的心脏跳动得更有力。
Token 正在帮助我们开拓前所未有的新天地, 以一种从未尝试过的规模, 去赋能整个世界。
这样我们就能抵达“星云一号”, 分离确认,甚至飞得更远。
我们一起迈出下一个伟大飞跃, 迈向一个光明的新未来, 一个为全人类打造的未来。
而这里, 正是一切开始的地方。
欢迎 NVIDIA 创始人兼 CEO, 黄仁勋登台。
欢迎来到 GTC。
我只想提醒大家,这是一场技术大会。
这么多人一大早就在排队。现场的各位,见到大家真好。
GTC, GTC。我们今天要谈技术, 要谈平台。NVIDIA 有三个平台。
你们可能以为我们大多只谈其中一个, 也就是和 CUDA-X 相关的那个。 我们的系统是另一个平台, 现在我们还有了一个新平台,叫 AI 工厂。
我们今天会把这些都讲到, 更重要的是,我们还要谈生态系统。
不过在开始之前, 先感谢一下我们赛前节目的主持人。 我觉得他们做得非常棒。
Conviction 的 Sarah Gu, 红杉资本的 Alfred Lin, NVIDIA 的第一位风险投资人, Gavin Baker, NVIDIA 的第一位大型机构投资者。
这三位对技术理解都非常深, 对当下正在发生的事情也看得很透, 当然,他们在整个技术生态中的影响力也非常广。
还有今天我亲自邀请来到现场的所有贵宾, 全明星阵容。 非常感谢大家。
我还想感谢今天来到这里的所有公司。
大家都知道,NVIDIA 是一家平台型公司。 我们有技术,有平台,也有非常丰富的生态系统。 今天,大概整个“百亿美元级”乃至“万亿美元级”的产业力量都在这里。 有 450 家公司赞助了这场活动,我要感谢你们。
1000 场技术会议, 2000 位演讲者。 这次大会将覆盖人工智能“五层蛋糕”的每一层: 从土地、电力、厂房这些基础设施, 到芯片, 到平台, 到模型, 当然还有最重要、最终真正推动这个行业起飞的——应用。
而这一切开始的地方,就在这里。
今年是 CUDA 诞生 20 周年。
我们已经做 CUDA 20 年了。
20 年来, 我们一直致力于这一架构。 这个革命性的发明——SIMT,单指令多线程。 编写标量代码, 却可以扩展成多线程应用, 比 SIMD 更容易编程得多。
最近我们还加入了 tile, 帮助大家更好地为 Tensor Core 编程, 以及更好地利用那些对今天人工智能至关重要的数学结构。
成千上万的工具、编译器、框架和库, 都已经开源。 现在已经有几十万个公开项目。 CUDA 实际上已经融入了每一个生态系统。
这张图, 基本描述了 NVIDIA 100% 的战略。 从一开始,你们就一直看我讲这张图。
而最终,最难实现的, 其实是最底层的那一项:装机基础。
我们花了 20 年时间, 才在全球构建起数以亿计运行 CUDA 的 GPU 和计算系统。 我们存在于每一家云服务商中, 存在于每一家计算机公司里, 服务于几乎所有行业。
CUDA 的装机基础, 正是这个飞轮加速的原因。 装机基础吸引开发者, 开发者创造出新算法, 并推动突破发生。 比如深度学习,当然还有很多其他例子。
这些突破会催生全新的市场, 吸引更多公司加入,形成新的生态, 从而带来更大的装机基础。
这个飞轮, 现在正在加速。 NVIDIA 各类库的下载量正在急剧增长, 已经到了非常大的规模,而且还在以前所未有的速度继续增长。
正是这个飞轮, 让这个计算平台得以支撑如此多的应用、 如此多新的突破。 但更重要的是, 它还让这些基础设施拥有极长的有效寿命。
原因很明显: NVIDIA CUDA 能运行的应用实在太多了。 我们支持 AI 生命周期的每一个阶段。 我们覆盖所有数据处理平台。 我们加速各种各样的科学计算求解器。
正因为应用范围如此广, 一旦你安装了 NVIDIA GPU, 它的使用寿命就会非常长。
这也是为什么我们六年前发布的 Ampere, 如今在云上的价格反而还在上涨的原因之一。
这一切之所以成为可能, 根本原因就在于装机基础够大, 飞轮足够强, 开发者覆盖足够广。
当这些条件同时成立, 再加上我们持续更新软件, 计算成本就会下降。
加速计算一方面极大提升应用速度, 另一方面,我们在整个产品生命周期里持续培育并更新软件, 所以你得到的不只是第一次部署时的性能提升, 而是随着时间推移持续下降的加速计算成本。
而且我们愿意支持世界上每一块 GPU, 因为它们在架构上是兼容的。 我们愿意这么做, 是因为装机基础足够大。 我们发布一个新优化, 就能让数百万人受益。
这适用于全世界每一个人。
这些动态因素叠加在一起, 让 NVIDIA 架构不断扩大覆盖面, 加速增长, 同时持续降低计算成本, 最终又反过来鼓励新的增长。
所以 CUDA 是这一切的核心。 不过,我们真正的旅程, 其实是从 25 年前开始的。
GeForce。
我不知道你们当中有多少人是和 GeForce 一起长大的。
GeForce 是 NVIDIA 最伟大的营销活动。
我们很早就开始吸引未来的客户, 甚至早在你自己买得起之前。
是你们的父母替你们买单, 让你们成为 NVIDIA 的客户。 而且他们一年又一年地持续付费, 直到某一天, 你长成了一位了不起的计算机科学家, 成为真正的客户, 真正的开发者。
但这一切, 都是 25 年前 GeForce 打下的基础。
25 年前, 我们开启了这段最终通向 CUDA 的旅程。 25 年前,我们发明了可编程着色器。 这是一个当时完全不显而易见的发明, 目的是让加速器变得可编程。 世界上第一个可编程加速器, 像素着色器, 就是 25 年前诞生的。
它推动我们继续向前探索。 5 年后, CUDA 诞生了。
那是我们做过的最大投资之一, 而在当时,其实我们根本负担不起。 它消耗了公司绝大多数利润。 但我们还是借着 GeForce 的力量, 把 CUDA 带到了每一台计算机上。
我们之所以如此投入这个平台, 是因为我们太相信它的潜力了。 最终,尽管一开始经历了很多艰难, 公司还是日复一日、连续 13 代产品、20 年如一日地坚持了下来。
而现在, CUDA 已经无处不在。
像素着色器, 当然也引发了 GeForce 的革命。
大约 8 到 10 年前, 我们又推出了 RTX, 对架构进行了一次彻底重构, 为现代计算机图形时代而设计。
GeForce 把 CUDA 带到了世界。 而 GeForce 也让 Alex Krizhevsky、Ilya Sutskever、Jeff Hinton、Andrew Ng 以及很多其他人发现, GPU 可以成为他们加速深度学习的伙伴。
那就是 AI 的“大爆炸”时刻。
大约 10 年前, 我们决定融合可编程着色, 并引入两个新理念: 硬件光线追踪——这是极其困难的; 还有一个当时非常新颖的想法: 在大约 10 年前, 我们就认为 AI 会彻底改变计算机图形学。
正如 GeForce 把 AI 带给了世界, AI 现在也将反过来彻底重塑计算机图形学。
所以今天, 我要给你们展示一点未来的东西。 这是我们下一代图形技术, 我们称之为“神经渲染”。
它是 3D 图形与人工智能的融合。 这就是 DLSS 5。 大家来看一下。
太不可思议了,对吧?
计算机图形活了过来。
那我们到底做了什么?
我们把可控的 3D 图形——也就是虚拟世界的真实基础、结构化数据——与生成式 AI 结合在了一起。
记住这个词:结构化数据。 虚拟世界、生成世界的结构化数据。
我们把 3D 图形、结构化数据, 和生成式 AI, 也就是概率计算, 结合在一起。
一个是完全可预测的, 另一个则是概率性的, 但却高度逼真。
我们把这两个理念融合在一起: 通过结构化数据精确控制, 同时又进行生成。
于是最终呈现出来的内容, 既美丽、惊艳, 又可控。
这种把结构化信息与生成式 AI 融合的理念, 会在一个行业接一个行业中不断重演。
结构化数据, 是可信 AI 的基础。
接下来这个可能会稍微吓到你们一点。 我要切一张幻灯片了,别惊呼。
接下来剩下的时间, 我们要看示意图了。
这是我最喜欢的一张幻灯片。 每次我问团队“我最好的那张幻灯片是哪一张”, 他们总说是这张。 他们总说:“别放,Jensen,别放。” 我说:“不,这些座位是给你们当门票用的。”
所以,这就是你们的入场费。
这就是结构化数据。 你们都听过。 SQL、Spark、Pandas、Velox, 还有很多极其重要、规模庞大的平台。 Snowflake、Databricks、EMR、Amazon EMR、Azure Fabric、Google Cloud BigQuery。
所有这些平台都在处理数据框。 这些数据框其实就是巨大的电子表格, 里面承载着生活中的各种信息。
这就是结构化数据, 是商业世界的真实底座, 是企业计算的真实底座。
而现在, 我们要让 AI 来使用这些结构化数据, 那我们当然得把它大幅加速。
以前加速结构化数据处理也很重要, 因为这样我们能处理得更多、更便宜、一天处理更多次, 让公司运转得更同步。
但未来的变化是, 这些数据结构将被 AI 使用, 而 AI 会比我们快得多。
未来的智能体也会使用结构化数据库。 此外,还有非结构化数据库, 也就是生成式数据库。
这个数据库承载着世界上绝大多数的信息: 向量数据库、非结构化数据、PDF、视频、演讲…… 世界上的信息几乎都在那里。
每年产生的信息中,大约 90% 都是非结构化数据。
直到今天, 这些数据对世界来说其实几乎没什么用。 我们读一下, 把它放进文件系统, 然后就结束了。
遗憾的是, 我们无法方便地查询它, 无法方便地搜索它。 因为非结构化数据很难被建立索引。 你必须理解它的含义、它的目的。
而现在, AI 可以做到这一点。
正如 AI 解决了多模态感知与理解一样, 你也可以用同样的技术去读取 PDF, 理解它的含义, 然后把它嵌入到更大的结构中, 让我们可以搜索、查询。
NVIDIA 为此创建了两个基础库。 就像我们为 3D 图形创建了 RTX 一样, 我们为数据框,也就是结构化数据,创建了 cuDF; 为向量存储、语义数据、非结构化数据、AI 数据, 创建了 cuVS。
这两个平台, 将会是未来最重要的平台之一。 我非常期待看到它们在全球数据处理系统这个复杂网络中被广泛采用。
而之所以重要, 是因为数据处理已经存在很久了, 因此形成了很多公司、很多平台、很多服务。 我们花了很长时间, 才深度整合进这个生态系统。 我对此非常自豪。
今天, 我们也宣布其中的一些合作。
IBM——SQL 的发明者, 也是史上最重要的领域专用语言之一的创造者—— 正在用 cuDF 加速 Watsonx.data。
大家来看一下。
60 年前, IBM 推出了 System/360, 这是第一个现代通用计算平台, 开启了计算时代。
后来又有了 SQL, 一种声明式语言, 可以直接查询数据, 不需要一步一步告诉计算机怎么做。
再后来有了数据仓库。 这些都奠定了现代企业计算的基础。
而今天, IBM 和 NVIDIA 正在为 AI 时代重塑数据处理, 用 NVIDIA GPU 计算库来加速 IBM Watsonx.data 的 SQL 引擎。
数据是真实世界的依据, 它为 AI 提供上下文和意义。 AI 需要快速访问海量数据集。 而今天基于 CPU 的数据处理系统, 已经跟不上了。
雀巢每天要做成千上万项供应链决策。 他们的订单到回款数据集市, 汇总了全球 185 个国家所有供应订单和交付事件。
在 CPU 上, 雀巢一天只能刷新几次这个数据集市。 而使用运行在 NVIDIA GPU 上的加速版 Watsonx.data, 雀巢可以把同样的工作负载做到 5 倍速度, 同时成本降低 83%。
下一个计算平台已经到来。 这就是 AI 时代的加速计算。
NVIDIA 在云端加速数据处理, 也在本地加速数据处理。
大家都知道, 戴尔是全球领先的计算机系统制造商之一, 也是全球领先的存储供应商之一。
他们和我们合作, 创建了 Dell AI 数据平台, 把 cuDF 和 cuVS 整合到一起, 打造面向 AI 时代的加速数据平台。
这是他们与 NTT Data 合作取得巨大加速效果的例子。
这是 Google Cloud。 大家知道,我们与 Google Cloud 合作已久。 我们加速 Google 的 Vertex AI, 现在又加速 BigQuery。 这也是一个极其重要的平台。 这里展示的是我们与 Snapchat 合作的成果: 把其计算成本降低了将近 80%。
当你加速数据处理、加速计算时, 你得到的不只是速度提升, 不只是规模提升, 更重要的是成本优势。
这一切其实本来就是一体的。 过去这叫摩尔定律。
摩尔定律的核心是每隔几年性能翻倍。 换个说法, 如果价格基本不变, 计算机规模也差不多, 那就意味着你每年都能获得更高性能, 或者说每年都能降低计算成本。
但摩尔定律已经后继乏力了。 我们需要一种新方法。
加速计算让我们可以实现这种巨大跃迁。 而且正如你们稍后会看到的, 因为我们持续优化算法—— NVIDIA 本来就是一家算法公司—— 随着算法不断优化, 再加上我们的覆盖范围够大、装机基础够大, 我们就能持续不断地为所有人降低计算成本、 扩大规模、提高速度。
这就是 Google Cloud 的例子。 我只是想给你们看三个版本, 因为它们都反映了同一个模式。
NVIDIA 构建了加速计算平台, 在其上叠加了很多库。 我刚才举了三个例子: RTX、cuDF、cuVS。 后面我还会再讲几个。
这些库都建立在我们的平台之上。 但最终, 我们把它们整合进全球的云服务平台、 OEM 厂商, 以及我接下来会给你们展示的其他平台中, 从而把这些能力带给全世界。
这个模式——NVIDIA、Google Cloud、Snapchat—— 会一次又一次地重复出现。
而且差不多都会长这个样子。
这是 NVIDIA 和 Google Cloud 的合作。 我们加速 Vertex AI, 加速 BigQuery。 我对我们和 JAX/XLA 的合作非常自豪。 我们在 PyTorch 上表现卓越。 我们是世界上唯一一个既在 PyTorch 上表现卓越、 又在 JAX/XLA 上表现卓越的加速器平台。
我们支持的客户, 比如 BaseTen、CrowdStrike、Puma、Salesforce, 虽然不是直接买我们产品的客户, 但他们是我们的开发者伙伴。 我们把 NVIDIA 技术深度集成到他们的产品中, 再把他们带到云上。
我们和云服务商的关系, 本质上就是把客户带给他们。 我们集成库,优化工作负载, 再把客户部署到云上。
所以你们也看得到, 大多数云服务商都很愿意和我们合作。 他们总是希望我们把下一个客户部署到他们的云上。 而我要告诉你们的是: 客户真的很多。 我们会把所有人都加速起来。 只是请对我们有一点耐心。
这是 Google Cloud。 这是 AWS。
我们和 AWS 合作也很久了。 今年让我特别兴奋的一件事, 就是我们要把 OpenAI 带到 AWS 上。 这将大幅提升 AWS 的云计算消耗, 也会扩大 OpenAI 的覆盖面和算力规模。
大家都知道, OpenAI 现在完全受限于算力。 而在 AWS 上, 我们加速 EMR、加速 SageMaker、加速 Bedrock。 NVIDIA 已经深度融入 AWS。 他们也是我们的第一个云合作伙伴。
然后是 Microsoft Azure。
NVIDIA 的 A100 超级计算机, 第一套是为 NVIDIA 自己建的, 但第一套真正部署出去的是在 Azure。 那也进一步促成了和 OpenAI 的巨大成功合作。
不过我们和 Azure 的合作已经持续了很久。 我们现在加速 Azure Cloud, 包括它的 AI Foundry。 我们也深度合作加速 Bing 搜索, 还在 Azure 区域方面与他们协作。
这其中一个非常重要的能力, 就是保密计算。
在保密计算中, 你要确保即使是运营方, 也看不到你的数据, 看不到你的模型。
保密计算。 NVIDIA 的 GPU 是全球第一个能够做到这一点的。 现在我们已经能够支持保密计算, 能够在云和不同区域内, 安全地部署这些极具价值的 OpenAI 模型和 Anthropic 模型。 这都是因为我们的保密计算能力。
保密计算极其重要。
这是另一个例子: 我们和很多客户一起合作。 比如 Synopsys,就是非常重要的合作伙伴。 我们在加速他们所有的 EDA 和 CAE 工作流, 然后把这些工作负载部署到 Microsoft Azure 上。
Oracle 这边, 我们是他们第一个 AI 客户。 很多人可能以为我们是他们第一个供应商—— 没错,我们也是, 但同时我们还是他们第一个 AI 客户。
我对此非常自豪。 是我第一次向 Oracle 解释什么叫 AI 云, 而我们是他们的第一个客户。
从那以后, 他们发展得非常快。 我们已经把很多合作伙伴带到了他们的平台上: Cohere、Fireworks,当然还有非常著名的 OpenAI。
我们与 CoreWeave 的合作也非常棒。 它们是全球第一个真正意义上的 AI 原生云。 这家公司从成立起, 只有一个目标: 为加速计算时代和 AI 云时代托管 GPU。
他们有很多非常棒的客户, 而且增长速度惊人。
我还特别兴奋的一个平台, 是我们和 Palantir、Dell 的合作。 三家公司共同打造出一种全新的 AI 平台—— Palantir 的 ontology 平台和 AI 平台。
而且我们可以在任何国家、任何物理隔离区域, 完全本地、完全现场、完全边缘化地部署这些平台。 AI 将可以真正部署到任何地方。
如果没有我们的保密计算能力、 没有我们构建端到端系统的能力、 没有我们提供从数据处理(无论是向量还是结构化)一直到 AI 的整个加速计算栈, 这一切都不可能实现。
我之所以给大家展示这些例子, 是因为这正体现了我们与全球云服务商之间特殊的合作关系。 他们几乎都在这里, 我在会场里也能看到他们。 这实在令人无比兴奋。 我只想感谢你们所有人的辛勤工作。
NVIDIA 做成了这样一件事, 而且你们会反复看到这个主题:
NVIDIA 是世界上第一家“纵向一体化、横向开放”的公司。
为什么这很重要? 原因非常简单。
加速计算不是芯片问题。 加速计算也不是系统问题。
加速计算其实缺了一个词, 只是我们现在不怎么说了: 应用加速。
如果我能让一台计算机把所有东西都跑得更快, 那叫 CPU。 但 CPU 这条路已经快走不动了。
未来我们唯一能继续加速应用、 继续带来巨大提速和巨大成本下降的方法, 就是应用级加速,或者说领域专用加速。
我在前面把“领域专用”这几个字省略掉了, 所以它就变成了“加速计算”。
这也是为什么 NVIDIA 必须一座库接一座库地建, 一个领域接一个领域地做, 一个垂直行业接一个垂直行业地深耕。
我们是一家纵向一体化的计算公司, 没有别的路可走。
我们必须理解应用, 必须理解领域, 必须从根本上理解算法。 然后还必须搞清楚, 怎么把算法部署到它想被部署到的任何场景里。
不管是在数据中心、云、本地、边缘, 还是在机器人系统里, 这些计算系统都不一样。
最后才是系统和芯片。
我们是纵向一体化的。 而让这一切变得极其强大的原因—— 也是你们刚才看到那些幻灯片的原因—— 就是 NVIDIA 同时又是横向开放的。
无论你希望我们把 NVIDIA 技术集成到什么平台里, 我们都愿意配合。 我们提供软件、提供库, 把我们的技术与你们的技术集成, 从而把加速计算带给全世界每一个人。
而这次 GTC, 其实就是对此最好的证明。
平时你们看我讲这些垂直行业时, 我会举一些例子。 但实际上, 无论是汽车、金融服务——顺便说一句, 这次 GTC 最大的参会人群比例, 来自金融服务行业。
我知道, 我希望他们是开发者,不是交易员。
我还想说一件事。
今天台下坐着的各位, 代表着 NVIDIA 生态系统中, 我们供应链的上游和下游。
我们对供应链的思考, 就是上游和下游一起看。
特别令人激动的是, 在过去这一年里, 我们整个上游供应链, 无论你是一家 50 年历史的公司, 还是 70 年、150 年历史的公司, 只要现在加入了 NVIDIA 的供应链, 无论是在上游还是下游与我们合作—— 你们在过去一年, 都创造了历史最佳业绩,对吧?
恭喜大家。
我们正在做一件大事。 这是某个巨大时代的开始。
如果你看加速计算, 我们现在已经搭建好了这个计算平台。 但要真正激活这些计算平台, 我们还必须拥有面向各个垂直行业的领域专用库, 去解决那些极其重要的问题。
你们会看到, 我们正在覆盖每一个行业: 自动驾驶汽车——我们的覆盖、广度、影响力都非常惊人; 金融服务——我刚才提到了, 算法交易正在从传统机器学习、人工特征工程——也就是量化团队做的那些事—— 转向超级计算机对海量数据的学习, 由系统自己发现洞察、发现模式。 所以这个行业正在经历属于自己的深度学习和 Transformer 时刻。
医疗健康, 也正在经历它的 ChatGPT 时刻。 我们在那里做了很多令人兴奋的事情。 Kimberly Powell 在这里主持了一条非常棒的医疗主题演讲线。 我们在谈 AI 物理学、AI 生物学用于药物发现, AI 智能体用于客户服务和诊断支持, 当然还有物理 AI、机器人系统。
AI 的这些不同方向, 都对应着 NVIDIA 提供的不同平台。
工业领域, 我们正重新启动人类历史上最大规模的建设浪潮。 全球大多数工业企业, 正在建设 AI 工厂、芯片工厂、计算机工厂, 今天都在这里。
媒体与娱乐、游戏, 当然还有实时 AI 平台, 用于翻译、广播支持、实时游戏和直播视频。 其中巨量内容都会被 AI 增强。
我们还有一个平台叫 Holoscan。 量子计算方面, 今天现场有 35 家公司与我们一起, 在构建下一代量子-GPU 混合系统。
零售和快消行业, 正用 NVIDIA 做供应链优化, 构建智能购物系统, 用 AI 智能体做客户支持, 这里也有很多工作正在展开。 这是一个 35 万亿美元规模的行业。
机器人和制造业, 这是一个 50 万亿美元规模的行业。 NVIDIA 在这一领域已经做了 10 年, 构建了机器人系统所必需的三台基础计算机。 我们正在与几乎所有我们知道的机器人公司合作。 这次展会上就有 110 台机器人。
再说通信行业, 它的规模和全球 IT 行业一样庞大, 大约 2 万亿美元。
我们到处都看得到基站。 它是上一代计算时代的基础设施之一。 而这套基础设施将被彻底重构。
原因很简单: 那个原本只做一件事的基站, 未来将成为 AI 基础设施平台。 AI 将运行在边缘侧。
所以这方面也有很多精彩讨论。 我们的平台叫 Aerial,也就是 AI-RAN。 我们和 Nokia、T-Mobile 以及很多其他公司都建立了重大合作。
在我们业务的核心, 正是我刚才提到的一切: 计算平台, 但更重要的是 CUDA-X 库。
CUDA-X 库, 就是 NVIDIA 发明的那些算法。 我们是一家算法公司。 这就是我们特别的地方。
也正因为如此, 我才能进入每一个行业, 去想象未来, 然后让全世界最优秀的计算机科学家们去描述问题、解决问题、重构问题、重新表达问题, 最终把它变成一个库。
我想这次大会上, 我们大概要发布 100 个库, 七十多个库、四十多个模型之类的, 而这还只是这次大会。 我们一直都在更新它们, 无时无刻不在更新。
这些库, 才是我们公司的皇冠明珠。 正是它们, 让计算平台得以被真正激活, 去服务现实问题,产生真实影响。
我们创造过的最重要的库之一, 就是 cuDNN——CUDA 深度神经网络库。 它彻底改变了人工智能, 引发了现代 AI 的大爆炸。
接下来给大家看一个关于 CUDA-X 的短片。
20 年前, 我们打造了 CUDA, 一个统一的加速计算架构。
而今天, 我们重塑了计算。
1000 个 CUDA-X 库, 正在帮助开发者在科学与工程的每一个领域实现突破。
cuOpt 用于决策优化。 cuLitho 用于计算光刻。 cuDSS 用于直接稀疏求解器。 cuEquivariance 用于几何感知神经网络。 Aerial 用于 AI-RAN。 Warp 用于可微分物理。 Parabricks 用于基因组学。
而它们共同的基础, 就是算法。 而算法本身, 非常美。
你们刚才看到的一切, 都是模拟。
其中有些是经典求解器, 也就是基础物理求解器; 有些是 AI 替代模型, 也就是 AI 物理模型; 还有些是物理 AI 机器人模型。
一切都是模拟的, 没有任何东西是动画做出来的, 没有任何东西是简单摆拍出来的。 全部都是完整模拟。
这正是 NVIDIA 的根本能力。
正是通过对算法的理解, 再结合我们的计算平台, 我们才能打开、解锁这些机会。
NVIDIA 是一家纵向一体化的计算公司, 同时又以开放的方式, 横向连接整个世界。
这就是 CUDA-X。
刚才你们看到很多公司, 比如沃尔玛、欧莱雅、摩根大通、丰田…… 这些公司, 塑造了今天的社会, 都是世界上最大的公司之一。
但也确实还有一大批你们没听过的公司。 这些公司,我们称之为 AI 原生公司。 有很多很多小公司。 名单非常长, 我根本不可能全部放出来。 所以我最后干脆做成大家看不清的样子, 这样也不会有人受伤。
但在这份名单里, 有很多全新的公司。 比如你们可能听说过的 OpenAI、Anthropic, 当然还有很多很多其他公司。 它们服务不同的垂直行业。
过去两年里,特别是过去这一年, 发生了一件大事。 我们其实和这些 AI 原生公司合作已经很久了, 但过去一年,整个行业突然爆发。 我来解释一下原因。
这个行业吸引了 1500 亿美元的风险投资, 流向初创企业, 这是人类历史上规模最大的一次。
而且这也是历史上第一次, 投资规模从几百万、几千万美元, 直接跃升到几亿美元、几十亿美元。
原因很简单: 这是历史上第一次, 每一家公司都需要算力, 而且是大量算力。
它们需要 token, 而且是大量 token。
它们要么自己建设并生成 token, 要么就去整合、增值那些由 Anthropic、OpenAI 等公司生成的 token。
所以,这个行业在很多方面都不同。 但有一点是非常清楚的: 它们已经开始创造切实可见的价值, 带来非常真实的影响。
这些 AI 原生公司, 之所以能出现, 就是因为我们重塑了计算。
正如 PC 革命催生了一大批新公司, 互联网革命催生了一大批新公司, 移动云时代也催生了一大批新公司。 每一次计算平台的变迁, 都会带来自己的标准。
这一代也一样。 我们正在迎来一大批非常特别的新公司。 我们重塑了计算, 所以理所当然会诞生一批新的重要公司、 对未来世界具有决定性影响的公司。 就像 Google、Amazon、Meta, 它们都是上一次计算平台迁移所诞生的结果。
而现在, 我们正站在新一轮平台迁移的开端。
那过去两年到底发生了什么?
你们都知道, 我们一直在深度学习和 AI 前线, 就在现代 AI 大爆炸发生的中心。 我们推动这个领域已经很长时间了。
但为什么偏偏是最近两年? 发生了三件事。
第一,ChatGPT 开启了生成式 AI 时代。 它不再只是理解和感知, 它还能够翻译、生成、创造独特内容。
我前面给你们展示了生成式 AI 与计算机图形学的融合, 它让图形学活了过来。
坦白说,全世界每一个人都应该使用 ChatGPT。 我每天早上都用, 今天早上也用了很多次。
所以,ChatGPT 开启了生成式 AI 时代。 从更广义上说, 它开启的是“生成式计算”时代。
生成式 AI 不只是软件的一种能力, 它深刻改变了计算的方式。
过去的计算是检索式的, 现在的计算是生成式的。
记住这一点。 后面我再讲一些内容时, 你们就会明白, 为什么它会改变计算机的架构方式、 交付方式、 建设方式, 甚至改变“计算”这个词本身的意义。
生成式 AI, 大概在 2022 年底到 2023 年全面爆发。
第二阶段, 是推理型 AI, 也就是 o1, 然后随着 o3 真正起飞。
推理让模型能够反思, 能够自我思考, 能够规划, 能够把一个自己还无法理解的问题拆解成它能理解的步骤和部分。 它能够基于研究来让自己有依据。 o1 让生成式 AI 变得可信, 并且更加扎根于真实。
这让 ChatGPT 彻底爆发。 这是一个非常非常重要的时刻。
为了做到这一点, 模型需要更多输入 token 来提供上下文, 也需要更多输出 token 来完成“思考”。 模型本身只是稍微大了一些, 并没有大很多, 但它对输入 token 的上下文需求, 以及对输出 token 的思考需求, 让计算量急剧上升。
然后又出现了 Claude Code, 第一个真正的智能体模型。
它能够读取文件、编写代码、编译、测试、评估, 再返回去继续迭代。
Claude Code 彻底改变了软件工程。
正如在座各位都知道的, 现在 NVIDIA 全公司 100% 的开发者都在使用这些工具的某种组合, 通常是三者并用: Claude Code、Codex、Cursor。
现在在 NVIDIA, 没有任何一个软件工程师不是在 AI 智能体的辅助下写代码的。
Claude Code 完全带来了一个新的拐点。 而第一次, 你不再问 AI“是什么、在哪里、什么时候、怎么做”, 你会直接对它说: “创建、执行、构建。”
你让它使用工具, 读取上下文, 访问文件, 以智能体方式拆解问题、 推理问题、 反思问题。 它不仅能解决问题, 还能真正执行任务。
一个原本只能感知的 AI, 变成了可以生成的 AI; 一个可以生成的 AI, 变成了可以推理的 AI; 而一个可以推理的 AI, 现在变成了真正可以工作的 AI。
而且是高生产力的工作。
过去两年里, 所有在这个房间里的人都知道, NVIDIA GPU 的计算需求已经完全爆表。 现货价格飞涨, 你想找一块 GPU 都很难。 与此同时, 我们已经在出货非常惊人的 GPU 数量, 但需求还是不断上升。
原因就在这里。 这个根本性的拐点: AI 终于开始能够做真正有生产力的工作了, 因此推理拐点已经到来。
AI 现在必须“思考”。 而要思考,就必须进行推理。 AI 现在必须“做事”。 而要做事,就必须进行推理。 AI 必须“阅读”。 而要阅读,也必须进行推理。 AI 必须进行推理, 必须做, 必须生成 token, 必须靠推理去运作。
现在已经远远不只是训练的问题了, 而是进入了推理时代。
就在推理拐点到来的同时, 所需的 token 数量、所需的计算量, 大约增长了 10000 倍。
如果再叠加过去两年使用量本身的增长, 那整体需求大概增长了 100 万倍。
很多人都听我说过, 我相信过去两年计算需求增长了 100 万倍。 这就是我们每个人真实感受到的东西。 每一家初创公司都这样感觉, OpenAI 这样感觉, Anthropic 也这样感觉。
如果他们能获得更多算力, 他们就能生成更多 token, 收入就会上升, 更多人能使用, AI 也会变得更强、更聪明。
我们已经进入这个正向飞轮系统。 这个拐点已经发生了。 推理拐点,已经到来。
去年这个时候, 我说过, 按照我当时站的位置来看, 到 2026 年, Blackwell 和 Rubin 的高确定性需求与采购订单, 合计大约是 5000 亿美元。
这是我去年说的。
我不知道你们感觉如何, 但 5000 亿美元的收入规模, 已经是极其惊人的数字了。
结果没人震惊。
我知道为什么你们不震惊。 因为你们去年全都创了纪录。
那么今天, 我要告诉你们:
就在现在, 距离上一次 GTC 只过去了一年, 就在我现在所站的位置, 我看到到 2027 年之前, 至少有 1 万亿美元的需求。
这合理吗?
接下来我就要用剩下的时间来讲这个问题。
事实上, 我们一定会供不应求。 而且我非常确定, 真实的计算需求还会远高于此。
原因如下。
首先,过去一年我们做了很多工作。 大家都知道,2025 年是 NVIDIA 的“推理之年”。
我们希望确保, 我们不只是训练和后训练做得好, 而是 AI 的每一个阶段都做得非常好。 这样一来, 部署在我们基础设施上的投资, 就可以尽可能长时间地持续扩展使用, NVIDIA 基础设施的有效寿命也就会更长, 成本自然就会更低。
基础设施用得越久,成本越低。 我毫不怀疑, NVIDIA 的系统就是全世界 AI 基础设施里成本最低的。
所以,去年我们所有的努力, 都在为推理服务, 而它也真正推动了这个拐点。
与此同时, 我们也非常高兴地看到, Anthropic 选择了 NVIDIA, Meta 选择了 NVIDIA。 而这几个客户合在一起, 代表了全球大约三分之一的 AI 算力。
开源模型, 现在已经逼近前沿水平, 而且几乎无处不在。
而今天, NVIDIA 是全球唯一一个能够在所有 AI 模型上、在所有 AI 领域中运行的计算平台。
无论是语言、 生物、 图形学、 计算机视觉、 语音、 蛋白质、 化学、 机器人, 还是边缘、云端, 任何语言, NVIDIA 架构都能覆盖, 而且都做得非常出色。
这让我们成为成本最低、可信度最高的平台。 因为当你在建设这些系统时, 正如我刚才所说, 那是 1 万亿美元级别的基础设施。
你必须对这 1 万亿美元的投入有绝对信心: 它会被充分利用, 它会有性能, 它会极其高效, 而且会拥有尽可能长的有效寿命。
而在 NVIDIA 上, 你可以带着完全的信心来做这件事。
我们现在已经证明了, 这是世界上唯一一个你可以在任何地方放心建设的基础设施平台。
无论你想放到哪一家云上, 我们都非常乐意支持; 无论你想本地部署, 我们也非常高兴; 无论你想部署在哪个国家、哪个地方, 我们都愿意支持你。
我们现在, 已经成为一个运行全部 AI 的计算平台。
我们的业务本身, 也已经开始显示出这一点。
现在我们 60% 的业务来自超大规模云厂商, 前五大云厂商。
但即便在这五大云厂商内部, 也有大量内部 AI 消耗。 这些内部 AI 消耗同样非常重要。 比如推荐系统, 正在从表格、协同过滤、内容过滤, 转向深度学习和大语言模型。 搜索也在转向深度学习和大语言模型。
几乎所有超大规模工作负载, 都在向 NVIDIA GPU 最擅长的方向迁移。
更何况, 因为我们与每一个 AI 实验室合作, 因为我们加速每一种 AI 模型, 因为我们有一个庞大的 AI 原生生态, 可以把他们带到云上, 所以无论投资有多大、扩容有多快, 这些算力最终都会被消耗掉。
这就是我们 60% 的业务。
另外 40%, 则几乎遍布一切地方: 区域云、 主权云、 企业、 工业、 机器人、 边缘、 大型系统、 超级计算系统、 小型服务器、 企业服务器……
系统数量极其庞大。
AI 的多样性, 正是它的韧性。
AI 覆盖面的广度, 正是它的韧性。
毫无疑问, 这绝不是一个“单应用技术”。 它现在已经是基础设施级的东西了。 这绝对是一场新的计算平台变革。
而我们的任务, 就是继续推进技术本身。
去年我提到过一件最重要的事情: 去年是我们的推理之年。 我们几乎把全部赌注都压上去了。
就在 Hopper 最巅峰、势头正猛的时候, 我们决定把 Hopper 架构, 把 NVLink by 8, 提升到下一个层次。
我们彻底重构了系统, 把整个计算系统完全拆解重构, 创造出了 NVLink 72。
它的构建方式、 制造方式、 编程方式, 全都彻底改变了。
Grace Blackwell NVLink 72, 是一次巨大的豪赌。 这对任何人都不容易, 包括在场很多合作伙伴。 我想再次感谢你们为此付出的努力。
NVLink 72, NVFP4——不只是 FP4 精度, 而是一整种全新的 Tensor Core 和计算单元设计。
我们已经证明, NVFP4 可以在不损失精度的前提下进行推理, 同时带来巨大的性能和能效提升。
我们也已经可以在训练中使用 NVFP4。
再加上 NVLink 72、 Dynamo、 TensorRT-LLM、 一整套新算法, 我们甚至还建了一台超级计算机, 专门用来帮助我们优化内核、优化整套软件栈。 我们把它叫做 DGX Cloud。 我们投入了数十亿美元级别的超算能力, 就是为了打造那些让推理成为可能的内核和软件。
而这一切终于汇聚成了结果。
以前很多人告诉我: “Jensen,推理很简单。” 推理是最难的事情。 推理也是最重要的事情, 因为它直接驱动收入。
这是结果。 这是 SemiAnalysis 的数据。 这是迄今为止对 AI 推理做过的最大、最全面的评测。
你们看到的这一边, 是每瓦 token 数。
每瓦 token 很重要, 因为每一个数据中心、每一座工厂, 本质上都受限于电力。 一个 1GW 的工厂, 不可能随便变成 2GW。 它受物理定律限制。
所以, 在这个 1GW 的数据中心里, 你想要做的是让它产生尽可能多的 token, 因为 token 就是这座工厂的产物。
你当然希望自己站在这条曲线的最顶端。
而横轴, 是交互性,也就是推理速度。 推理越快, 响应越快; 更重要的是, 你可以处理更大的模型、 更多的上下文、 更多用于“思考”的 token。
所以这条轴, 其实也等于 AI 的“聪明程度”。
这条轴是吞吐量, 那条轴是智能程度。
而在右边,是成本。
大家不会惊讶于 NVIDIA 拥有全球最高性能。 真正令人惊讶的是:
在一个世代之内, 按传统摩尔定律, 你可能只会预期从 Hopper H200 获得大约 1.5 倍提升, 没人会预期是 35 倍。
我去年这个时候说过, Grace Blackwell NVLink 72 的每瓦性能是 35 倍, 很多人不信。
后来 SemiAnalysis 的 Dylan Patel 甚至说, Jensen 说得还太保守了。 他说, “Jensen 还藏着掖着,实际上是 50 倍。”
而且他说得没错。
所以, 我们的单 token 成本, 是全球最低的。 你根本打不过。
我以前说过, 如果架构选错了, 就算硬件免费, 也还是不够便宜。
因为无论如何, 你还是得先建一座 1GW 数据中心, 一座 1GW 工厂。 把这座工厂摊到 15 年里, 光固定资产成本就大约有 400 亿美元。 就算你机器免费, 你也已经先砸进去了 400 亿美元。
既然如此, 你当然要确保放进去的是最好的计算系统, 这样你才能拿到最好的 token 成本。
NVIDIA 的 token 成本, 是世界级的, 几乎在当下无法被撼动。
原因, 就是极致的代码设计。
所以我很高兴, 他们给了我们这个评价。
“猴王? 不,是 token 之王。”
正如我之前说的, 我们把所有软件都纵向整合, 但横向开放。 纵向整合,横向开放。
我们把所有软件和技术, 尽可能打包整合进全世界的推理服务提供商里。
这些公司增长得太快了。
Fireworks, 过去一年增长了 100 倍。 它们就是 token 工厂。
而对于这些工厂来说, 效率、性能、token 成本生产能力, 就是一切。
这就是结果。
我们只是更新了它们的软件, 系统还是同一套系统。
而他们的 token 速度, 令人难以置信。 在 NVIDIA 更新整套软件和算法之前, 平均大约 700 token/秒, 后来接近 5000 token/秒, 提升了 7 倍。
这就是极致代码设计的力量。
我前面提到过“工厂”的重要性, 这里就是最直接的体现。
你的数据中心, 过去是存文件的数据中心; 现在,它是一座生成 token 的工厂。
你的工厂无论如何都受限于资源。 每个人都在找地、找电、找壳体。 一旦建起来, 你就受限于电力。
在这套电力受限的基础设施中, 既然推理才是你的核心工作负载, token 又是你新的商品, 计算能力就等于你的收入, 那你就必须确保架构已经被优化到极致。
未来, 每一个 CSP、 每一家计算机公司、 每一家云公司、 每一家 AI 公司、 其实是每一家公司, 都会去思考自己的 token 工厂效率。
这就是未来的工厂。
而我知道这一点, 因为今天在场的每一个人, 本质上都在靠“智能”工作。 而未来, 这种智能会被 token 放大。
所以, 我来给大家展示一下我们是怎么走到今天的。
2016 年 4 月 6 日, 也就是 10 年前, 我们推出了 DGX-1, 世界上第一台专为深度学习设计的计算机。
8 块 Pascal GPU, 通过第一代 NVLink 连接。 一台机器里有 170 TFLOPS。 这是第一台真正为 AI 研究者打造的计算机。
到了 Volta, 我们引入了 NVLink Switch。 16 块 GPU, 全互连带宽, 作为一块超级大 GPU 运行。 这是巨大的进步。
但模型尺寸持续增长, 于是数据中心必须变成一个统一的计算单元。 所以 Mellanox 加入了 NVIDIA。
2020 年, DGX A100 SuperPOD 成为第一台真正把纵向扩展和横向扩展结合起来的 GPU 超级计算机。
NVLink 3 负责纵向扩展, ConnectX-6 和 Quantum InfiniBand 负责横向扩展。
然后是 Hopper, 第一块带有 FP8 Transformer Engine 的 GPU, 开启了生成式 AI 时代。 NVLink 4、ConnectX-7、BlueField-3 DPU、第二代 Quantum InfiniBand, 它彻底改变了计算。
然后是 Blackwell, 重新定义了 AI 超级计算机系统架构。 通过 NVLink 72, 72 块 GPU 由 NVLink Spine 连接, 全互连带宽达到 130TB/s。
计算托盘中整合了 Blackwell GPU、Grace CPU、ConnectX-8 和 BlueField-3。 横向扩展运行在 Spectrum-4 以太网上。
随着三条 scaling law 全速推进——预训练、后训练、推理, 再加上智能体系统, 算力需求继续指数级增长。
现在轮到 Vera Rubin。
它为智能体 AI 的每一个阶段而设计, 推进计算的每一个支柱, 包括 CPU、存储、网络和安全。
Vera Rubin NVLink 72, 可提供 3.6 Exaflops 计算力, 260TB/s 的全互连 NVLink 带宽, 是推动智能体 AI 时代的引擎。
还有 Vera CPU 机架, 专门为编排与智能体工作流设计。
再加上 STX 机架, 这是一套 AI 原生存储系统, 基于 BlueField-4 构建。
横向扩展通过 Spectrum-X 与共封装光学实现, 提升了能效和韧性。
还有一个令人惊叹的新成员: Grok 3 LPX 机架。 它与 Vera Rubin 紧密连接, Grok 的 LPU 具有巨大的片上 SRAM, 会把本就极快的 Vera Rubin 再次变成 token 加速器。
两者结合后, 每兆瓦吞吐量提升 35 倍。
这就是全新的 Vera Rubin 平台: 7 块芯片, 5 套机架级计算机, 一套为智能体 AI 打造的革命性 AI 超级计算系统。
10 年之间, 算力提升 4000 万倍。
过去“美好的旧时代”, 我说 Hopper 的时候, 手里还能举着一块芯片。 现在想想,那真是可爱。
这就是 Vera Rubin。
当我们想到 Vera Rubin, 我们想到的是整套系统: 纵向完整整合, 软件端到端优化, 作为一个巨型系统整体设计。
它之所以适合智能体系统, 原因非常清楚: 最核心的工作负载就是思考, 也就是大语言模型。
而大语言模型会越来越大, 会越来越快地产生 token, 以便更快地思考。
同时它还要访问内存, 要猛烈地访问内存: KV Cache、结构化数据 cuDF、非结构化数据 cuVS。 它也会猛烈访问存储系统, 所以我们必须重新发明存储系统。
它还会使用工具, 而不像人类那样容忍慢电脑, AI 希望工具越快越好。
这些工具可能是浏览器, 未来也可能是云中的虚拟 PC。 这些 PC、这些计算机, 都必须尽可能快。
于是我们打造了一颗全新的 CPU, 专为超高单线程性能而设计, 拥有极高的数据吞吐、 极强的数据处理能力、 极高的能效。
它是全球唯一使用 LPDDR5X 的数据中心 CPU, 单线程性能和每瓦性能都无与伦比。
我们之所以做它, 就是让它能和其他机架一起, 为智能体处理服务。
这就是 Vera Rubin 系统。
和上一代相比, 现在全系统 100% 液冷, 所有线缆都消失了。
以前安装一套系统要两天, 现在只要两小时。
这太惊人了。 制造周期将大幅缩短。
它还是一套可以用 45 摄氏度热水冷却的超级计算机。 这会极大减轻数据中心压力, 把原本用于冷却的能耗和成本重新释放给系统本身。
这就是秘诀。
我们是全球唯一一家, 今天已经做到第六代纵向扩展交换系统的公司。 这不是以太网, 也不是 InfiniBand, 这是 NVLink。 而且是第六代 NVLink。
这件事极其困难。 我为团队感到非常骄傲。
接着是全新的 Grok 系统。 这是第三代 LPU, 而且现在已经量产了。
还有全球第一套 CPO Spectrum-X 交换机。 它也已经全面量产。 光模块直接封装到芯片上, 直接与硅接口相连。 电子转换为光子, 再直接进入芯片。 我们和台积电一起发明了这套工艺, 目前全球只有我们已经量产。 它叫做 COUPE, 完全是革命性的。
NVIDIA 现在已经全面量产 Spectrum-X。
然后是 Vera 系统。 它的每瓦性能是当今任何 CPU 的两倍, 而且也已经量产。
说实话, 我们从来没想过会把 CPU 单独卖成一个大生意。 但现在, 我们真的已经卖出了很多独立 CPU。 这肯定会成为我们一个数十亿美元规模的业务。 我为我们的 CPU 架构师感到非常高兴。 我们设计出了一颗革命性的 CPU。
然后是 CX9、 BlueField-4、 STX——我们的新存储平台。
这些就是整套系统机架。 每一个 NVLink 机架, 都通过这些方式连接起来。
我以前给大家看过这个机架, 它超级重, 而且似乎一年比一年更重, 因为里面的线缆一年比一年更多。
这是 NVLink 机架。 我们也把这种结构化线缆连接技术, 用到了以太网上, 因为它在数据中心建设中太高效了。
于是现在, 这是一套以太网机架: 一个机架里可以放 256 个液冷节点, 而且也使用这些惊人的连接器。
你们想看看 Rubin Ultra 吗?
这是 Rubin Ultra 的计算节点。
不像 Rubin 是水平插入的, Rubin Ultra 会装入一套全新的机架, 叫做 Kyber。 这样我们就能把 144 块 GPU 连成一个 NVLink 域。
这就是 Kyber 机架。
这个计算节点是垂直插入进去的。 它连接到中板上。 机架里的四个 NVLink 顶部连接器, 都会插到这个中板里。 这就成为其中一个节点。
而每一个机架, 都是不同的计算节点。
更神奇的是, 中板的背面, 不再是传统线缆系统。 铜缆在可驱动距离上总归有极限, 所以我们设计了这个系统, 来连接 144 块 GPU。
这就是新的 NVLink。 它也垂直安装, 连接到中板背面。
前面是计算, 后面是 NVLink 交换机。 一整台巨型计算机。
好的, 这就是 Rubin Ultra。
刚才我说过, 过去的计算机只是一块芯片公司卖的产品; 而现在, NVIDIA 已经从芯片公司变成了 AI 工厂公司、 AI 基础设施公司、 AI 计算公司。
我们现在建造的是整座 AI 工厂。
在这些 AI 工厂里, 有太多电力会被浪费掉。 我们希望确保这些 AI 工厂从一开始就以最佳方式设计。
因为这些组件大多数过去从来不会彼此相遇。 很多技术供应商直到进了数据中心才第一次见面。 这不行。
我们现在建的是极其复杂的系统, 所以大家必须先在另一个地方、以虚拟方式“见面”。
于是我们创建了 Omniverse, 以及 Omniverse DSX World, 一个让所有人都能在其中协同设计这些千兆瓦级 AI 工厂的数字孪生平台。
我们有针对机架的仿真系统, 用于机械、热、电、网络仿真。 这些仿真系统已经与我们生态合作伙伴的优秀工具整合在一起。
我们还让它们与电网连接, 使得彼此之间可以交换信息, 根据电网和数据中心状态动态调节功率, 节约能源。
而在数据中心内部, 通过 MaxQ, 我们可以动态调节系统中的电力、冷却等各种技术参数, 以确保不浪费任何一瓦电, 把系统运行到最优, 从而输出最大的 token 吞吐量。
我毫不怀疑, 这里面还有 2 倍提升空间。 而在我们所谈论的规模上, 2 倍是极其巨大的。
我们把这整个平台称作 NVIDIA DSX。
就像我们所有平台一样: 底层是硬件层, 上面是库层, 再上面是生态系统层。 完全是同样的结构。
下面给大家看一下。
人类历史上最大规模的基础设施建设, 已经开始了。
全世界都在竞相建设芯片工厂、系统工厂和 AI 工厂。 而每延迟一个月, 就意味着数十亿美元收入的损失。
AI 工厂的收入, 等于每瓦产生的 token 数。 所以在电力受限的情况下, 每一瓦未被利用的电, 都等于损失的收入。
NVIDIA DSX, 就是基于 Omniverse 的数字孪生蓝图, 用来设计和运营 AI 工厂, 最大化 token 吞吐、韧性和能效。
开发者通过多个 API 接入: DSX SIM 负责物理、电气、热和网络仿真; DSX Exchange 负责 AI 工厂的运行数据; DSX Flex 负责电网与工厂之间的动态安全功率管理; DSX MaxQ 则动态优化 token 吞吐。
一切从可仿真的资产开始, 这些资产来自 NVIDIA 和设备制造商, 由 PTC Windchill PLM 管理。
然后使用 Dassault 的 3DEXPERIENCE 进行基于模型的系统工程。
Jacobs 把数据接入他们自己的 Omniverse 应用中完成最终设计。
接着使用 Siemens、Cadence 等领先仿真工具测试: 外部热仿真、内部热仿真、电气仿真,以及 NVIDIA 的网络仿真器 DSX Air。
最后再通过 Procore 做虚拟调试, 确保建设时间尽可能缩短。
当工厂真正上线后, 数字孪生就会变成运营者。
AI 智能体与 DSX MaxQ 协同, 动态编排基础设施。 Fedra 的智能体负责冷却和供电系统, 持续向 MaxQ 发送信号, 不断优化计算吞吐和能效。 Emerald AI 智能体解释实时电网需求和压力信号, 动态调节电力。
通过 DSX, NVIDIA 与生态伙伴一起, 正在全球范围内建设 AI 基础设施, 确保极致的韧性、效率与吞吐。
是不是很不可思议?
Omniverse 从一开始, 就是为承载整个世界的数字孪生而设计的。 从地球开始, 它会承载各种规模的数字孪生。
所以我们拥有极其强大的合作伙伴生态。 非常感谢大家。 这些公司里的很多, 两年前我们根本还不认识。 而现在我们已经紧密合作, 共同打造世界上最大规模的计算机, 并且是在全球范围内建设。
所以, NVIDIA DSX, 就是我们的全新 AI 工厂平台。
关于这个部分, 我今天就只花很少时间了。
不过,我们也正在走向太空。 其实我们早就已经在太空了。 Thor 已经通过辐射认证, 已经用于卫星。 你可以在卫星上做成像。 未来, 我们还会把数据中心建到太空里。
当然, 在太空中没有传导、没有对流,只有辐射。 所以我们必须想办法在太空里给这些系统散热。 不过我们已经有很多优秀工程师在做这件事。
我们正在与合作伙伴共同打造一台新计算机, 叫 Vera Rubin Space 1。 它将进入太空, 在太空中开启数据中心。
接下来我想讲点新的东西。
Peter Steinberger 今天也在现场。 他写了一个软件, 叫 OpenClaw。
我不确定他当初有没有意识到, 这个东西会变得这么成功。 但它的重要性极其深远。
OpenClaw 是历史上最受欢迎的开源项目, 而且只用了短短几周就做到了。
它在几周内完成的成就, 超过了 Linux 30 年完成的规模。
它就是这么重要。 未来一定会大获成功。
它其实很简单, 你只需要输入一行命令: 它会自动下载 OpenClaw, 构建一个 AI 智能体, 然后你就可以告诉它接下来需要做什么。
大家来看一下。
一个开源项目刚刚发布。
Andrej Karpathy 刚推出了一个叫 research 的东西, 这是一件大事。
你给 AI 智能体一个任务, 然后去睡觉, 它会在一夜之间跑 100 个实验, 保留有效的, 淘汰无效的。
我真的很喜欢我的软件能让别人做到这些事。 有个人告诉我, 他是一个 60 岁的爸爸, 安装了它之后, 居然把一台啤酒设备通过蓝牙接上 OpenClaw, 把整个流程自动化了, 甚至还搭建了整套网站让人下单买龙虾。
现在已经有成百上千的人在排队使用 OpenClaw。
大家都在谈 OpenClaw。 但 OpenClaw 到底是什么?
不夸张地说, 现在已经有 ClawCon 了。
太不可思议了。
我刚才其实已经很直观地给大家展示了 OpenClaw 是什么, 但我们从技术角度再想一遍:
OpenClaw 是一个系统。 它会调用、连接大语言模型。 它管理资源。 它可以访问工具、文件系统、大语言模型。 它能做调度, 能做定时任务。 它能把你给它的 prompt 拆解成一步一步的任务, 还能生成子智能体去执行。 它有输入输出, 你可以用任何模态和它交流, 你挥挥手它都能理解。 它还能给你发短信、发邮件。
所以,它有 IO。 它管理资源, 能调度, 能沟通, 能调用工具。
如果你从这个角度看, 它其实就是一个操作系统。
我刚才描述它时用的那套词, 其实和描述操作系统完全一样。
OpenClaw 开源出来的, 本质上就是“智能体计算机的操作系统”。
就像 Windows 让个人计算机成为可能一样, 现在 OpenClaw 让“个人智能体”成为可能。
它的意义极其重大。
首先, 它的 adoption 本身已经说明一切。
但更重要的是: 今天,每一家软件公司、每一家技术公司, 每一个 CEO 都必须问自己一个问题:
你的 OpenClaw 战略是什么?
就像过去每家公司都必须有 Linux 战略、 都有 HTTP/HTML 战略(因为那开启了互联网)、 都有 Kubernetes 战略(因为那让移动云成为可能)一样, 今天每一家公司, 都必须有 OpenClaw 战略, 都必须有智能体系统战略。
这,就是新的计算机。
这也是最激动人心的地方。
过去的企业 IT, 大致是这样的: 大型机房存放文件、结构化业务数据。 然后软件系统、记录系统、工作流系统处理这些数据, 形成工具,交给人类数字员工去使用。
这就是旧 IT 行业: 软件公司做工具, 保存文件, 咨询公司帮助企业把这些工具集成起来。
这些工具在治理、安全、隐私、合规方面当然仍然很重要。
但进入 OpenClaw 之后, 格局就彻底变了。
未来, 每一家企业软件公司, 每一家 SaaS 公司, 都会变成“智能体即服务”公司。
毫无疑问。
OpenClaw 给整个行业带来的, 正是行业在此时此刻最需要的东西。
就像 Linux 出现得恰到好处, Kubernetes 出现得恰到好处, HTML 出现得恰到好处一样, OpenClaw 也给了整个行业一个可以抓住的开源栈, 让所有人都能在上面构建自己的东西。
当然有一个问题: 企业网络里的智能体系统, 可以访问敏感信息, 可以执行代码, 还可以对外通信。
光把这句话念出来, 你就知道它有多危险。
它可以访问员工信息、 供应链信息、 财务信息, 再把这些信息发出去。
这显然不能被允许。
所以, 我们和 Peter 一起, 找来了世界上最顶尖的一批安全与计算专家, 把 OpenClaw 做成了企业可用、 安全、 可私有部署的版本。
我们把它叫做: NVIDIA 面向 OpenClaw 的参考设计, 也就是 Open NeMo Claw。
这个参考栈里, 有一套名为 OpenShell 的技术, 现在已经被整合进 OpenClaw。 现在它已经具备企业级能力了。
你可以下载它、使用它, 并把全世界 SaaS 公司的策略引擎接进来。 这些策略引擎非常重要、非常有价值。
这些策略引擎接入后, NeMo Claw 或带有 OpenShell 的 OpenClaw, 就能执行企业策略。 它具备策略护栏、 隐私路由, 从而让企业可以安全地在内部部署 Claw。
我们还在智能体系统里增加了很多能力。 其中最重要的一项, 就是你可以拥有自己的定制模型, 这也就是 NVIDIA 的开源模型计划。
今天, 我们已经站在每一个 AI 领域模型的前沿: Nemotron, Cosmos 世界基础模型, Groot 通用机器人模型, Alpamo 自动驾驶模型, BioNeMo 数字生物学模型, Earth-2 AI 物理模型。
我们在每一个领域都站在前沿。
大家来看一下。
世界是多样的, 没有任何一个模型可以服务所有行业。
开源模型, 已经成为全球最大、最多样化的 AI 生态之一。 接近 300 万个开源模型, 横跨语言、视觉、生物、物理、自主系统等各个领域, 让开发者可以为垂直领域构建 AI。
NVIDIA 是全球最大的开源 AI 贡献者之一。 我们发布了六大类前沿开源模型, 同时还提供训练数据、训练配方和框架, 帮助开发者自定义并采用新的模型。
接下来, 每一个模型家族都会发布新的榜首模型。
核心是 Nemotron, 用于语言、视觉理解、RAG、安全和语音。 Cosmos 是面向物理 AI 的世界生成与理解模型。 Alpamo 是全球首个具备思考和推理能力的自动驾驶 AI。 Groot 是通用机器人基础模型。 BioNeMo 用于生物、化学和分子设计。 Earth-2 则用于天气和气候预测, 建立在 AI 物理学之上。
NVIDIA 的开源模型, 为研究者和开发者提供了基础, 让他们可以为自己的垂直领域构建和部署 AI。
我们的模型之所以对大家有价值, 第一,因为它们在排行榜上名列前茅, 是世界级的。
但更重要的是, 我们不会停下。 我们会每天持续投入。
Nemotron 3 后面会有 Nemotron 4, Cosmos 1 后面会有 Cosmos 2, Groot 现在已经到第二代。
我们会持续推进每一个模型家族。
纵向整合,横向开放, 让每一个人都能参与 AI 革命。
我们在推理、语音、世界模型、通用机器人、自驾、推理模型等排行榜上都位居前沿。
尤其重要的是: Nemotron 3 在 OpenClaw 里, 已经位列全球前三模型之一。
所以, 我们确实已经站在前沿。
当然, 我们也希望打造基础模型, 让你们可以在上面进行微调和后训练, 把它变成你们真正需要的智能。
这就是 Nemotron 3 Ultra。 它将成为这个世界上最好的基础模型。
它能帮助每个国家构建自己的主权 AI。
今天我们还宣布成立 Nemotron 联盟。 我们对此投入极大, 包括数十亿美元的 AI 基础设施投资, 既用于构建推理核心引擎和相关库, 也用于为每个行业打造所需的 AI 模型。
语言模型当然重要。 但对不同国家、不同垂直行业而言, 你还需要针对本地和本行业定制自己的模型。
而这些领域之间差异极大: 从生物学到物理学, 从自动驾驶到通用机器人, 再到人类语言。
所以我们有能力与全球不同地区合作, 帮助他们构建领域专属、主权 AI。
今天加入这个联盟的公司也非常令人兴奋: Black Forest Labs、 Cursor、 LangChain、 Mistral、 Perplexity、 Sarvam、 Thinking Machines……
这些都是非常优秀的公司。 感谢你们加入。
我刚才说过, 每一家企业软件公司、 每一家科技公司, 都需要一个智能体战略, 都需要一个 OpenClaw 战略。
他们都认同这一点。
所以他们现在都在与我们合作, 把 NeMo Claw 参考设计、 NVIDIA 智能体 AI 工具包, 以及我们的开源模型整合进去。
一家又一家公司, 实在太多了。
这是属于我们的时刻。 这是一次重塑。 这是一次企业 IT 的复兴。
今天这个价值 2 万亿美元的行业, 未来会变成一个多万亿美元级别的行业。
未来卖出去的不只是工具, 而是能够租用的、专门在某些领域非常擅长的智能体。
我完全可以想象, 未来我们公司里的每一个工程师, 都会拥有一笔年度 token 预算。
他们每年可能挣几十万美元薪水, 但我可能还会再给他们一半价值的 token, 让他们的生产力提升 10 倍。
当然我们会这么做。
这甚至已经成了硅谷招聘时的一项重要指标: 这个工作配多少 token 配额?
原因很简单: 每一个拥有 token 的工程师, 都会更高效。 而这些 token, 正是由你们和我们共同建设的 AI 工厂生产出来的。
所以今天的每一家企业软件公司, 都建立在文件系统和数据中心之上; 而未来的每一家软件公司, 都会是智能体公司, 都会既是 token 使用者, 也是 token 制造者。
他们为工程师提供 token, 也为客户制造 token。
OpenClaw 的出现, 怎么强调都不过分。
这件事的重要性, 和 HTML、Linux 一样大。
我们现在终于拥有了一套世界级的开源智能体框架, 可以让所有公司都去构建自己的 OpenClaw 战略。
而我们则构建了一套叫做 NeMo Claw 的参考设计, 它已经被优化过、 性能出色、 而且安全可靠。
说到智能体, 智能体会感知、推理、行动。
我刚才提到的大多数智能体, 都是数字智能体, 它们在数字世界中行动, 写软件、处理数字任务。
但我们其实也一直在做另一类智能体: 物理具身智能体。 也就是机器人。
它们需要的 AI, 是物理 AI。
今天这部分我们也有一些重大宣布。
现场有 110 台机器人, 几乎我能想到的所有机器人公司都在与 NVIDIA 合作。
我们为它们提供三台计算机: 训练计算机、 用于合成数据和仿真的计算机、 以及真正部署到机器人身体里的机器人计算机。
我们还有完整的软件栈, 以及用来帮助大家的 AI 模型。 而且这一切已经与全球生态系统集成在一起, 从 Siemens 到 Cadence,到处都有我们的伙伴。
今天我们还宣布了一批新的合作伙伴。
自动驾驶方面, 大家都知道我们已经做了很久。 而自动驾驶的“ChatGPT 时刻”终于到来了。 我们现在已经知道, 车辆确实可以成功实现自动驾驶。
今天我们宣布, NVIDIA 的 Robotaxi Ready 平台新增四家合作伙伴: 比亚迪、 现代、 日产、 吉利。
这四家每年总共生产 1800 万辆车。
再加上我们之前已经合作的奔驰、丰田、通用, 未来进入 robo-taxi ready 生态的车辆数量将非常惊人。
我们还宣布了与 Uber 的重大合作。 未来将在多个城市部署这些 RoboTaxi Ready 车辆,并接入 Uber 网络。
机器人方面, ABB、Universal Robots、KUKA 等众多机器人公司都在这里。 我们正与他们合作, 把物理 AI 模型与仿真系统整合进去, 以便将这些机器人部署到全球制造产线上。
卡特彼勒也在现场。 甚至 T-Mobile 也在现场。 原因很简单: 未来的无线电塔, 不再只是无线电塔, 而会变成 NVIDIA 的 Aerial AI-RAN。
所以未来这会是一座“机器人基站”。 它会理解流量情况, 调整波束成形, 尽可能节能, 同时尽可能提高信号质量。
这里还有很多人形机器人, 但我最喜欢的之一, 是迪士尼机器人。
大家来看一下。
物理 AI 的全球大规模落地已经开始了。 自动驾驶汽车就是第一个大规模案例。
有了 NVIDIA Alpamo, 车辆现在具备了推理能力, 可以在各种场景中更加安全、更加智能地运行。
我们可以让车讲出自己的动作: “我正在向右变道,以跟随我的路线。” 也可以让它解释自己的思考: “我的车道里有一辆双排停车的车,我正在绕过它。” 还可以让它听懂指令: “嘿,奔驰,能开快点吗?” “好的,我会加速。”
这就是物理 AI 与机器人时代。
全世界的开发者都在构建各种各样的机器人。 但现实世界极其多样、不可预测,充满边界情况。 真实世界数据永远不够覆盖所有场景。
所以我们需要由 AI 和仿真生成的数据。
对于机器人来说, 计算力就是数据。
开发者会先用互联网规模的视频和人类示范数据, 预训练世界基础模型, 再评估模型表现, 为后训练做准备。
然后通过经典仿真和神经仿真, 生成海量合成数据, 大规模训练策略模型。
为此, NVIDIA 构建了开源 Isaac Lab, 用于机器人训练、评估与仿真; 构建了 Newton, 一个可扩展、GPU 加速的可微物理仿真系统; 构建了 Cosmos 世界模型, 用于神经仿真; 还构建了 Groot 开源机器人基础模型, 用于机器人推理和动作生成。
只要有足够算力, 全球开发者都能弥补物理 AI 的数据缺口。
很多公司已经在这样做: 在手术室助手机器人、 通用机器人、 类人机器人、 工厂机器人等方面, 他们都在用 Isaac Lab、Cosmos 和 Groot。
迪士尼研究院则使用他们的角色物理模拟器, 结合 Newton 和 Isaac Lab, 在不同角色机器人上训练策略。
然后, 奥拉夫登场了。
“奥拉夫,怎么样?” “我现在见到你太开心了。” “我知道,因为我给了你你的电脑——Jetson。” “那是什么?” “就在你肚子里。”
“太棒了。” “而且你是在 Omniverse 里学会走路的。” “我太喜欢走路了。这可比坐在驯鹿上看天空好多了。”
正是因为使用了 Newton 求解器, 而 Newton 又运行在 NVIDIA Warp 之上, 并且是我们和迪士尼、DeepMind 共同开发的, 你才能适应现实物理世界。
“不过我得承认, 我本来以为你会更高一点。 说实话,我从没见过这么矮的雪人。” “才不是呢。” “那要不要来帮我一起结束今天的演讲?” “太好了。”
通常我会自己总结这场 keynote, 告诉你们今天讲了什么: 我们讲了推理拐点, 讲了 AI 工厂, 讲了 OpenClaw 引发的智能体革命, 也讲了物理 AI 和机器人。
不过今天, 不如让一些朋友帮我们一起收尾吧。
“结束模拟。”
“有人在吗?”
主题演讲结束了,该说的都说了。 Jensen 勾勒出了前路: AI 工厂正在苏醒, 智能体开始学会驾驶, 从开源模型到机器人, 现在我们来一起拆解这一切。
算力爆炸了。 从 CNN 到 OpenClaw, 智能体开始在世界各地工作。 但它们需要算力去满足需求, 于是我们看到了问题,也看到了答案: 我们把算力提升了 4000 万倍。
曾几何时,训练还是主旋律。 而如今,推理才真正驱动整个世界。 Blackwell 让 token 高歌, NVIDIA 成了推理之王。
过去建工厂要很多年, 供应商一点点把设备拼起来, 没有明确的扩展方法。 而现在,DSX 和 Dynamo 知道该怎么做: 把电力直接变成收入。
过去智能体只是观察, 现在它们开始自主行动。 但如果它们想偏离轨道, 安全的 Claw 会说:不行。 NeMo Claw 守住边界, 而且,没错, 它还是开源的。
会思考的汽车, 会奔跑的机器人。 这已经不是电影了, 它真的开始了。 Alpamo 正在做决定, 这是机器人的 ChatGPT 时刻。 从仿真街道开始, 现在看它们真正上路。 为物理 AI 鼓掌吧。
工业时代曾经建造了旧世界, 而现在我们在为 AI 建造一个更大的世界。 Vera Rubin 加上 Grok, 让推理真正喷薄而出。 把它们放在一起, 就像下起了现金雨。
我们每年都在建新的架构, 因为智能体不断高喊: “更多 token,快点!”
AI 栈是为所有人而造的, 所以让我们一起享用这块“五层蛋糕”。
此刻光明, 前路清晰, 因为开源模型把我们带到了这里。
当数据不足时, 我们不会争论, 我们会用算力生成更多数据。
机器人在持续学习, 四条 scaling law 正在被不断推动。
未来已经来了, 欢迎来到 GTC。
好了,祝大家 GTC 愉快。
谢谢大家。
My Opencode Workflow As A Senior Engineer
https://www.youtube.com/watch?v=UhRGHr7pgnU
11个月前,Anthropic 的掌门人 Dario 说,再过 3 到 6 个月,AI 就会写掉软件开发者负责的 90% 代码。现在真的到这一步了吗?
他说那话的时候,我是第一批站出来质疑的人。我觉得那更多是站在他的立场上的发言,带点戏剧性,戏剧性才有新闻价值。不过话说回来,11个月在 AI 的发展速度里,几乎像一个时代那么长。
当时我并没有让 AI 替我写代码。让它辅助一下,当然可以;做一些小而可控的功能,也完全没问题。但到了今天,我不仅已经让一支“AI 工程师团队”去处理复杂任务,我自己也已经基于 Open Code 搭建了这样一套体系,包括各种技能和其他能力。而在我看来,Open Code 是目前最强的编程智能体。
我频道里之前有一期视频讲过它的基础内容,但那已经是 6 个月前了。从那以后,Open Code 成熟了太多。现在你可以控制子智能体,跟踪它们的工作,安装技能,通过 motions 精细控制整个系统,把它接进 GitHub,使用图片,甚至还能这样操作。我以前从没想过自己会拿着 iPad 来写代码。如果这还不够,你再看看 AJ,已经很随意地在自己的网站上跑 Open Code 了。
别急,这期视频里我会把这些都讲到,具体说说我在 2026 年是如何在工作中使用 Open Code 来维护开源项目、以及经营副业的。开始吧。
凭借超过 10 万颗星,Open Code 已经成了编程智能体领域事实上的领头羊。它早就不只是一个终端里的编码工具,而是一整套系统:可以作为完整的图形界面运行,也能在网页上运行、在你的 IDE 里运行,当然也能在终端里运行。
不过,和很多大项目一样,它的起点也伴随着一场小型风波。
Open Code 最早是一个终端 AI 智能体项目,由一位开发者利用业余时间做出来。后来 Dax 和 Adam 这两位知名开发者加入,帮助推进项目,甚至还拿下了 opencode.ai 这个域名。Charm——一家以终端开源项目闻名的公司——对它产生了兴趣,并向他们三个人都提供了职位,基本上就是想把他们整个团队并进公司。最初的开发者同意了,而 Dax 和 Adam 拒绝了。他们说,他们希望 Open Code 保持原来的样子:保持开放,不接受风投资金。因为一旦有了 VC 背景,通常就会走向某种商业化,而那未必会始终把用户利益放在第一位。
长话短说,这场争议主要围绕“名字”展开。Dax 发了一条推文,阐述他对整件事的看法,说他和 Adam 并不在乎原来的代码,实际上他们已经从头重写了 Open Code。随后,Charm 的 CEO 也发文回应,讲了他们的版本。如果你想看社区怎么看,去看看评论区就行,相关链接都在下面。
还是长话短说:Charm 的那个智能体项目——说实话,它本身也很漂亮——现在叫 Crush。如果你挖得够深,还能在提交历史里看到 Dax 和 Adam 的提交记录。
好了,撇开这些风波不谈。Open Code 之前是 SSD 旗下的一个副项目,现在已经归入一个更大的体系 Anomaly,旗下包括 SSD、Open Code、OpenAuth 和其他一些项目。它们背后有 Y Combinator、PayPal 联合创始人之一 Max Levchin 等人的支持。某种意义上,这确实还是把风投资金带进来了,只不过开发者的控制权似乎更大,而不是被并入一个他们自己做不了主的体系里。这一点我还是认可的。
但我们来这里不是聊八卦的,是来干活的。
这个开源智能体可以接入任何模型,安装方式也很自由。随着新功能不断加入,它现在还会推荐一些运行方式,我非常建议你试试,比如 WezTerm 或 Ghostty。你很快就会明白为什么。看到 miz 这种新的运行方式也越来越流行,我觉得很不错,它是 Open Code 的另一种运行选项。
后面我会详细讲配置,但不出所料,既然是这个团队做的,它几乎可以完全自定义:通过 open code 的 JSON 配置文件来调整,既可以针对某个项目,也可以做全局配置,甚至还能通过环境变量覆盖。我就先不讲安装过程了。
当 Open Code 准备好后,你会看到一堆有意思的选项,从 ACP、MCP,到 create——一个挺酷的小向导,会一步一步帮你搭建智能体。还有把 Open Code 作为无头服务运行、启动网页版实例、查看所有历史使用统计,以及很多其他有趣的功能,后面都会看到。
好了,正式开始。
Open Code 会启动一个 TUI,并把当前路径的上下文带进去,让它在终端里以一种视觉化的方式嵌入。把主题调一下之后,基本就齐活了。接下来你大概最想做的事,就是选一个模型。
我这里有 Claude,通过 Zen 和 Anthropic 接入,另外也有其他模型。但更有意思的是一个叫 Big Pickle 的模型,这是 Open Code 自家的模型,目前可以免费使用。如果你能接受它拿你的数据训练,我现在正把它当成我的开源机器人来用,后面我会演示怎么弄。
另一个值得一提的免费选项是 Miniax。按照 Anthropic 的说法,它本质上是个中国大模型,简直像在从 Claude 身上“吸数据”,你自己判断吧。
顺便说一下 Zen,给那些没看过我第一期视频的人解释下:Zen 是 Open Code 的路由器。你只需要绑一次信用卡,就能访问一整套经过测试和验证的模型。用团队自己的话说就是:如果你受不了 Claude 疯狂消耗你的 token,那就切到 Codex、Gemini,或者几十种别的模型。要是你够爱折腾,像这位老兄一样,也可以试试 Kimmy。他甚至说,在他做的大部分工作里,Opus 比 Kimmy 还慢。
总之,我们有点跑题了。选好你的模型,或者选 Zen,然后继续。
还有个重要信息:Open Code 并不打算靠 Zen 赚钱。他们只按成本收取信用卡手续费,不额外加价。每当你的余额低于 5 美元,他们就会自动给你再充 20 美元。而如果你用的是 Claude,这种充值可能每小时都来一次。天啊,我真希望我是在开玩笑。
模型选好之后,你就可以开始和你的智能体交互了。每个会话都会被保存下来,你可以用 /sessions 在历史记录里找到它们。最近一个很重要的变化是,会话存储方式从原来的 JSON 切换成了完整的 SQLite 数据库,所以现在在搜索、筛选和切回历史会话时,体验比以前快了太多。
顺带一提,这个数据库你也可以通过运行 open code db 来访问。除非你打算基于 Open Code 再开发东西,否则我也不太确定你为什么会用到它。默认情况下,这个数据库会保存在本地的 share/Open Code 路径下。
一个会话会保存整个历史记录、上下文窗口、当前使用的模型,以及其他所有状态,就像你从来没离开过一样。我自己一直在用这个功能,通常只有在处理一个和之前工作完全无关的新功能时,才会新开会话。
接下来进入 Open Code 的第一个主要构件,也是最重要的概念之一:智能体。
Open Code 有两类智能体:主智能体和子智能体。你已经见过其中两个主智能体了:plan 和 build。它们本质上的区别主要在权限上。plan 只能读取和做规划,哪怕你命令它执行,它也不会真的执行。
在上一期视频里,或者其他很多视频里,你可能看过一些人把智能体玩得很夸张:什么 builder、deep builder、营销人员、销售人员……如果你觉得我在开玩笑,那我对这类说法的信任程度,大概就和我相信 OpenAI 是在让世界变得更美好差不多。可现实是,真的有人在试图搭这种离谱的东西。在我看来,这完全说不通。不仅很多时候只是空架子、空文件而已,虽然我自己也做过一些小规模尝试,但我确实觉得“分工”本身是有价值的,只是很多人已经玩过头了。
我自己只保留了 plan、build,以及另外一个能解决复杂工作的大型智能体,用来处理大功能和那些确实需要更稳健结构化系统的任务。
子智能体则是更专门化的那种,可以在后台被调用来执行特定任务。Open Code 自带两个:general 子智能体可以执行操作,而 explore 主要用于阅读和探索。你只要输入 @,就可以调用或标记你需要的子智能体。你既可以直接在提示里调用,也可以在主智能体的指令中让它去调度这些子智能体。
文档里的例子展示了 build、plan 和一个 code review 子智能体。这个 code review 子智能体不能写代码,但它会按照设定的说明重点审查安全性和性能。
配置这些智能体的路径在 ~/.config/open code。你会在这里看到很多目录,比如 agent、command、skills。最简单的方式是直接打开 open code JSON,在里面配置好。重启之后,你就会看到新的代码审查智能体,可以随时调用。
为了让这个代码审查子智能体更有意思一点,我还配合了一个我之前分享过的工具 GH Dash,用来预览 PR。我设置了一个快捷键,它会新开一个 Tmux 窗口,用 Worktree 拉出一个工作树——这个我频道里也有视频可以看——然后启动 Open Code,附带一个提示词;或者你也可以直接运行它,让代码审查智能体去干活。这类自动化真的会让你产生一种“自己快要被取代了”的感觉。
同样地,除了代码审查员,你还可以加别的角色,比如安全工程师。然后你甚至可以让代码审查员把安全相关的任务再委派给那个安全工程师。
这就引出了真正有意思的部分。说实话,这也是为什么我觉得加入一个安全工程师更有意义。
你看,我们构建的每一个智能体,迟早都要用到凭证、API Key、Token、数据库密码之类的东西。问题就在这里:大多数人只是把这些密钥塞进环境变量或者配置文件里,然后就当事情结束了。但这其实是一个巨大的安全隐患。
想想看:如果你的机器被偷了;如果某个密钥不小心进了公开仓库;如果有人通过社会工程学的方式进入了你的 CI 流水线;那基本就完了。静态密钥会一直有效,而它对应的访问权限也会一直存在。
这就是 Dscope 发挥作用的地方,也是我为什么要把它集成进 Open Code。
它不是用静态密钥,而是用所谓的 JIT,也就是“即时令牌”。你的智能体请求访问权限,Dscope 会先验证你的身份,然后签发一个短时有效的令牌,这个令牌几分钟后就过期了。这样一来,围绕智能体安全性的整个讨论都变了。我们在构建各种强大的子智能体和技能,但如果它们随身带着永久有效的密钥,那无非就是创造出更多攻击目标而已。
所以,当你添加安全工程师这个子智能体时,也把 Dscope 一起配上。未来的你一定会感谢现在的自己。
如果你真想自己构建一个智能体,可以运行 open code agent create。它会弹出一个向导,先问你这个智能体是做什么的,然后你可以交互式地设置权限,再定义它是主智能体、子智能体,还是两者兼具——既可以作为主智能体独立运行,也可以被你之后手动标记调用并委派任务。
生成出来的结果很漂亮:它会成为一个独立文件,是一份完整的指令方案,里面有示例、原始原则的上下文、指导规则、边界情况,以及你期望的输出形式。
不过先别太激动。说到底,这并不是一个真正经过专门训练、会严格按要求做事的模型。它本质上只是某种形式的提示词注入,而它的质量完全取决于你自己。即便你写得很完整、很高质量,再加上各种规则和说明,真正能阻止智能体偏离剧本的,除了权限设置,也没别的了。而它绕开约束自己乱来的情况,我已经不是第一次遇到了。用的时候一定要小心。
那为什么还要考虑这种方式?
后面我会细讲,但简单说,拆分是有意义的。第一,它可以减少幻觉。任务越具体,模型犯错越少,表现也越好。所以子智能体是拆解任务和说明的一种很好的方式。第二,它更容易追踪。你很快就会看到,作为用户我们看到的主线程其实是父智能体,而不是那些子智能体本身。
这也带我来到下一个重要概念:skills,也就是技能。这是编程智能体里相对较新的东西,在 Open Code 里尤其如此。
一开始打开 skills 时,你会发现里面是空的。我这里已经加了几个。第一个也是最关键的一个技能,就是赋予你的智能体自主定位并安装技能的能力。另一个办法,是去 skills.sh 之类的列表里找,里面有成千上万种为不同任务构建的开源技能。不过要注意,里面垃圾也很多。
还有一个叫 SkillMP 的东西,是 Manis 做的,看起来像是个元公司平台,号称已经有接近 50 万个技能可用。是的,我知道我听起来有点针锋相对,但这种 AI 技能指数级爆发的增长,确实很像是 AI 自动生成出来的 AI 技能。
如果你真要选,最好还是从可信来源开始,比如 Vercel。拿到 npx 命令之后,跟着向导走,系统会问你这个技能是否针对某个特定模型或供应商,是全局安装还是项目级安装,等等。安装完成后,你就可以调用这个新技能了。比如我们这里的例子,就是让它自己去搜索和安装技能。
如果前面还不够明白,那我再说得直白一点:所谓 skills,不管前面解释得多复杂,本质上也只是另一种形式的提示词注入。不同的是,它们不会像提示词或者 agent 的 markdown 文件那样,被固定塞进每一个上下文窗口里。它们是按需启用的。不碰 AWS,就没必要加载 AWS 技能。它们更像是帮助你引导、连接、使用其他工具的模块,并且可以附带脚本和代码示例。
比如这里有一个 DevOps 工程师技能,它包含一个 skill markdown 文件,里面给了名称和文本说明。它还引用了其他文件,比如 GitHub Actions、Kubernetes 之类的内容。但说到底,这些本质上还是代码参考和一些说明文字,智能体其实自己去网上搜,大概率也能找到。
我最喜欢这些技能的地方,在于别人已经替你做了那部分“构造指导规则和专用说明”的工作。所以如果你想要一个 Jira 技能,它里面可能已经把认证方式、接口端点,以及用于查找你的看板和任务的脚本都准备好了,这确实会让事情轻松很多。
顺便说一句,这个所谓的 DevOps 工程师,确实帮我发现了我在私人账户里哪些地方花钱太多。等它跑完我们再回来看看。
趁这个空档,我们聊聊另一个我特别喜欢的话题。作为一个自豪的 NeoVim 用户,那当然就是快捷键。
先说一个熟悉的概念。你在 Vim 和 Tmux 之外其实看不到太多变化,但依旧有一个 leader key。我把它改了个模式,避免和现有配置冲突。现在我把它改成了 Ctrl+O。虽然不算完美,但对我来说够用了,而且我其实也没那么频繁用它。
我最喜欢用快捷键做的一件事,就是通过 Open Code 打开编辑器。提示框当然也能用,但在里面换行、列清单,体验都不太好。按一下 Leader+E,啪,我的提示词就进到 NeoVim 里了。终于,我可以像个人一样编辑文本,还能保留一点尊严,直到 AI 把这点尊严也拿走。写完保存,它就会被送回输入框里。
好了,该组建团队了。
但在这之前,我得先说明一下:这还只是测试模式。这是我目前本地的工作方式,但我一直在持续优化。事实上,我觉得这才是和智能体协作的唯一靠谱方式:不断修正它们,并通过调整提示词、技能和设置,让它们“记住”你刚刚做出的修改。
接下来你会看到的是一个非常初级的实现:我配置了一组智能体,让它们去协作完成我应用里特别大型的功能。这只是个最初版本,现在我已经把它做得比你眼前看到的更进一步了。不过我们先看这个版本,优缺点后面再讲。
于是我决定测试一支我认为任何团队都需要的“自动化工程师小队”。我搭了一个 team lead,负责协调和分派任务。拜托,不要像我一样,直接把它们一股脑塞进一个长得离谱的 JSON 文件里,请用 Open Code 自带的 agent builder。这里我只是为了展示它能做到什么。
在 team lead 的提示词里,我告诉它,它的职责是收集需求,并且持续把任务委派出去。具体怎么做呢?我加了一个产品经理,只负责阅读、探索和理解用户故事;一个后端开发,这个不用解释;一个测试工程师,也可以叫 QA;最后,我们还会继续用之前的代码审查员,让审查职责保持独立。
下一次我运行 Open Code 时,这个 team lead 就已经准备好上岗了。你马上就能感觉到,整个请求处理过程变得更有结构了。
在它工作的时候,也顺带提一下另一个开源智能体团队项目。它是基于 Open Code 构建的,叫 Open Agents Control。它号称采取了更严肃的方式:先计划,再执行,并且设置了零提问的人类关卡。怎么说呢,我还是更倾向于先亲眼看看事情怎么发展,再决定要不要完全交给它们去做。
回到我们的团队。你可以通过 leader 加方向键深入查看子智能体的工作,这会展示一些我以前几乎没见过的内容,比如产品经理画出来的用户流程图、后端开发做出的代码改动。看 team lead 让产品经理澄清需求,再实时观察代码审查员和测试工程师并行工作,体验其实挺不错的。
你也经常会看到某个智能体主动发问。比如这是另一个我正在尝试接入的技能,它能帮助我处理书面内容,会先了解我想要什么、我的偏好是什么,从而为以后的请求做配置。再比如另一个负责开发功能的智能体,在开始真正实现之前,会先回来问我具体想要什么,确认和我的偏好一致。
好,现在我们有了一个团队,简历都能直接挂 LinkedIn 了。但它到底值不值?
老实说,当我在做大项目时,这种结构确实很有意义。我已经用了几周,整体上大概有 95% 的时间都还不错。当然,它绝不完美,错误还是有的。至于它到底算不算一种划时代的工作方式,我还需要继续往前试。
对我来说,秘诀就在于不断调整这些子智能体——每个都有自己独立的 markdown 文件——并持续确保它们和我的工作方式保持一致。
那为什么要费这个劲,用子智能体,而不是只用主入口的一条线程?通常来说,按组件拆开之后,每个部分的表现都会更好,这其实很合理。除了提示词和各自的上下文之外,仅仅是这种“隔离”本身,就已经完成了很多工作。
当然,这并不总是优点。第一,它会消耗很多 token。如果说明文件很大,成本会更高。所以那些不是特别巨大的新功能,我通常还是让主 build 智能体去干。第二,来回浏览这些子智能体,想搞清楚它们到底做了什么、哪些改动是从哪来的,也并不总是那么愉快。看着很酷,但你也得记住,大多数时候保持简单可能更好。
还有一种对某些人来说更简单的方式,就是在你最舒服的环境里运行 Open Code。
Open Code 的 NeoVim 插件很流行,它允许你在一个正在运行的 Vim 会话里直接调用 Open Code。我以前用过,而且你应该也很熟悉的那位博主也把它作为自己工作流的一部分。但现在我已经不觉得那样舒服了。
另一种运行方式是网页版,而这一下子打开了很多新的可能性。它会在本地端口启动服务,然后你可以用类似 ngrok 这样的工具把它暴露到外面,这样你就能拿着 iPad 远程访问。里面有最近的会话、代码改动,以及你能想到的各种东西。我可以翻会话历史,甚至躺在沙发上,iPad 放腿上,继续干活。好吧,某种意义上算是在干活。
既然我都已经坐在沙发上了,那与其自己去翻 GitHub 上那些细碎的技术问题,不如让 Open Code 代劳。GitHub 集成可以通过 open code github install 命令启用,它会添加一个由平台触发的 Action。经过一个简单的授权流程后,你就能看到新的 Action 已经就绪,只要在评论里输入 /oc 或 /open code 就能触发。
一旦配置完成,你就可以在任何讨论里让 Open Code 参与进来,让它发表看法、做审查,或者干脆做任何你想让它做的事。它会先加一个表情,表示自己已经看到请求并开始处理了。过一会儿,你就会看到一份审查结果,里面有它的想法、发现的问题,甚至还附带这次会话本身,方便你深入追踪。
在结束之前,我还不能不提 GUI。它是一个完整的原生应用。虽然我不确定文档里有没有正式列进可选项列表,但它目前还在 Beta 阶段,实际用起来却非常稳定。你可以打开一个会话,像在网页版里那样继续工作,同时还多了一些很实用的小增强,比如当有智能体等待你回应时,会有声音提醒和明显的系统通知,里面甚至还集成了终端,就像一个 IDE 一样。
所以,大概这就是现在的状态了。
在收尾前,还要提一个非常棒的功能,这也是为什么我一开始让你等等,看看为什么 WezTerm 或 Ghostty 在这里这么重要——那就是图片共享能力。现在你已经可以把一张图片直接拖进终端里的 Open Code,让它读取图片内容,比如需求列表、主题、想实现的风格,或者任何视觉素材。这个能力让 Open Code 真正成了一个几乎随时随地、什么都能处理的智能体。
所以现在的问题已经不是“Open Code 会不会留下来”,而是它已经深度嵌入了我做的每一件事。我觉得它更好用、更简单、更灵活,在配置和可用性方面都非常强。我甚至都还没讲到围绕它形成的实时生态、相关项目,以及其他很多很棒的东西,为了控制篇幅我都先略过了。
但你已经能看出来了:不管是在我的 iPad 上、GitHub 上,还是笔记本电脑上,它无处不在,而且干得相当出色。
如果你喜欢我这种使用方式,尤其是 Work Trunk 如何在处理 PR 和 issue 时把它唤出来,我非常推荐你接下来去看看 Work Trunk Next。那个项目让 Work Tree 真正变得像“树枝”一样自然,也非常适合现代智能体时代。
感谢观看,我们下期见。
Opencode Is Probably The Best Coding Agent I’ve Ever Used
我对 AI 是又爱又恨。
这也是为什么这次这个东西很特别。 我对那种被吹得天花乱坠的 LinkedIn 帖子几乎毫无耐心,很多可能还是 AI 自己写的。 但每次有重大发布,我还是会有那么 10 毫秒的兴奋。 说实话,到现在一听到“氛围编程”这种词我都发毛。 可我私下里还是会用 AI 写点代码、做做头脑风暴。
不过,当你发现有一个 100% 开源、0% 绑定任何平台、基于终端的智能体,而且还是由 Neovim 用户、由那帮整天泡在 SSH 咖啡馆里的人做出来的时候,我的反应就是:这东西不一般。
它叫 OpenCode。 别跟另一个同名的 OpenCode 搞混了,就是那个后来停更、又阴差阳错变成别的东西的项目。这个我们后面再说。 现在这个真正的 OpenCode,完全符合我刚才说的那些特征,而且还远不止如此。
你可能会问,那和 Cloud Code、Codex 或其他基于模型的工具相比呢? 简短回答是:你可以用任何模型。 而且我说的“任何”,真的是有一长串模型可以选。 这个工具真正关注的是你的使用体验:界面、主题、自动加载 LSP、并行模型。 甚至你还可以一键把会话分享给团队。
但比这些更酷的是它的内部模型路由器,叫 Zen。 它能通过一次付费,帮你找到最新、同时也更划算的模型,而且他们自己完全不从中赚钱。 Zen 另一个非常关键的点是支持按量付费。 我之前给 Cursor 每个月交 20 美元,交了大概 6 个月,可能有 80% 根本没用到。 那我们拿个更接近的来比,比如 Cloud Code,每个月 17 美元,要么接受,要么别用。 但用 Zen,我只为自己实际使用的部分买单。
它会在本地跑一个服务,这一点在访问你本地文件时非常关键。 不像 Devin 或 Codex 那样跑在云端,它的使用体验真的很好。 下面我们就来看看。
在深入之前,先说说什么叫智能体。
“Dax,什么是智能体?大家都在问。”
老实说,我也不太知道。
不过认真讲,智能体其实就是一个循环:它不断和大语言模型对话,围绕一个任务反复迭代,直到触发中断条件,比如需要人工介入,或者任务的所有步骤都完成了。
也可以简单理解成: 智能体 = 大模型 + 工具。
你可以把它想象成一个 while true 循环。
不断根据任务说明迭代,直到需要更多权限,或者任务完成。
当你提供这些权限,不管是一次性全给,还是它请求时你再手动给,你其实就在运行“智能体模式”了。
这个过程最大的风险就是上下文窗口有限。
而 OpenCode 对这个问题有个很酷的解决方案,Codex 和 Claude 这些工具后来也都用了类似做法。
我们来看实际效果。
这些人拿下了一个很棒的域名:OpenCode AI。 正如名字所示,而且和这个领域里的其他玩家不同,它是开源的,托管在 GitHub 上,非常受欢迎,而且确实有充分理由。
你可以用 curl 跑安装脚本,或者用你喜欢的任何方式安装。 装好以后直接启动 OpenCode。
默认主题挺显眼的,我倒不是讨厌它,但它和周围的终端主题并不算特别搭。
所以输入 /themes,就会弹出一长串主题供你这种“审美讲究的人”挑选。
而我照例还是选 Catppuccin。
如果你还没加任何模型,默认模型是 Grok Code Fast。 它目前是免费的,因为他们现在在收集数据做模型训练。 你可以直接开始和它聊天。 界面里那些黑框并不是回复内容,而是大模型输出的思考步骤。 不过也有人纠正我说,其实我是在和 OpenCode 对话,而不是直接和 Grok 对话。 OpenCode 团队这点做得确实不错。
接着我们来调整下一个视觉元素,也就是这些“思考块”。
输入 /thinking,或者滚动到对应选项,把它关掉。
之后的新消息就会变成简洁回复。
基础设置差不多了。 接下来该上强度,给 OpenCode 装上 Zen。
Zen 就像一个模型路由器,里面的模型都是 OpenCode 团队测试和认可过的。 他们会确保你拿到的是最新、最强的模型,并且直接帮你更新到位,你连手指都不用动一下。 而且 OpenCode 也不会从这个流程里赚钱。
你绑定信用卡后,系统会根据你的用量定期充值 token,价格按模型提供方的原始成本来算,只加一点支付处理费用。 说实话,这种服务我其实愿意额外付费。 所以,感谢 Dax 和 Adam。
它的使用流程是这样的:
你先登录,添加信用卡,创建一个 API Key,然后运行 opencode auth login,再选择一个 provider。
为了让你看看除了 Zen 之外已经接入了多少 provider,这里会显示一长串可选项。 我还是回到 Zen。 团队也推荐要么直接用 Zen,要么直接接 Claude。
选好之后,填入 API Key 就完成了。
然后输入 /models,你就能看到通过 Zen 可用的模型列表。
我现在用的是 Sonnet 4.5,因为它基本可以说是当前最新最强的了,至少在未来 24 小时内是这样。
当然,如果你愿意相信 AI 公司自己做的基准测试,说自己比别人都强,那也行。
不过至少在编程任务上,这个模型看起来确实很能打。
至于 Grok,奇怪的是这里没有。 原因嘛,大概是因为他们那些基准测试几乎都在测 Python。
“SweetBench 这个基准本质上就是纯 Python。 根本没有哪个基准会说:在相同提示词、相同代码库下,哪个模型完成得最好。”
如果想退出这个界面,可以按两次 Ctrl+C,或者直接输入 exit。
这样我们就能带着项目上下文来打开它。
你其实不一定非要在命令后面跟一个点号。
但如果你想让 OpenCode 获取另一个路径下整个项目的上下文,也可以在命令后面直接加那个路径。
这时候我们就可以开始干点真正的活了。 比如先做一个项目总览。 不到一分钟,它就能给出这个项目的架构、产品目标和技术栈。 而且这个代码库还不小,是我已经维护了好几年的一个项目。
不过有一件事很重要:
任何项目在交给 AI 之前,最好先有一个 agents.md 文件。
这是一个通用说明文件,用来帮助智能体理解项目中的规则、禁忌和其他指令,相当于给它一点监督。
要生成这个文件,OpenCode 提供了 /init 命令。
它会读取项目文件,理解代码约定、常用方法和工具。
你会发现它还会尝试读取其他常见文件,比如 Cursor 的规则文件、相关目录,以及 Copilot 的说明。
然后它会不断迭代,直到把最终产物写出来。
最后你就会得到一份智能体指南。
第一次启动 OpenCode 时,你会在右下角看到一个智能体类型。
默认主要有两个:build 和 plan。
按 Tab 可以在它们之间切换,后面你还可以加更多。
这两个大致对应两种模式: 一种可以访问文件、修改文件、添加内容; 另一种则是只读模式,只能读代码和做头脑风暴,不能动任何东西。
如果你让 plan 智能体去修改代码,它不会做;
但 build 当然可以。
它们的区别就这么简单。
而我强烈建议你做的是:添加你自己的智能体。 不仅能给它专门的提示词,还能单独调整温度、输出详细程度,甚至指定独立模型。
看官方文档的话,它建议用 opencode.json 配置文件。
不过其实有个更干净的方案,就是直接用带标题结构的 Markdown。
你可以为不同智能体配置不同文件,甚至把权限细化到某个具体工具级别。
例如你可以配置一个“深度思考者”,用 GPT-5,高强度推理、低冗长输出,不需要多余提示,直接依赖上下文。 还有一个我经常用的是“邮件回复助手”,帮我起草和回复邮件。
现在我知道这里有很多 Markdown 的 LSP 警告,主要是因为行太长。
与其忽略这些,不如直接让 OpenCode 帮我们修掉,正好当作第一个任务。
确认当前启用的是 build 智能体,然后让 OpenCode 根据 LSP 警告修复所有问题。
顺带一提,OpenCode 自带一组内置语言服务器。 Markdown 并不在其中,所以第一次迭代没能完全修好也就不奇怪了。 但继续要求它处理下去,它最终还是把这些错误清理掉,并产出一个更干净、更易读的版本。
要访问这些智能体,我们前面提过可以用 Tab。
不过你也可以输入 /agents,然后在一个支持模糊搜索的列表里选择。
比如你可以选一个邮件助手,让它帮你起草一封邮件,去问某个服务商他们的 MCP server 情况。
不过今天我们不是来聊邮件的。
前面提到过,你可能还想调整一下温度参数。 默认是 0.1,这会让模型更确定、更收敛。 而更高的值,比如 0.8,则会提高创造性和随机性,或者说给模型更多自由度。
我们前面已经说了很多 OpenCode 里的各种斜杠命令。 那不如干脆自己创建一些能在 UI 里直接调用的自定义命令。 这对构建、测试、Git 操作,甚至代码审查都特别有用。 我自己就会配一个用不同模型做代码 review 的命令,我把它想象成让另一双全新的眼睛来检查别人写的改动。
在 OpenCode 的 command 目录下,你可以像配置智能体一样,用 Markdown 去定义命令。
比如一个简单的 /build 命令。
我就不展开讲具体命令内容了,不然太浪费 token。
但你应该已经明白意思。
加好之后,执行构建命令,东西就编译好了,构建成功。 这里还展示了几秒钟前刚生成的二进制文件,证明工作确实完成了。
我还喜欢配的另一个命令是快速安全扫描。 这个既可以通过命令行扫描器实现,也可以通过 MCP 来做。 既然说到这,我们就来加一个 MCP 吧。
这时候就得配置 opencode.json 了,这也是我们前面一直在绕开的部分。
它一开始会给你一个很大的通用 schema,里面包含按键绑定、快捷键和各种可玩的配置项。
我这里会去接入 Snyk 的 MCP,它首先要求你安装 CLI。
装好后,跑 snyk test,就能先做一次快速安全扫描,告诉我依赖层面目前没问题。
实际上它还可以持续监控,并把结果展示在一个专门页面里,这点挺不错。
不过我们现在主要是为了 MCP。
在 opencode.json 里,把任意 MCP 作为一个对象加进去即可。
这个例子里只需要一个简单的本地运行命令。
然后我们就可以让 OpenCode 扫描整个项目,并且直接在聊天窗口里看到结果。 更棒的是,它不仅检查依赖,还能进一步检查代码本身。 这个过程需要一个简单的授权步骤。 那就看看 OpenCode 能不能替我处理。 答案是:可以。
来吧,终端界面的老兄,我们登录授权一下。 页面弹出来,权限开通,搞定。 这次它发现了两个低危问题,不算什么大事。 只是因为我没有告诉 Snyk 可以忽略测试文件,所以它合理地提示了一个硬编码凭证的问题。 也感谢 Snyk 赞助了这期内容,同时也给了我一个非常适合接入 MCP 的示例。 更多关于 Snyk MCP 的内容,可以去看下面的链接。
然后,OpenCode 和普通聊天界面一样,也会保存聊天历史,或者说“会话历史”。
输入 /sessions,就会弹出一个列表,你可以重新进入之前任意一次对话上下文。
当你打开某个旧会话时,除了聊天内容本身,还能看到 token 数量、上下文窗口占比,以及已经花了多少钱。 后面我会展示一个处理这个问题的小技巧。
不过先说另外一个点:
任何会话,不管新旧,都可以通过网页分享。
输入 /share,它就会把一个 URL 复制到剪贴板。
这个页面是公开可访问的,里面会展示模型、思考步骤、提示词结果、代码改动,以及你做会话审查、调试或头脑风暴所需要的一切。
等你用完之后,建议把这个分享撤掉,相当于把网页删掉。
再回到 token 和上下文窗口的问题。
和其他工具一样,你可以使用 /compact 来压缩对话。
它会让模型先做一个总结,把当前上下文浓缩成简短文本,从而释放出更多上下文空间。
这时候 token 占用就会大幅下降,窗口占比也几乎回到 0%。
当然,这个方法并不完美,信息在压缩过程中难免会有损失。 但大多数时候它已经足够好用,给人的感觉就像拥有了一个近乎无限的上下文窗口。
如果你不想公开分享,而是想导出会话,那么 /export 会把内容发送到你的编辑器中。
这就要求你预先设置好 editor 环境变量。
之后它会生成一个本地文件,里面包含会话总结。
有一点让我比较在意,就是它缺少和编程环境的深度集成。
你知道的,比如 Cursor、Windsurf,还有那些公司现在统称为 AI IDE 的各种 VS Code 分支。
所以 opencode.nvim 成了我新的完美武器。
它会在 Neovim 里加一个 OpenCode 子终端,让它直接在编辑器里和代码交互。 如果你用的是 LazyVim,只需要添加一个 OpenCode 的 Lua 文件。 这里我用的配置,基本就是直接从插件页面抄过来的那套。 安装并由 Lazy 自动加载后,我们就能玩很多东西了。
我把界面拉宽一点。
这也是我为什么这么喜欢 LazyVim:OpenCode 已经直接挂进菜单里了。
按 Leader O 再按 T 就能切换这个工具。
然后按 Leader A,我们就可以直接问 OpenCode 当前光标所在代码的问题。
比如一个非常经典的问题:“这一行到底是干嘛的?”
当你离开代码视图时,会发现 OpenCode 仍然在自己的 Neovim 终端窗格里运行。 这非常好,因为会话不会中断。 当然,结束时你也得顺手把那个终端一起关掉。
另一个命令是 Leader O E,它会直接解释你当前所在的那一行。
我们还可以先做一些改动,再用 Leader O S 选中一段内容并发出提示,比如让它做 Git 审查。
结果它很幸运地告诉我:按照当前配置,这个改动肯定会把代码搞坏。
这种提醒真的很有价值。
最后在收尾前,再补充一点,顺便做个演示,说明 OpenCode 到底哪里不一样。 当你运行一个会话时,底层实际上会启动一个本地的 OpenCode 服务,只监听本机。 然后你就可以调用这个本地 REST API,拿到会话列表、智能体列表,基本上等于你可以把这套工具集成到任何你想接入的地方。
而且还不止这些。
他们 GitHub 上还有一个非常聪明的功能,其他平台上也能用。
你可以运行 opencode github install,选择 provider,然后提交并推送新加的 GitHub Action。
之后只要有人在 issue 里提到 /oc 或 /open code,这个 action 就会启动一个任务,在项目和 issue 的上下文中运行指定模型,参与讨论。
OpenCode 还有很多其他选项和很棒的实用功能。 考虑到它本质上完全是为了用户体验而设计的,这个工具用起来真的很舒服。 再配上 Neovim,基本就是我能想到的最佳组合了。
当然,这一套对已经用上 LazyVim 的人来说尤其爽。 不管你是不是这种配置,我都建议你去看看旁边那期完整视频,确保你能把自己的 Neovim 体验发挥到最大。